- Open MPIC project defends against BGP attacks on certificate validation
- Netflix is cutting off older Fire TV devices in a few days - how to see if you're affected
- Why the argument for WFH could get a big boost from AI
- Oversharing online? 5 ways it makes you an easy target for cybercriminals
- Operational and Financial Benefits of Energy Utility Network Digitization
최형광 칼럼 | 데이터는 더 이상 정제되지 않는다

단어의 의미는 벡터 관계에 있다
생성형 AI가 이끄는 데이터 처리 방식은 비선형 구조를 만든다. 즉 데이터를 입력 받으면 가공하여 정보로 만들지 않고 바로 의미 단위로 전환한다. 대규모 언어모델(LLM)과 비전 언어모델(VLM)의 등장은 데이터가 정제되지 않아도 되는 세계를 만들었다. 수많은 원천 데이터에서 단어 간 관계, 문맥 그리고 의미 기반으로 벡터화하며 학습한다. [그림1]은 소스데이터의 벡터화 과정과 벡터 데이터베이스로 저장되는 모습을 볼 수 있다. 저장된 벡터 데이터는 쿼리를 통해 의미로 나타나게 된다.
[그림1] 데이터의 벡터화 및 벡터 데이터베이스
최형광
이미지 모델은 픽셀 단위의 정보를 ‘개념’으로 해석하며, 영상 데이터는 시간의 흐름 속에서 의미를 추론한다. 이 과정에서 데이터는 사람이 정해 놓은 규칙으로 필터 되지 않고, AI의 시선으로 해석된다. AI는 스키마와 같은 정형화된 구조 없이 텍스트, 이미지, 음성, 영상 데이터를 스스로 해석하고 의미를 도출한다. 따라서 사람이 개입되는 정제의 과정이 사라지고, 데이터 해석이 곧 활용으로 직결되는 방식으로 전환된다.
AI 시대는 ‘데이터 정제’가 아닌 ‘데이터 이해’
생성형 AI에서는 정제된 데이터보다 날것 그대로의 데이터가 더 유용하게 활용된다. 이제 단어의 의미는 사전(dictionary) 속에서 찾는 것이 아니라 벡터 값의 관계에서 더 정확하게 찾을 수 있다. AI는 단어를 고정된 정의가 아닌, 문맥 속에서 어떤 의미로 쓰이는지를 벡터 공간에서 추론하기 때문이다. ‘강하다’라는 단어가 스포츠 기사에서는 ‘힘이 세다’는 뜻이고, 커피 리뷰에서는 ‘쓴맛이 강하다’로 해석되듯, AI는 이 차이를 맥락 벡터를 통해 실시간으로 구별한다. 모든 것은 맥락속에 벡터화 되어 있고 AI는 질문자의 문맥, 의도에 맞게 해석하여 답변한다. 심지어 질문자의 감정까지도 이해하고, 해석하며 대응한다.