娇色导航

????

??? ??

???
By ???

??? ?? | ???? ? ?? ???? ???

????
2025.05.234?
??? ??????? ???????? AI

???? ?? ???? ???? ??? ?? ??? ?????? ??? ??? ??? ???? ??. ??? ?? ??? ??? ???? ???, ??? ??? ??? ?????. ???? ? ?? ???? ???.

Data analysis science and big data with AI technology. Analyst or Scientist uses a computer and dashboard for analysis of information on complex data sets on computer. Insights development engineer
Credit: Khanchit Khirisutchalual

데이터는 원목, 원유와 같다. 처리되는 과정을 거쳐야 비로소 가치를 갖게 되는 자원이다. 데이터가 쌓인다고 정보가 되거나 지식으로 발전되지 않는다. (관련 칼럼: 데이터 비긴즈.) 프로그래머는 데이터를 정제하고 엑셀과 SQL로 다듬는다. 결측치를 제거하고, 이상치를 조정하며 데이터를 ‘쓸만한 정보’로 만들기 위해 노력한다. 생성형 AI의 시대의 대규모 언어모델(LLM)은 정제 과정 없이 데이터를 해석하고 의미를 도출한다.

데이터 처리와 지식 체계화

전통적 정보체계에서는 정답을 만들기 위한 데이터 축적이 중요했다. 데이터는 분석 과정에서 인간의 행위가 포함되어 정보와 지식으로 체계화됐다. 따라서 정보는 사실 내지는 자료에 지적인 처리를 가하여 지식으로 발전했고 이를 통해 의사결정으로 이어졌다.

데이터를 기반으로 정보가 추출되고 추출된 정보는 지식으로 이어지는 ‘데이터 정보 지식’의 선형적 관계를 가졌다. 인간은 정제와 필터링, 해석의 주체가 되었다. 한편, 가치 창출까지의 프로세스의 시간소요, 인간 중심의 해석으로 왜곡 등의 객관성 문제가 나타난다. 고정된 스키마와 질의 구조를 가진 SQL 기반의 기능적 한계와 인간 중심의 한계성을 내포했다.

단어의 의미는 벡터 관계에 있다

생성형 AI가 이끄는 데이터 처리 방식은 비선형 구조를 만든다. 즉 데이터를 입력 받으면 가공하여 정보로 만들지 않고 바로 의미 단위로 전환한다. 대규모 언어모델(LLM)과 비전 언어모델(VLM)의 등장은 데이터가 정제되지 않아도 되는 세계를 만들었다. 수많은 원천 데이터에서 단어 간 관계, 문맥 그리고 의미 기반으로 벡터화하며 학습한다. [그림1]은 소스데이터의 벡터화 과정과 벡터 데이터베이스로 저장되는 모습을 볼 수 있다. 저장된 벡터 데이터는 쿼리를 통해 의미로 나타나게 된다.

Vectorization and Vector Database

[그림1] 데이터의 벡터화 및 벡터 데이터베이스

최형광

이미지 모델은 픽셀 단위의 정보를 ‘개념’으로 해석하며, 영상 데이터는 시간의 흐름 속에서 의미를 추론한다. 이 과정에서 데이터는 사람이 정해 놓은 규칙으로 필터 되지 않고, AI의 시선으로 해석된다. AI는 스키마와 같은 정형화된 구조 없이 텍스트, 이미지, 음성, 영상 데이터를 스스로 해석하고 의미를 도출한다. 따라서 사람이 개입되는 정제의 과정이 사라지고, 데이터 해석이 곧 활용으로 직결되는 방식으로 전환된다.

AI 시대는 ‘데이터 정제’가 아닌 ‘데이터 이해’

생성형 AI에서는 정제된 데이터보다 날것 그대로의 데이터가 더 유용하게 활용된다. 이제 단어의 의미는 사전(dictionary) 속에서 찾는 것이 아니라 벡터 값의 관계에서 더 정확하게 찾을 수 있다. AI는 단어를 고정된 정의가 아닌, 문맥 속에서 어떤 의미로 쓰이는지를 벡터 공간에서 추론하기 때문이다. ‘강하다’라는 단어가 스포츠 기사에서는 ‘힘이 세다’는 뜻이고, 커피 리뷰에서는 ‘쓴맛이 강하다’로 해석되듯, AI는 이 차이를 맥락 벡터를 통해 실시간으로 구별한다. 모든 것은 맥락속에 벡터화 되어 있고 AI는 질문자의 문맥, 의도에 맞게 해석하여 답변한다. 심지어 질문자의 감정까지도 이해하고, 해석하며 대응한다.

생성형 AI 시대와 데이터 맥락

생성형 AI 시대에서 데이터는 선형적 기반이 아닌 비선형적 맥락(Context aware)과 확률 기반 데이터처리로 바뀐다. 데이터와 정보, 지식의 경계가 불분명해지고 데이터이면서 정보가 되고, 정보가 곧 지식이 될 수 있는 관계성을 갖는다.

LLM(Large Language Model)은 비정형 텍스트와 자료 데이터를 해석하여 문맥 기반 의미로 추론하여 답을 제공한다. VLM(Vision Language Model)은 이미지와 동영상 데이터를 텍스트화하여 인식하고, 내용을 해석하여 전달한다. LLM, VLM은 데이터의 종류가 어떤 것이든 실시간으로 질의 응답을 지원한다. 그에 따른 텍스트를 생성하고 영상을 요약 및 해석하고 대응을 지원한다.

데이터가 정보가 되는 프로세스가 축약되고 지능화되며 출력이 자동으로 이루어진다. 즉, 해석과 인식, 활용이 병행적, 동시적으로 발생한다. 이제는 데이터를 정리하고 클렌징하고 저장하여 인간이 분석하는 방법은 과거의 방식이다. 지금은 데이터를 입력하면 AI가 해석(심지어 의미조차)하고 출력(생성)해 준다. 출력된 데이터는 계속적인 서비스 개선을 위한 원천으로 피드백 된다.

정제하지 않는 새로운 데이터

인간의 언어는 모호하고 중립적인 특성을 지닌다. 단어의 벡터화는 이를 해결하는 방법이다. 단어의 거리와 유사도로 관계의 구현이 시도되었다. 앞서 설명한 임베딩(Embedding)은 모든 데이터(텍스트, 사운드, 이미지, 코드와 동영상)를 의미 벡터공간으로 수치화하고 변환한다. 이를 통해 정형화 없이 문맥과 유사성으로 비교와 검색, 의미 기반의 추론을 가능하게 한다.

데이터가 부족할 경우, 합성 데이터(Synthetic Data)가 대안이 된다. 생성형 AI는 과거 사례를 기반 또는 시뮬레이션 환경에서 새로운 데이터를 만든다. 그 기술은 점점 정교해지고 다양한 분야에서 실제 데이터를 대신할 수 있을 정도로 활용도가 높아졌다. 물론, 현실성과 대표성이 떨어질 수 있고, 편향이 강화될 가능성도 있다. [그림2]에서는 새로운 합성데이터 성장과 생성을 볼 수 있다.

Synthetic Data Prospects and Synthetic Data Generation

[그림2] 합성데이터 전망과 합성데이터 생성.

RAG(Retrieval Augmented Generation 검색 증강 생성), VLM 등은 필요할 때 외부 문서나 데이터 베이스에서 정제된 지식베이스 없이도 실시간 답변으로 반응한다. 이러한 기술 등장은 데이터 전략 수립의 새로운 트리거가 되고 있다.
데이터가 의미 중심으로 통합되어 질의와 추론 속에서 활용됨으로써 언어의 진정한 이해에 다가서고 있다. 데이터 정제는 분석을 위해 필요한 과정이 아니라 모델이 이해하지 못할 때 필요한 과정일 뿐이다. 중요한 것은 데이터 정제의 정확성이 아니라, 해석의 맥락과 활용의 창의성이다. 데이터는 더 이상 정제되지 않는다.
dl-foundryco.com