AI시대: AI 활용, 정보이론 관점의 AI 알아보기

다양한 AI 서비스들이 등장하면서, AI를 활용할 수 있는 일의 종류도 늘어나고 있습니다.

생성형 AI의 경우, 기본적으로 입력 프롬프트를 통해 주어진 정보를 바탕으로 출력을 만들어 냅니다. 즉, 입력된 정보를 출력된 정보로 변환하는 과정입니다.

정보이론의 정보의 양 관점에서 이를 구분해 보면, 정보의 양이 줄어드는 일, 비슷한 일, 늘어나는 일의 3가지 구분이 가능하고, 각각의 기술적 난이도와 출력에 대한 신뢰도, 흔한 실수 패턴 등이 서로 다를 것입니다.

이번 글에서는 AI 활용을 정보의 양에 따라 구분하고, 각각의 특징과 유의할 점에 대해 살펴보겠습니다. 다만, 이 글에서는 모델 구현의 기술 및 인코딩의 난이도는 고려하지 않고, 정보의 양 측면에서만 이야기하겠습니다.

세 가지 작업 유형: 압축 / 보존 / 생성

정보이론은 1948년 클로드 섀넌이 「A Mathematical Theory of Communication」을 발표하며 정립된 분야로, 정보의 양과 정보의 흐름을 다룹니다. 서울대학교 물리교육과 조정효 교수는 정보이론이 통신을 넘어 ‘수학, 통계학, 물리학, 생물학, 그리고 머신러닝에도 큰 영향을 미치고 있다’고 설명합니다. AI 시대에 정보이론으로 작업의 본질을 바라보는 시도는 그 연장선에 있습니다.

AI가 정보를 처리하는 작업도 정보의 흐름이라는 관점에서 보면, 자연스럽게 아래와 같이 세 가지 구분이 가능합니다.

압축(Compression): 입력보다 출력의 정보량이 줄어드는 작업
보존(Preservation): 입력과 출력의 정보량이 비슷한 작업
생성(Generation): 입력보다 출력의 정보량이 늘어나는 작업

핵심 원리는 하나입니다. 정보가 줄어드는 방향은 신뢰도가 높고, 늘어나는 방향은 신뢰도가 낮습니다. 줄이는 일은 이미 있는 것 중에서 고르는 일이고, 만드는 일은 없는 것을 채우는 일이기 때문입니다.

특히, AI가 정보를 채워 넣는 과정에서 사실과 다른 거짓말, 즉 할루시네이션(hallucination)이 발생할 수 있는데, 정보가 늘어나는 방향에서 그 빈도와 영향이 커진다고 볼 수 있습니다.

① 정보 압축 — 줄이는 일

큰 것을 작게 만드는 작업입니다. 입력이 출력보다 크기 때문에, 오류가 생겨도 영향이 제한적입니다.
‘요약’이나 ‘분류’ 작업이 정보 압축에 해당하며, AI를 상대적으로 안전하게 활용할 수 있는 영역입니다.

요약 작업의 사례로 회의록 요약, 계약서 핵심 추출, 가계부 패턴 분석 등을 생각해 볼 수 있고, 분류 작업의 경우는 이메일 중요도 분류, 사진 주제 분류, 고객 리뷰 긍/부정 분류 등이 있을 수 있습니다.

코딩 관련해서는 함수에 대한 자연어 요약 주석(Comment) 작성, 수정 전후 차이점에 대한 PR(Pull Request) 설명 작성, 변경된 코드에 대한 코드 리뷰, 실행 로그로부터 에러 패턴 추출, 긴 스택 트레이스에서 원인 후보 추출 등이 가능합니다.

정보 압축 관련 작업을 할 때 가장 유의할 점은 요약된 결과만 보면 누락된 정보를 놓칠 수 있다는 점입니다. 즉 무엇을 버렸는지 모르는 것이 가장 위험할 수 있기 때문에, 그 부분에 대한 보완 장치를 고려해야 합니다. 그 외 숫자, 날짜, 고유명사가 정확한지, 요약 내용이 앞부분에 편향되지는 않았는지, 원본에 없던 정보가 추가되는 할루시네이션이 발생하지는 않았는지를 살펴봐야 합니다.

② 정보 보존 — 형태만 바꾸는 일

내용은 같고 모양만 바꾸는 작업입니다. 입력과 출력의 정보량이 비슷하기 때문에, 상대적으로 ‘틀릴 여지’가 적습니다.
‘번역’이나 ‘변환’ 작업이 정보 보존에 해당하며, 압축 다음으로 안전하게 AI를 활용할 수 있는 영역입니다.

번역 작업의 사례로 한국어 ↔ 영어 번역, 텍스트를 음성으로 옮기는 음성합성(TTS), 손글씨나 영수증을 디지털 텍스트로 변환하는 OCR 등을 생각해 볼 수 있고, 변환 작업의 경우는 격식체와 구어체 사이의 톤 변환, 표 데이터를 차트로 시각화 등이 있을 수 있습니다.

코딩 관련해서는 동작은 그대로 두고 구조만 개선하는 리팩토링, Python ↔ JavaScript 같은 프로그래밍 언어 간 코드 변환, 팀 컨벤션에 맞춘 코드 포맷팅 및 변수/함수명 일괄 리네이밍(Renaming), 코드 구조를 UML이나 시퀀스 다이어그램으로 시각화하는 작업, JSON ↔ YAML ↔ XML 같은 데이터 포맷 간 변환 등이 가능합니다.

정보 보존 관련 작업을 할 때 가장 유의할 점은 겉보기엔 같지만 의미가 미묘하게 달라진 결과를 놓칠 수 있다는 점입니다. 특히 법률, 의학, 계약 문서 번역처럼 도메인 전문성이 필요한 영역, 관용구나 문화적 뉘앙스가 중요한 마케팅 문구, 그리고 언어 간 패러다임 차이가 큰 코드 변환(예: Python의 list comprehension을 Go로 옮기기)에서 의미 손실이 발생할 수 있습니다. 간혹 원문에 없던 사실을 더하거나 왜곡하는 할루시네이션이 발생할 수도 있어 주의가 필요합니다.

또한 코드 리팩토링은 본질적으로 같은 동작을 보존하는 것이 핵심이므로, 이를 검증할 수 있는 테스트 환경을 구축하는 것이 필수입니다.

③ 정보 생성 — 만들어내는 일

짧은 입력에서 긴 출력을 만들어내는 작업입니다. 입력에 없던 정보가 출력에 포함되어야 하기 때문에, AI는 학습된 모델 분포에서 없는 부분을 채워 넣는 과정을 거치게 됩니다. 이 과정에서 할루시네이션이 발생할 가능성이 가장 높고, 상대적으로 신뢰도가 가장 낮고 검증이 가장 많이 필요한 영역입니다.

생성 작업의 사례로 이메일이나 메시지 작성, 블로그 글이나 SNS 포스트 작성, 광고 카피와 제품 설명 작성, 시장 조사 보고서나 인물 프로필 같은 자료 작성 등이 있고, 멀티모달 영역에서는 이미지 생성(DALL-E, Midjourney), 영상·음악 생성(Sora, Suno) 등이 있습니다. 그 외 신사업 아이디어 브레인스토밍, 여행 일정/식단 계획 수립처럼 조건만 주고 전체를 만들어내는 작업도 여기에 속합니다.

코딩 관련해서는 요구사항을 받아 함수나 모듈을 만들어내는 코드 생성, 프로젝트 초기 구조를 자동으로 잡아주거나 함수 시그니처를 보고 테스트 케이스를 작성하는 일, 문제만 받아 알고리즘을 구현하는 작업, OpenAPI 스펙으로부터 API 클라이언트 SDK를 자동 생성하는 작업, 그리고 디자인 시안을 React 컴포넌트로 변환하는 작업 등이 가능합니다. 아마 최근 코딩 에이전트에게 기대하는 대부분의 작업이 여기 해당될 것입니다.

정보 생성 관련 작업을 할 때 가장 유의할 점은, AI가 빈 공간을 그럴듯하게 채워 넣는다는 사실 자체입니다. 출처, 통계, 인물 정보를 사실처럼 만들어내는 할루시네이션을 점검해야 하고, 사실 기반 글의 경우는 출처를 일일이 확인해야 합니다. 또한 명세가 모호할수록 AI가 임의로 빈칸을 채우는 경향이 강해지므로, 지시는 구체적이고 예시와 함께 주는 것이 좋습니다.

코드 생성의 경우 컴파일은 되지만 코너케이스를 처리하지 못하는 경우가 많기 때문에, 보안/인증/결제처럼 실수가 치명적인 영역은 더 엄격한 검증이 필요합니다. 특히 AI가 만든 테스트 코드는 의도된 동작이 아니라 현재 구현된 동작을 검증하는 경향이 있어, 잘못 구현된 함수도 통과시킬 수 있다는 점을 기억해야 합니다.

AI 기술을 평가할 때 봐야 할 것

새로운 AI 모델, 도구, 솔루션이 매일매일 발표됩니다.
무엇을 도입할지 판단할 때, 정보이론의 세 영역 관점은 좋은 출발점이 될 수 있습니다.

Step 1. 이 기술은 어느 영역에 속하는가

가장 먼저 던질 질문은 ‘이 기술은 정보를 줄이는가, 보존하는가, 만들어내는가’ 입니다.

대부분의 AI 기술은 세 영역 중 하나에 주로 속하지만, 복합적인 경우도 많습니다.
예를 들어, 회의 어시스턴트는 음성→텍스트(보존) + 회의록 요약(압축) + 액션아이템 도출(생성)이 결합되어 있습니다. AI 코딩 에이전트는 코드 분석(압축) + 리팩토링(보존) + 코드 생성(생성)이 모두 들어갑니다. 이런 경우는 각 단계를 분해해서 영역별로 따로 평가해야 합니다.

영역이 정해지면, 그 영역의 본질적 특성에 맞는 질문을 던질 수 있습니다.

Step 2. 영역별로 본질에 맞는 질문 던지기

① 압축 영역: ‘무엇을 버리고 무엇을 살렸는가’가 핵심입니다. 단순 압축률이 아니라 중요한 정보를 놓치지 않는 능력, 그리고 어떤 데이터에 연결되어 있는가가 차별화 포인트입니다.

② 보존 영역: ‘의미가 그대로 옮겨졌는가’가 핵심입니다. 일반 작업은 이미 평준화되어 있으므로, 법률, 의학, 코딩처럼 도메인 정확성이 요구되는 영역에서의 신뢰도가 차별화 포인트입니다.

③ 생성 영역: ‘얼마나 사실에 가까운가, 그리고 검증할 수 있는가’가 핵심입니다. 할루시네이션 빈도, 출처 추적 가능성, 사람이 결과를 빠르게 검증할 수 있는 형태인지가 중요합니다.

Step 3. 영역과 무관하게 봐야 할 공통 항목

세 영역 모두에 공통으로 적용되는 점검 사항이 있습니다.

컨텍스트 윈도우: 처리 가능한 입력 크기
도메인 적응성: 우리 업무 영역에 얼마나 맞는가
비용: 단위 작업당 비용과 운영 비용
검증 비용: 결과물을 사람이 확인하는 데 드는 시간

특히 마지막 검증 비용이 가장 중요합니다. 생성 속도가 빨라도 검증 비용이 그 이상이라면, 적용에 신중해야 합니다.
화려한 데모에 휘둘리지 않으려면 이 질문을 늘 던져야 합니다.

맺음말

AI를 잘 쓰는 조직은 AI에게 무엇이든 맡기는 조직이 아닙니다.
정보가 어느 방향으로 흐르는지 파악하고, 그에 맞는 검증 체계를 갖춘 조직입니다.

AI의 역량은 빠르게 커지고 있습니다.
하지만 정보가 늘어나는 방향에는 항상 사람의 판단이 필요하다는 원칙은, 변하지 않을 것입니다.

ChulJoo Kim (김철주)

※ 참고문헌

조정효, 「머신러닝과 정보이론: 작동원리의 이해」, 고등과학원 HORIZON, 2021. https://horizon.kias.re.kr/18474/
Claude E. Shannon, 「A Mathematical Theory of Communication」, Bell System Technical Journal, 1948. https://onlinelibrary.wiley.com/doi/abs/10.1002/j.1538-7305.1948.tb01338.x

아.. 나도 다시 사면 YL 사고 싶은데.. 일단 생각이 있으면 어차피 시간 좀 걸리니까 오늘이라도 주문을 해요. 머 생각 바뀌면…

오.. 둘째가 대단하네요. 어떤 스킬일지 궁금하네 ㅋ 요새는 AI를 피할수 없으니, 잘 쓰는 방법을 익히는 게 더 중요할듯. :)

이 블로그를 저희 둘째녀석에게 소개해줬더니, 어느새 Skill을 만들어서 학교 공부에 써먹고 있네요.. 공부를 위한 것이라고 하니 봐주고 있긴 한데, 벌써…

(예전부터 친숙한 표현인) CJ님, 안녕하세요. 저도 드디어 테슬라족이 되기로 일단 마음까지는 먹었습니다. 6월 중에 테슬라 YL 모델로 알아보려고 합니다~ 정성스런…

워드프레스가 블로그에 나름 최적화된거고, 역사도 오래됬죠. 사용하기 편합니다. ^^

목 차