상세문의 아이콘 상세문의
간편문의 아이콘 × 간편문의

GEO 용어사전 · AI 동작 원리

멀티모달

Multimodal

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트

텍스트뿐 아니라 이미지·표·음성·영상까지 함께 이해·생성하는 AI. 글 외의 형식도 인용 근거가 될 수 있다는 뜻이다.

초기 LLM은 글만 다뤘지만, 최근 모델은 이미지·도표·음성·영상을 함께 처리합니다(멀티모달). 사용자가 사진을 올려 묻거나, AI가 표·차트의 내용을 읽어 답에 반영하는 것이 가능해졌습니다.

GEO 관점에서 멀티모달은 인용 가능한 표면을 넓힙니다 — 잘 만든 인포그래픽·도표·이미지의 대체텍스트·캡션도 AI가 읽어 근거로 삼을 수 있습니다. 이미지에 의미 있는 alt·캡션·구조화 데이터를 붙이고, 그림이 전하는 내용을 본문 텍스트로도 함께 설명해 두는 것이 안전합니다. 다만 어떤 형식을 얼마나 활용하는지는 모델마다 다르므로, 텍스트 근거를 함께 두는 편이 좋습니다.

HTML 그림의 의미를 alt·캡션으로도 남겨 AI가 읽게 한다
<!-- 그림도 읽히게: alt + 캡션 + 본문 설명을 함께 -->
<figure>
  <img src="rag-flow.png"
       alt="RAG 파이프라인: 검색 단계에서 인용 출처가 정해진다">
  <figcaption>RAG는 검색 → 주입 → 생성 순으로 작동한다</figcaption>
</figure>

왜 GEO에서 중요한가

글이 아닌 이미지·표·캡션도 인용 근거가 될 수 있습니다. 시각 자료에 텍스트 의미를 함께 붙이는 것이 안전합니다.

함께 읽기 · 넥스트티 인사이트

GEO 완전 가이드