AI는 왜 출처까지 표시하고
자신 있게 틀릴까

정보를 잘 정리할수록,
AI는 틀릴 때도 더 그럴듯해집니다

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-06-03

결론부터 — 구조를 깐다고 정답이 되는 건 아닙니다

AI가 정보를 저장하고 찾고 판단하는 방식은 하나가 아닙니다. "지식 그래프"도 그중 한 가지일 뿐, 그 뒤엔 서로 다른 방식이 섞여 있죠. 그래서 정보를 잘 정리해 둘수록 AI는 정답도, 틀린 답도 더 그럴듯하게 말합니다 — 틀린 답이 줄어드는 게 아니라, 틀린 답마저 더 그럴듯해 보이게요.

1AI가 답하는 방식은 하나가 아닙니다 — 어떤 건 그때 검색해서 가져오고, 어떤 건 이미 배운 걸 꺼내고, 어떤 건 답변 규칙에 따라 말합니다. "지식 그래프"라는 말이 딱 맞는 건 그중 하나(구글 지식 그래프·위키데이터)뿐입니다.
2출처까지 붙은 틀린 답은 더 그럴듯해 보입니다. 가장 위험한 건 AI가 우리 브랜드를 다른 회사로 착각하는 일 — 엉뚱한 대상과 묶여버리는 거죠.
3이 글에서 아직 논쟁 중인 내용은 가설이라고 표시해 뒀습니다 — 자신 있게 틀리는 AI를 비판하면서, 우리도 같은 실수를 하지 않으려고요.
→신뢰는 정보를 잘 정리했다고 생기는 게 아니라, 여러 곳에서 같은 사실이 확인되고 시간이 지나도 뒤집히지 않을 때 생깁니다.

이 글은 「기억층 vs 검색층」의 짝입니다 — 그 글이 "무엇이 AI 기억에 들어가나"라면, 이 글은 "들어간 것이 어떻게 저장되고, 왜 그 구조가 틀린 답까지 그럴듯하게 만드나"입니다.

CONFIDENTLY WRONG

출처까지 표시하고, 자신 있게 틀린 AI

어설프게 틀리는 것과, 그럴듯하게 틀리는 것은 다른 종류의 위험입니다.

한 생성형 AI 답변 엔진이 우리에 대해 답하면서, 출처 링크까지 보여주며 그럴듯하게 설명했습니다. 그런데 그 내용 일부가 틀려 있었죠. 출처 없이 틀린 답도 말이 매끄러우면 충분히 그럴듯할 수 있습니다 — 다만 거기에 출처와 구조까지 붙으면, 틀렸는데도 한층 더 권위 있어 보입니다. 처음엔 "왜 이렇게 당당하게 틀리지?" 싶었습니다.

TWO KINDS OF ERROR

비구조 오류

어설프게 틀린다

출처가 없으면 "확실치 않네" 하고 한 번 더 의심할 여지가 생깁니다(물론 말이 매끄러우면 이것도 속을 수 있습니다).

구조화된 오류

그럴듯하게 틀린다

출처·구조가 붙어 더 그럴듯합니다. 틀렸는데도 권위 있게 보이는, 더 까다로운 위험입니다.

* "어설픔/그럴듯함"은 경향을 가리키는 비유입니다 — 어떤 방식이든 잘못된 답은 나올 수 있습니다. 다만 구조가 붙으면 오류의 *설득력*이 올라가는 경향이 있습니다. 정확히는 구조 자체보다, 구조에 붙은 출처·정리된 형식 같은 신호가 오답을 더 그럴듯해 보이게 만드는 경우가 많습니다.

먼저 두 가지를 짚어 둡니다. ① 이 글의 '기억'·'그래프'·'층'은 *의도된 비유*입니다 — AI 안에 칸칸이 분리된 물리적 구조가 있는 건 아닙니다. ② AI는 크게 두 가지로 답합니다 — 하나는 오래 배운 걸 꺼내 말하는 방식, 다른 하나는 그때그때 검색해서 가져오는 방식(업계에선 RAG라고 부릅니다. 자세히는 기억층 vs 검색층). 이 글은 그 위에서 "구조(그래프)"가 어디에 끼는지를 봅니다.

DOUBLE HONESTY

두 가지 과장을 함께 걷어냅니다

업계의 과장도, AI 작동에 대한 과장도 — 둘 다 그대로 두지 않습니다.

업계의 과장 ①

"구조화하면 더 정확해집니다."

절반만 맞습니다. 구조화는 정확도를 높이기도 하지만, 틀릴 때는 그 틀린 답을 더 그럴듯해 보이게 만들기도 합니다. 그래서 중요한 건 "구조를 깔아라"가 아니라 "올바른 대상에 제대로 연결하라"입니다.

작동에 대한 과장 ②

"AI가 지식 그래프 경로를 탐색해 추론합니다."

많은 상용 생성형 AI 답변은 그래프 경로 탐색보다 관련 문서를 찾아오는 방식(RAG)에 크게 의존합니다. 일부 엔터프라이즈 검색 시스템에서는 지식 그래프를 불러오기 단계에 결합하는 시도(이른바 GraphRAG)가 늘고 있어 "경로 탐색"이 전부 틀린 건 아니지만, 일반 상용 챗 응답의 기본 방식으로 보긴 어렵습니다. 그리고 답에 출처가 붙는다고 해서 AI가 지식 그래프를 따라가며 추론했다는 뜻은 아닙니다. 대부분은 검색으로 가져온 문서와 그 문서 정보가 답변에 함께 표시된 결과에 가깝습니다. 문제는 출처 자체가 아니라, 출처와 구조가 붙으면서 틀린 답도 더 믿을 만해 보인다는 점입니다.

우리의 입장 (editorial)

우리는 지식 그래프를 "사람 뇌를 흉내 낸 것"이 아니라, 사람이 따로 만들어 붙인 보조 장치로 봅니다. 우리 관점 사람의 기억이 실제로 어떤 구조로 저장되는지는 아직 단정하기 어렵습니다. 그래서 "뇌가 이러니까 그래프는 보조 장치다"라고 단정하지는 않습니다. 다만 실무에서 보면, 그래프는 AI 바깥에서 사람이 "이건 이 회사, 이건 저 제품" 하고 직접 정리해 붙인 것이라는 점은 분명합니다.

ONE WORD, FOUR MECHANISMS

"지식 그래프"는 한 단어, 방식은 넷

이 넷을 구분하지 않는 것이 GEO에서 가장 흔한 오해입니다.

사람들이 "AI 지식 그래프"라고 부르지만, 실제론 서로 다른 방식 네 가지가 섞여 있습니다. "그래프"라는 말이 진짜 맞는 건 그중 하나뿐입니다.

①

명시적 지식 그래프

구글 지식 그래프·위키데이터. "A는 B다" 식으로 정리해 둔 DB로, 같은 대상인지 가려냄.쉽게: 주민등록 DB

그래프? 예 (문자 그대로)

바깥에 정리된 DB

②

검색해서 불러오기

검색해서 관련 문서를 가져온 뒤, 그 내용으로 답함. 경로를 따라가며 추론하진 않음.쉽게: 그때그때 검색해 가져옴

그래프? 아니오

검색층

③

모델 내부 기억

학습으로 모델 안에 자리 잡은 지식. 점과 선으로 분명하게 이어진 그래프는 아님.쉽게: 오래 외워버린 상식

그래프? 아니오

기억층

④

답을 고르는 규칙

답변을 고르는 규칙. 같은 기억이라도 이 규칙·순위에 따라 보이는 답이 달라짐.쉽게: 같은 기억도 방침 따라 답이 달라짐

그래프? 아니오

실제로 보이는 답변

↕ 이 네 가지에 공통으로 걸리는 문제가 하나 있습니다 — "이 이름이 정말 그 회사가 맞나?"를 가려내는 일(개체해소)입니다. 여기서 한 번 헷갈리면, 네 가지 어디에서든 엉뚱한 회사의 정보가 우리 것으로 섞여 들어옵니다.

그래서 "스키마만 적용하면 AI가 안다"는 절반만 진실입니다. 스키마는 ①(외부 지식 그래프 식별)과 ②(검색해서 불러오기)엔 직접 도움이 되지만, 논쟁 중 검색 없이 답하는 일반 챗봇에선 스키마가 직접 영향을 준다는 증거가 아직 약하고, ③(모델 내부 기억)엔 직접 들어가지 않습니다. 다만 걷어내는 건 "적용만 하면 기억에 남는다"는 직접 과장뿐 — 스키마의 간접 효과(검색 노출·엔티티 연결 등)는 작지 않습니다.

또 AI Overview 같은 답변 화면은 별도의 방식이 아니라 ②+③+④가 섞여 나온 결과입니다. 그리고 이 넷은 한 번에 하나만 작동하지 않고 한 답 안에서 섞입니다 — 구분은 "어느 기제가 우세했나"를 보기 위한 틀입니다.

THE REAL DANGER

가장 위험한 건, 엉뚱한 대상과 묶이는 일

AI가 우리 브랜드를 다른 회사와 헷갈리면, 잘 정리된 구조가 그 착각을 더 그럴듯하게 만듭니다.

추상적으로 들리지만, 마케터에게 가장 현실적인 공포는 이것입니다 — 우리 회사가, 이름 비슷한 다른 업체나 평판 나쁜 곳과 하나로 단단히 묶여버리는 것. 한번 묶이면 그 틀린 정보가 출처까지 표시하고 계속 퍼집니다. 이렇게 다른 대상과 묶이면 AI는 틀린 답을 더 확실한 사실처럼 말하게 됩니다.

우리 회사진짜 우리

이름 비슷한 다른 회사전혀 다른 곳

→

AI가 둘을 같은 곳으로 착각

둘을 하나로 잘못 묶어, 출처까지 붙은 그럴듯한 오류로 퍼뜨림

이게 "구조화된 오류"의 가장 심각한 형태입니다. 정리가 안 된 곳이라면 그냥 지나갈 혼동이, 잘 정리된 정보 위에선 분명한 사실처럼 굳습니다. 이 문제는 방식마다 모습이 다릅니다 — 지식 그래프에선 '두 대상을 하나로 합쳐 버리는' 식으로, 검색(RAG)에선 '이름 비슷한 다른 곳의 글이 같이 딸려 와 답에 섞이는' 식으로 나타납니다(그래프만의 문제가 아닙니다). 그래서 우리는 "정보를 더 정리하자"가 아니라 "누가 누구인지부터 똑바로 맞추자"를 먼저 말합니다.

잠깐 — 당신의 브랜드는 지금 AI 안에서 어떤 것들과 묶여 있을까요? 한 번도 확인해 본 적이 없다면, 그 자체가 점검이 필요한 신호입니다.

WHAT MAKES IT STICK

무엇이 한 번의 언급을 '사실'로 굳히나

연결선 숫자가 아니라, 서로 다른 곳의 일치, 그리고 시간입니다.

무엇이 어떤 정보를 '사실'처럼 굳힐까요? 연결선이 많다고 되는 게 아닙니다. 서로 다른 여러 곳에서 비슷한 내용이 반복되는 것(교차확인)이 더 중요합니다. 가설 다만 정확히는, AI가 "여러 곳이 같은 말을 하네" 하고 사람처럼 판단하는 게 아닙니다 — 믿을 만한 곳일수록 더 많이 인용되니 학습 자료에 그만큼 자주 나오고, 서로 많이 인용된 글이 검색에서도 위로 올라와 더 자주 불려옵니다. 그게 쌓여서 그렇게 보일 뿐입니다.

그리고 — 시간의 문제

가상의 예를 들어보죠. 어떤 회사가 대표를 새로 바꿨는데, AI는 한참 동안 전 대표를 현 대표라고 말합니다. 사실이 바뀌었는데 시스템이 그 변화를 아직 모르는 것이죠. 사실에는 "세상에서 참이던 기간"과 "시스템이 알게 된 시점"이 따로 있습니다.

사실이 바뀜새 대표 취임 ┄ 시스템은 아직 모름전 대표를 답함 → 반영 후현 대표를 답함

설명 개념 데이터를 다루는 쪽에서는 '사실이 참이던 기간'과 '시스템이 그걸 알게 된 시점'을 따로 적어 두는 방법이 있습니다(전문용어로는 bitemporal이라 하지만, 용어는 몰라도 됩니다). 다만 이건 어떤 데이터베이스든 쓸 수 있는 방법이지, "그래프라서" 생기는 차이가 아닙니다. 시간 정보를 안 넣어 두면 어떤 구조든 오래된 답을 그대로 자신 있게 말하게 됩니다.

WHERE WE DRAW THE LINE

우리가 보장하지 않는 것, 그리고 책임지는 것

자신 있게 틀리는 AI를 비판하려면, 우리부터 단정하지 않아야 합니다.

그래서 이 글의 다툼 있는 명제들엔 가설·논쟁 중·설명 개념 표시를 달았습니다. 글의 주장과 글의 행위를 일치시키기 위해서입니다 — 측정의 경계를 말하는 글이, 자기 주장을 인과로 단정해 버리면 스스로 모순이 되니까요.

보장하지 않습니다

✕AI가 우리를 기본 지식처럼 말하게 되는 시점 — 모델 학습 주기·내부 정책에 달려 통제·예측 불가.
✕같은 회사인지 100% 정확히 구분 — 모델·엔진 내부에서 묶는 일은 우리가 직접 통제하지 못합니다.
✕검색·답변 순위 — 특정 위치·노출의 보장.

우리가 책임집니다 · 관측 가능 신호

✓이름·정의 통일 — 우리 이름·정의가 여기저기서 다르게 나오지 않게 모든 곳에서 하나로 맞춰, 엉뚱한 대상과 섞일 여지를 줄임.
✓출처 구조 정리 — 누가·언제·무엇을 말했는지 구조를 분명히.
✓다시 나오는지 확인 — 최신 검색에 덜 기대게 물어봐도 같은 답이 다시 나오는지 반복해서 봅니다.

우리는 결과를 보장한다고 약속하지 않습니다 — 대신 측정할 수 있는 신호만 차곡차곡 쌓습니다. 신뢰는 정보를 잘 정리했다고 생기는 게 아니라, 여러 곳에서 같은 사실이 거듭 나타나고 시간이 지나도 뒤집히지 않을 때 생깁니다.

우리가 틀릴 수 있는 경우 — 우리도 우리 가설을 의심합니다

·구조화 여부와 무관하게 오류율·설득력에 차이가 없다면 — "구조가 오류를 권위화한다"는 우리 전제가 흔들립니다.
·이름·정의를 맞추는 작업 뒤에도 같은 회사인지 잘못 구분하는 오류가 줄지 않는다면 — 그건 우리 통제 밖(모델 내부)임을 인정해야 합니다.
·여러 곳 확인 없이 한 출처만 반복돼도 AI가 사실처럼 말한다면 — "여러 곳의 독립 확인이 핵심"이라는 우리 가설을 고쳐야 합니다.

이 세 가지는 우리가 틀렸는지 보려고 일부러 지켜보는 경우입니다. 맞을 때만 보는 게 아니라, 어디서 틀릴 수 있는지를 먼저 정해 둡니다.

FROM THE FIELD

AI가 출처까지 표시하고 자신 있게 틀린 날,
그 오류는 종종 우리가
너무 잘 정리해준 구조 덕분이었습니다.

그래서 우리는 결과를 보장한다고 약속하지 않습니다 — 대신 측정할 수 있는 신호만 다듬습니다. 구조를 깐다고 정답이 되는 건 아닙니다. 그 구조가 올바른 대상에 제대로 붙어 있을 때만 믿을 수 있습니다.

FAQ

자주 묻는 질문

Q1 스키마 마크업을 적용하면 AI가 우리 브랜드를 기억하나요? ▾

절반만 맞습니다. 스키마·구조화 데이터는 구글 지식 그래프 같은 외부 데이터에서 같은 대상을 가려낼 때와, 검색(RAG) 단계에서 문서를 불러올 때는 직접 도움이 될 수 있습니다. 다만 검색을 쓰지 않는 일반 챗봇 답변에 스키마가 직접 영향을 준다는 증거는 아직 약하고 논쟁적이며, 모델이 학습으로 익힌 지식(장기 기억)에는 직접 들어가지 않습니다. "적용만 하면 AI가 안다"는 단정은 이 셋을 구분하지 않은 과장입니다.

Q2 AI는 지식 그래프의 경로를 탐색해서 답을 추론하나요? ▾

대부분은 아닙니다. 문자 그대로의 "그래프 경로 탐색"은 구글 지식 그래프·위키데이터 같은 명시적 지식 그래프에서 일어나는 일입니다. 많은 상용 생성형 AI 답변은 지식 그래프 경로 탐색보다 관련 문서를 찾아오는 방식(RAG)에 크게 의존하며, 일부 시스템에서는 구조화된 자료를 함께 불러오는 방식이 보조로 쓰이기도 합니다. "지식 그래프"라는 한 단어가 서로 다른 방식을 덮고 있다는 점을 구분하는 것이 출발점입니다.

Q3 구조화하면 더 정확해진다는데, 왜 위험할 수 있나요? ▾

구조화는 정확도를 높이기도 하지만, 틀릴 때는 그 틀린 답을 더 그럴듯해 보이게 만들 수도 있습니다. 출처와 구조가 붙은 잘못된 연결(예: 우리 브랜드가 이름 비슷한 다른 업체와 한 회사로 잘못 묶이는 오류(개체해소))은, 출처 없는 어설픈 오류보다 독자에게 더 그럴듯하게 보입니다. 그래서 구조화 자체보다, 그 구조가 올바른 개체에 묶였는지가 더 중요합니다.

Q4 넥스트티는 무엇을 보장하나요? ▾

결과나 순위, AI가 우리를 기본 지식처럼 말하게 되는 시점은 보장하지 않습니다. 그것은 모델 제공사의 학습 주기와 내부 정책에 달려 통제·단정할 수 없기 때문입니다. 우리가 책임지는 것은 눈에 보이는 신호입니다 — 이름·정의를 모든 곳에서 하나로 맞추기, 출처 구조 정리, 그리고 최신 검색에 덜 기대게 물어봐도 같은 답이 다시 나오는지 확인하기. 결과를 장담하는 게 아니라, 우리가 다룰 수 있는 부분을 차곡차곡 쌓습니다.

Q5 AI Overview는 별도의 기억 영역인가요? ▾

아닙니다. AI Overview 같은 답변 화면은 별도의 기억 영역이라기보다, 검색(RAG)·모델 내부 기억·답을 고르는 규칙이 섞여 나오는 화면에 가깝습니다. 같은 기억이라도 그 규칙에 따라 보이는 답이 달라질 수 있으므로, 화면 하나를 "그 모델의 기억"으로 오해하지 않는 것이 중요합니다.

SOURCES — 본문 주장을 받치는 근거

·생성형 응답의 핵심이 그래프 탐색이 아니라 불러오기(RAG)라는 점 — Lewis et al., "Retrieval-Augmented Generation…" (2020).
·시간 모델링(valid/transaction time)은 그래프 전유물이 아니라 표준 DB 개념 — SQL:2011 temporal features.
·같은 대상인지 가려내는 일(개체해소)은 오래된 연구 영역 —Record linkage / entity resolution.
·사람은 출처가 붙으면 더 믿는 경향이 있다는 연구 —authority bias / source credibility.