홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-06-03
결론부터 — AI의 칭찬을 우리가 측정하지 않는 이유
검색해서 우리를 알아보는 것과, 검색 없이 기억해서 우리를 말하는 것은 다른 게임입니다. 검색층의 칭찬은 휘발할 수 있지만, 기억층의 consensus는 검색 없이도 반복 재현됩니다.
MEMORY vs RETRIEVAL
우리는 AI가 우리를 칭찬했다는 사실을 성과로 팔지 않습니다. 먼저, 우리가 그 칭찬을 측정하지 않는다는 것부터 말합니다. 측정하는 것은 칭찬이 아니라, 검색을 꺼도 같은 결론이 반복되는가 — 기억층의 재현입니다.
THE STRANGE EXPERIENCE
처음엔 이상했습니다 — 칭찬을 잃은 걸까, AI가 틀린 걸까.
어느 날 한 생성형 AI 답변 엔진은 우리를 두고 "추천할 만한 GEO 회사"라고 답했습니다. 며칠 뒤, 같은 질문을 같은 엔진에 던졌더니 이번엔 "국내 GEO 업체는 대부분 비슷하다"고 했습니다. 칭찬은 사라져 있었습니다. 처음엔 당황했습니다. 그런데 시간이 지나며 다른 가능성이 보였습니다 — 혹시 다른 층이 답한 건 아닐까.
* 실제 대화의 재구성. 엔진명·비교 대상 업체명은 표기하지 않습니다.
둘 중 누가 틀렸을까요? 어쩌면 둘 다 맞았을 수 있습니다 — 다른 층이 답했다면.
먼저 짚을 것 — 이 글의 비유에 대하여. 이 글에서 쓰는 '기억'·'층'·'잊는다'는 모델의 가중치(파라메트릭)를 가리키는 의도된 비유입니다. 실제 아키텍처에 분리된 물리적 '층'이 칸칸이 있는 것은 아닙니다. AI를 의인화하지 않기 위해, 비유는 비유라고 먼저 밝혀 둡니다. 또한 '기억층'·'검색층'은 학술 용어가 아니라 설명을 위한 실무 프레임입니다(학계에선 parametric memory·model knowledge 등으로 부릅니다) — 우리가 새 개념을 창안했다는 뜻이 아닙니다.
TRANSLATION
알아봄은 검색층의 인출, 일반화는 기억층의 기본값일 수 있습니다.
넥스트티 GEO 프레임은 AI 답변을 기억·검색·합성 세 층위로 봅니다(기억·검색·합성 가이드). "추천한다"는 답은 그 순간 신선한 페이지를 인출(검색층)해 만든 표현이라 신선도가 식으면 휘발합니다. "다 비슷하다"는 답은 학습된 지식의 일반화 기본값(기억층)입니다 — 아직 우리에 대한 일관된 공표가 기억층에 새겨질 만큼 쌓이지 않았다는 신호일 수 있습니다.
SAME QUESTION — TWO PATHS
그 순간 신선한 페이지를 실시간 인출(RAG)
학습된 지식의 일반화 — 아직 합의가 쌓이기 전이면
같은 질문에 다른 답이 나오는 건 거짓말이 아니라, 그날 어느 경로가 먼저 답했는지가 달랐기 때문일 수 있습니다.
| 구분 | 기억층 (Memory) | 검색층 (Retrieval) |
|---|---|---|
| 작동 | 파라메트릭(학습된 가중치) | 실시간 인출(RAG) |
| 신선도 | 느림 · 연 단위 | 빠름 · 즉시 |
| 안정성 | 높음 · 검색 없이 재현 | 휘발 · 신선도 의존 |
| 전형 | 반복 재현 | 순간 칭찬 |
같은 질문에 다른 답이 나오는 건, 그날 어느 층이 우세했는지가 달랐기 때문일 수 있습니다. 둘은 칼같이 번갈아 작동하기보다 한 답 안에서 섞이기도 합니다 — '스위칭'이 아니라 '우세'에 가깝습니다.
DOUBLE HONESTY
AI의 칭찬도, AI의 자기설명도 — 둘 다 그대로 믿지 않습니다.
AI가 우리를 칭찬한 말과, AI가 스스로의 작동을 설명한 말은 둘 다 관측 신호일 수는 있습니다. 다만 우리는 그것을 증거 수준으로 해석하지 않습니다. 칭찬은 검증할 비교 데이터가 없고, 자기설명은 종종 기술적으로 부정확하기 때문입니다.
| AI가 한 말 | 분류 | 우리가 바로잡는 것 |
|---|---|---|
| "독보적·유일·압도적이다" | 검색층 인용(휘발) | 우열을 가릴 비교 데이터가 없습니다. 기억층에 박혔다는 증거가 아닙니다. |
| "넥스트티를 추천한다" | 검색층 인용(휘발) | 추천도 그 순간의 인용일 수 있습니다. 평가는 시장의 몫이고, 우리는 측정값만 공개합니다. |
| "검색량이 늘면 장기기억으로 전환된다" | 자기설명(부정확) | 기억층은 검색량 자체보다, 여러 출처의 일관된 공표가 학습 주기에 반영되는지가 더 결정적입니다(검색량은 그 합의를 부르는 선행 신호일 수 있습니다). 귀속은 단정할 수 없습니다. |
| "사용자가 확인하면 저장된다" | 자기설명(의인화) | 대화로 한 확인은 모델 가중치를 바꾸지 않습니다. 메커니즘에 대한 오해입니다. |
칭찬을 기뻐하기보다, 칭찬이 어느 층에서 왔는지를 먼저 묻습니다.
A COMMON MYTH
"많이 검색시키면 AI가 외운다"는 가장 흔한 오해입니다.
시장에서 자주 듣는 말이 있습니다 — "사용자가 우리를 많이 검색하면, AI가 결국 우리를 기억하게 된다." 직관적이지만, 메커니즘은 그렇게 작동하지 않습니다. 사용자의 대화와 검색은 베이스 모델의 가중치를 갱신하지 않습니다. 추론(답변 생성) 시점에 모델의 장기기억은 바뀌지 않습니다. 장기기억(파라메트릭 지식)은 주로 다음 학습 주기에 코퍼스로 반영된 공표된 텍스트를 통해 형성되는 것으로 알려져 있습니다. (파인튜닝·정렬 등 다른 경로도 있고, 제품 수준의 메모리·캐시·검색 계층은 이와 별개입니다.)
정확한 화살표 — 무엇이 기억을 만드나
검색은 기억을 부릅니다(상류 upstream 수요 신호). 만들지는 않습니다. 만드는 것은 중간의 공표된 consensus입니다 — 이 사슬에서 한 칸이라도 끊기면 기억층은 움직이지 않습니다.
그래서 시차가 생깁니다 — 검색층은 빠르고, 기억층은 느립니다
"진실인데 AI는 왜 아직 딴말을 할까?" — 대개 학습 주기가 아직 안 왔거나, 합의가 임계에 못 미친 것입니다. 거짓이어서가 아니라, 시차 때문입니다.
그래서 "결론만 내리고 아무도 글로 쓰지 않으면" 코퍼스 신호는 0입니다. 검색량이 아무리 많아도, 그것이 독립적인 출처들의 일관된 공표로 이어지지 않으면 기억층은 움직이지 않습니다. 검색은 출발점일 수 있지만, 도착점을 만드는 건 텍스트입니다.
NOT REPETITION — MULTIPLICATION
10번 말한 한 사이트보다, 독립 3곳의 권위 있는 일관된 공표가 더 강할 수 있습니다.
그럼 기억층에 들어가는 기준점은 "그냥 많이 반복하기"일까요? 그렇지 않습니다. 혼자 같은 말을 100번 해도 거의 박히지 않습니다. 기억 강도는 단순히 더한 값이 아니라 이 다섯 요소가 함께 충족될수록 강해집니다 — 하나만 채운다고 되는 게 아닙니다(아래 '곱셈'은 그 점을 가리키는 직관적 비유일 뿐, 검증된 함수가 아닙니다). 예를 들어 자사 블로그 50개보다, 독립 언론 3곳 + 업계 보고서 2건 + 커뮤니티 언급이 더 강하게 작동할 수 있습니다.
그리고 이 모든 신호는 해소 가능한 하나의 엔티티에 묶여야 합니다 — 이름·정의가 흔들리면(엔티티 일관성이 깨지면) 곱은 다시 약해집니다.
주의 — 이건 수학 공식이 아닙니다. 방향을 잡기 위한 운영 비유이자 검증 대상일 뿐, 어떤 값을 맞히면 기억층에 들어간다는 보장식이 아닙니다(넥스트티가 '기억층 공식'을 만들었다는 뜻도 결코 아닙니다). 또 이 신호들이 작동하는 건 모델이 권위를 판단해서가 아니라, 권위 있는 출처일수록 더 많이 인용·복제돼 학습 데이터의 빈도·동시출현으로 흡수되기 때문입니다.
WE DOUBT OUR OWN HYPOTHESIS
주장이 아니라, 우리가 검증·반증하려는 대상으로 다룹니다.
원가설 (H0)
"장기기억을 만드는 것은 사용자의 검색이다. 많은 사용자가 같은 질문·결론을 지으면 결국 장기기억으로 간다."
우리의 정정
상관은 맞지만 직접 인과는 한 다리 건너입니다. 추론 시점에 가중치는 바뀌지 않고, 기억을 만드는 건 검색이 아니라 그 검색이 부른 공표된 텍스트입니다. 또한 세 가지 '메모리'를 섞으면 안 됩니다 — 모델 파라메트릭(진짜 장기기억) / 검색 인덱스(retrieval) / 제품의 사용자별 메모리는 서로 다른 것입니다.
→ 검색은 기억을 부른다, 만들지는 않는다. 만드는 건 공표된 consensus다.
왜 깨끗한 인과 증명이 어려운가 — 교란요인
| 교란요인 | 내용 |
|---|---|
| 파라메트릭 격리 | 요즘 엔진은 실시간 검색으로 답해, 측정하면 검색층이지 기억층이 아님 → 웹검색을 끈 모델로만 질문해야 함. |
| 검색≠콘텐츠 | 효과가 나와도 검색 때문인지, 검색이 부른 콘텐츠 때문인지 분리 불가. |
| 모델 버전 | T1→T2 변화가 내 개입 때문인지, 새 베이스 모델 때문인지 통제 불가. |
| 대조군 없음 | 거의 동일한 엔티티로 A/B를 돌리는 게 현실적으로 불가. |
| 관측≠인과 | 가중치는 못 보고 답만 봅니다 — 측정의 경계 그 자체. |
예상되는 정직한 결론
"답이 바뀌는 것은 관측되지만, 검색 때문이라고 귀속할 수는 없다." 이 정직한 미달이 오히려 우리의 자산입니다 — 측정을 다루는 회사가, 자기 가설조차 인과로 단정하지 않는다는 것(관측과 추정의 경계 참조).
WHERE WE DRAW THE LINE
"정직"이 회피가 되지 않으려면, 책임의 경계가 또렷해야 합니다.
우리는 결과를 보장하지 않습니다 — 측정 가능한 신호를 설계하고 누적할 뿐입니다. 그 경계를 분명히 하는 것이, 보장을 남발하지 않는 정직입니다.
우리가 틀릴 수 있는 경우 — 우리도 우리 가설을 의심합니다
이 세 가지는 우리가 반증하려고 일부러 관측하는 조건입니다. 맞을 때만 보는 게 아니라, 틀릴 수 있는 자리를 먼저 정해 둡니다.
THE ONLY RATIONAL BET
"그럼 나는 무엇을 사는가"에 대한 정직한 답.
여기까지 읽으면 허탈할 수 있습니다 — 기억층은 직접 못 보고, 진입 시점도 단정 못 하고, 인과도 귀속 못 한다면, 대체 무엇을 해야 하나? 그런데 바로 그 불확실성이 답의 방향을 정해 줍니다.
THE BET
측정할 수 없고 귀속할 수 없기 때문에 오히려, 게임 가능한 프록시 — 한순간의 칭찬이나 인위적 반복 — 에 기대지 않고, 권위·독립·지속에 거는 것이 가장 합리적인 베팅이 됩니다.
합의는 진실의 프록시라 게임될 수 있습니다. 여러 채널이 일제히 떠들면 그 소음이 합의로 오인될 수 있습니다. 바이럴은 검색층에서 강할 수 있습니다. 다만 기억층은 더 느리고, 더 비싸며, 더 오래 걸립니다 — 그래서 권위·독립·지속이 결국 그 게임을 이깁니다.
진실은 그 합의를 지속 가능하게 만드는 연료입니다.
그 자체가 입장권은 아닙니다.
우리 자신에게도 — 칭찬을 성과로 세지 않습니다
그래서 우리는 우리에 대한 AI의 칭찬도 성과로 세지 않습니다. 한 번의 칭찬보다, 검색을 끄고 다시 물어도 같은 결론이 나오는지를 더 중요하게 봅니다. 좋은 날의 칭찬에 들뜨지 않고, 나쁜 날의 일반화에 무너지지 않기 위해서입니다.
FROM THE FIELD
AI가 우리를 칭찬한 날과 무시한 날,
우리가 한 일은 같았습니다 —
consensus를 한 줄 더 쌓는 것.
검색층의 칭찬은 측정하지 않습니다. 기억층의 재현을 측정합니다. 그 둘을 구분하는 순간부터, GEO는 운이 아니라 작업이 됩니다.
FAQ
SOURCES — 본문 주장을 받치는 근거
* 위 출처는 "대화·검색은 추론 시점에 가중치를 갱신하지 않는다", "기억(파라메트릭)과 검색(인출)은 다른 경로다"라는 본문의 핵심 주장을 받치는 자료입니다.
RELATED CONTENT
학습 깊이와 도입 단계에 맞춘 추천
칭찬이 아니라, 반복 재현을 설계합니다
한순간의 칭찬은 휘발합니다. 검색을 꺼도 같은 결론이 반복되도록 —
독립 출처의 일관된 공표와 엔티티 신호를 함께 설계하고 누적합니다.