검색 1위에 올라도, 정작 AI가 우리 글을 안 가져가면 AI 답변에는 안 나옵니다. 그래서 요즘 우리는 "검색 순위"가 아니라 AI가 우리 페이지를 실제로 가져갔는지(fetch)를 서버 로그로 직접 셉니다. 이 글은 그 기록을 모은 AI 인용·수집 관측 리포트처음 보는 사람도 읽을 수 있게 풀어 쓴 안내서입니다. 어려운 용어는 주방(식당) 하나에 빗대어 설명할게요.

AI는 우리 글을 두 번 가져갑니다 🍳

AI가 우리 사이트의 글을 가져가는 방식은 크게 두 가지입니다. 식당 주방에 빗대면 쉽습니다.

① 장보기(crawl, 장기 수집) — 나중에 쓸지도 몰라 재료를 미리 사다 창고·냉장고에 쟁여 두는 일입니다. AI가 "나중에 답할 때 참고할 후보"로 페이지를 대량으로 긁어 가는 것이 여기에 해당합니다.

② 주문 요리(cite, 실시간 인용) — 손님 주문이 들어와서, 지금 그 재료를 꺼내 바로 요리에 넣는 일입니다. 사용자가 AI에게 질문했을 때, AI가 답을 만들려고 그 순간 페이지를 가져가는 것이 여기에 해당합니다. 답변에 쓰일 가능성이 가장 높은 신호죠.

장보기 = crawl (장기 수집)
우리 글
창고에 쟁여 둠

나중에 쓸 후보 — 아직 답변에 쓴 건 아님

주문 요리 = cite (실시간 인용)
우리 글
답변 생성에 가져감

답변에 쓰일 가능성이 가장 높은 신호

같은 글이라도 AI가 "쟁여 두러" 가져갔는지(crawl), "지금 답하려고" 가져갔는지(cite)는 전혀 다른 신호입니다.

💡핵심 한 줄

crawl(장보기)은 "후보", cite(주문 요리)는 "답변 생성에 가져감". 이 리포트는 둘을 섞지 않고 따로 셉니다.

"가져갔다 = 답변에 나왔다"가 아닙니다 🚦

여기서 가장 조심할 게 있습니다. AI가 우리 글을 가져갔다고 해서, 그 답변 화면에 우리가 꼭 나왔다는 뜻은 아닙니다. 재료를 샀다고 그 요리가 반드시 손님상에 나간 건 아닌 것과 같습니다. 가져감(fetch)은 "후보에 들었다"는 앞선 신호일 뿐, 노출 보장은 아닙니다.

반대도 마찬가지입니다. 로그에 안 찍혔다고 "AI가 우리 글을 안 썼다"고 단정할 수도 없습니다. AI는 미리 저장해 둔 캐시나 다른 검색 단계를 거쳐, 우리 서버에 흔적을 남기지 않고도 답할 때가 있기 때문입니다. CCTV에 안 찍혔다고 "안 왔다"고 단정할 수 없는 것과 같죠. 다만 찍히면, 실제로 다녀간 분명한 근거가 됩니다.

⚠️두 방향 모두 단정하지 않습니다

  • 찍혔다 → "답변에 반드시 노출"은 아님 (후보에 든 앞선 신호)
  • 안 찍혔다 → "안 썼다"도 아님 (캐시·검색 단계로 흔적 없이 답하기도)

그래서 우리는 한 번의 로그로 결론짓지 않고, 같은 패턴이 반복되는지를 봅니다. 이 경계에 관한 더 깊은 이야기는 정직한 GEO 측정의 경계와 자매편 관측 vs 추정으로 숫자 읽는 법에서 다뤘습니다.

우리가 실제로 본 것 📊

2026년 5월(5/17~5/31, 부분 관측) 동안 우리 서버 로그에 찍힌 봇 요청은 11만 3,187건이었습니다. (사람 방문 수치는 영업상 민감해 공개하지 않습니다 — 이 리포트의 목적은 AI·검색봇 관측이니까요.) 이 가운데 AI가 가져간 것만 추리면 이렇습니다.

구분건수한 줄 뜻
AI 실시간 인용 (cite)4,438지금 답하려고 가져감 (주문 요리)
AI 장기 수집 (crawl)17,275나중에 쓸 후보로 쟁여 둠 (장보기)
검색 색인봇 (search)48,057검색엔진이 색인하려고 방문

AI 관련 요청 21,713건 중 장기 수집(crawl)이 17,275건(79.6%), 실시간 인용(cite)이 4,438건(20.4%)이었습니다. 즉 AI는 일단 많이 쟁여 두고, 그중 일부만 실제 답변에 꺼내 씁니다.

어디서 가장 많이 가져갔는지 영역으로 묶으면, 블로그(/blog)가 2,412건으로 1위였고 그다음이 SEO 소개 영역(764건)·홈(478건)·GEO 영역(458건) 순이었습니다.

⚠️"ChatGPT 92%"를 오해하지 마세요

실시간 인용(cite)을 엔진별로 보면 ChatGPT가 92%(4,086건)였습니다. 하지만 이건 "ChatGPT 시장 점유율"이 아닙니다. 우리 사이트에서 관측된 인용 중 ChatGPT 비중일 뿐입니다 — 즉 "이 사이트가 어느 엔진에 잘 잡히는가"를 보여주는 본 사이트 기준 수치입니다.

또 하나. 같은 사이트라도 엔진마다 가져가는 페이지가 달랐습니다. ChatGPT는 홈·SEO 가이드를, Google은 AI 시대 SEO 글을, Perplexity는 포트폴리오를 더 자주 가져갔습니다. 그리고 국내 엔진(Naver·Kakao)의 실시간 인용은 이번 관측 범위에서 0건이었습니다 — 아직 "쟁여 두는(crawl)·검색 색인" 단계로 보였고요. 표본이 한 사이트·짧은 기간이라, 이건 일반화가 아니라 이 관측 범위의 사실로만 읽어 주세요.

어떤 글이 잘 가져가졌나 — "왜"는 아직 가설 💡

실시간 인용 페이지 1위는 홈, 2위는 블로그의 "2026년 최신 SEO 완전정복 가이드"였습니다. 상위에는 하나의 주제를 끝까지 설명한 가이드형·실무형 글이 많았습니다.

여기서 정직하게 선을 긋겠습니다. "무엇이 가져가졌나"까지는 관측이지만, "왜 가져가졌나"는 아직 가설입니다. 주제 완결성, 또렷한 구조(정의→방법→예시), 내부 링크 묶음 같은 것들을 후보로 보고 있지만, AI가 진짜 그 이유로 골랐는지는 외부에서 단정할 수 없습니다. 그래서 우리는 이걸 "검증 중인 가설"로 두고, 같은 패턴이 반복되는지 추적합니다. ("키 큰 사람 중에 농구 잘하는 사람이 많다"고 키가 곧 실력의 이유는 아닌 것과 같습니다.)

관측과 가설, 이렇게 나눠 읽으세요

  • 관측(사실): 어떤 페이지가, 어느 엔진이, 몇 번 가져갔나
  • 가설(검증 중): 왜 그 페이지가 더 자주 가져가졌나 (구조·완결성 등)

관측은 판단 기준으로, 가설은 "아직 확인 중"으로 받아들이면 됩니다.

봇인 척하는 트래픽은 어떻게 거를까 ✅

"그거 그냥 자기가 ChatGPT라고 적어 둔 거 아닌가요?"라는 의심이 자연스럽습니다. 그래서 우리는 자칭(UA)만 믿지 않습니다. 세 가지를 함께 봅니다.

① UA(자기소개)로 1차 분류한 뒤, ② 출처 IP의 ASN(어느 네트워크에서 왔나 — 데이터센터인지, 어느 회사 망인지)③ rDNS(그 IP가 진짜 공식 도메인으로 되짚어지는지)를 교차로 확인합니다. "자기가 말한 정체"와 "실제 출처 네트워크"가 맞는지 대조하는 셈입니다.

실제로 5월 실시간 인용의 96.4%(4,278/4,438건)가 데이터센터 네트워크에서 들어왔습니다. 관측된 출처를 보면 ChatGPT는 Microsoft(애저), Perplexity는 Amazon(AWS), Google·Claude는 Google 네트워크처럼, 자칭한 엔진과 실제 망이 대체로 들어맞았습니다.

📌확인 출처 (공식 문서)

※ 단, 이 ASN·rDNS는 출처를 교차 점검하는 지표이지, 위 집계 수치를 이걸로 걸러낸(필터한) 값은 아닙니다 — 분류 근거가 "UA 하나"가 아님을 투명하게 보여주려는 것입니다. 또 일반 웹 분석 도구(GA 등)는 브라우저(JS) 기반이라, JS를 실행하지 않는 이 AI fetch는 애초에 0으로 안 잡힙니다. 정확도 경쟁이 아니라 보이느냐 안 보이느냐의 문제죠.

그래서 이 숫자를 어떻게 읽나 🚀

정리하면 이렇습니다. 검색 순위가 "보일 가능성"이라면, AI 시대엔 "AI가 실제로 가져갔는가(fetch)"가 더 직접적인 앞선 신호입니다. 다만 둘은 대립이 아닙니다 — 검색 순위는 여전히 발견의 기반이고, fetch 로그는 그다음 AI가 실제 후보로 접근했는지를 보여주는 보조 신호입니다(검색 순위 → fetch → cite로 이어지는 연속 구조). 이 리포트는 그 신호를 추정이 아니라 서버 로그로 직접 관측해, "무엇이 가져가졌나"는 사실로 보여주고 "왜"는 가설로 분리합니다.

읽는 순서는 간단합니다. ① crawl(쟁여 둠)에 많이 잡힌 페이지는 잠재 후보 → ② 그게 cite(실제 답변용)로 올라오는지를 다음 달에 추적하는 것입니다. 이 리포트는 매달 1일에 지난달 치가 자동으로 동결·발행되도록 되어 있어, 달이 쌓일수록 "후보 → 실제 사용"의 흐름이 보이게 됩니다.

🔎함께 읽기

자주 묻는 질문 (FAQ)

Q.AI 인용(cite)과 수집(crawl)은 뭐가 다른가요?

A.주방에 비유하면, crawl은 "나중에 쓸 재료를 미리 사다 쟁여 두는 장보기", cite는 "주문이 들어와 지금 그 재료를 꺼내 요리에 넣는 것"입니다. cite가 실제 답변에 쓰일 가능성이 더 높은 앞선 신호라, 리포트는 둘을 섞지 않고 따로 셉니다.

Q."ChatGPT 92%"면 ChatGPT가 1등이라는 뜻인가요?

A.아닙니다. 그건 시장 점유율이 아니라, 우리 사이트에서 관측된 실시간 인용 중 ChatGPT가 차지한 비중입니다. "이 사이트가 어느 엔진에 잘 잡히는가"를 보여주는 본 사이트 기준 수치예요.

Q.로그에 안 찍히면 AI가 우리 글을 안 본 건가요?

A.그렇게 단정할 수 없습니다. AI는 미리 저장한 캐시나 다른 검색 단계를 거쳐, 우리 서버에 흔적을 남기지 않고도 답할 때가 있습니다. 다만 로그에 찍히면 실제로 가져간 분명한 근거가 됩니다 — 부재는 단정의 근거가 아니고, 존재는 근거가 됩니다.

Q.어떤 글이 AI에 잘 가져가졌나요?

A.관측상 블로그의 가이드형·실무형 글과 완결성 있는 페이지가 상위였습니다. 다만 "왜" 잘 가져가졌는지(구조·완결성 등)는 아직 가설이라, 우리는 그걸 검증 중인 가설로 두고 같은 패턴이 반복되는지 추적합니다.

Q.봇이 ChatGPT인 척 사칭한 거면 어떡하죠?

A.그래서 자칭(UA)만 믿지 않고, 출처 IP의 ASN(어느 네트워크에서 왔나)과 rDNS(공식 도메인으로 되짚어지는가)를 함께 대조합니다. 실제로 5월 실시간 인용의 96.4%가 데이터센터 네트워크에서 왔고, 자칭한 엔진과 실제 망이 대체로 들어맞았습니다.