상세문의 아이콘 상세문의
간편문의 아이콘 × 간편문의

GPTBot을 막으면
ChatGPT 인용도 사라질까

아닙니다 — GPTBot은 학습봇, 인용은 다른 봇(OAI-SearchBot)이 합니다.
자사 로그 2026-05 기준 전체 AI 봇이 가져간 것의 약 80%는 학습·수집, 20%만 실시간 인용이었습니다.

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-06-11

관측 노트 · 비율만 공개

이 글의 모든 수치는 2026-05(5/17~5/31) 자사 방문 로그 한 곳(n=1)을 봇 역할별로 분류한 결과입니다. 비율(%)·순위·관측 사실만 공개하고 — 절대 행수·DAU·페이지별 절대 트래픽은 공개하지 않습니다. 이 비율은 자사 사이트 한 달 스냅샷이며 업계 일반 통계가 아닙니다(자사 사이트는 GEO·AI 주제라 AI 봇이 과대표집됩니다). 같은 집계의 월간 추이는 AI 인용 관측 리포트에서 매월 갱신합니다.

결론부터

  • 1.학습봇과 인용봇은 같은 회사라도 다른 봇이다. OpenAI만 해도 학습용 GPTBot과 실시간 인용용 OAI-SearchBot·ChatGPT-User가 따로 있고, robots.txt 지시문도 분리됩니다.
  • 2.대부분의 AI 트래픽은 학습하러 온다. 2026-05 자사 로그에서 AI 봇이 가져간 페이지의 약 80%가 학습·수집(ai_crawl)이었고, 실시간 인용(ai_cite)은 약 20%였습니다.
  • 3.브랜드마다 오는 목적이 다르다. 자사 로그에서 식별된 ChatGPT 계열 봇은 대부분 인용 fetch였고(해당 트래픽의 약 94%), Meta·Perplexity·Claude 계열은 대부분 수집이었습니다. 그래서 "GPTBot 차단 = ChatGPT 인용 차단"은 사실이 아닙니다.

학습 : 인용

약 4 : 1

AI 봇이 가져간 것의
약 80% 학습 · 20% 인용

인용 fetch 점유

~92%

실시간 인용의 대부분이
ChatGPT 계열

학습 크롤 점유

~60%

학습·수집의 1위는
Meta(메타) 크롤러

ChatGPT의 방문 목적

~94%

ChatGPT 봇 트래픽 중
인용 fetch 비중

자사 사이트 한 곳(n=1)의 2026-05 스냅샷 기준 비율 — 절대 횟수 비공개, 업계 일반 통계 아님. 소표본 엔진은 월별 변동 폭이 큽니다.

개념

AI 봇이 우리 사이트에 오는 문은 두 개다

로그를 분류하면 AI 봇은 크게 두 역할로 갈립니다. 하나는 나중에 답하기 위해 미리 읽어 두는 학습·수집(crawl), 다른 하나는 지금 사용자에게 답하려고 그 순간 읽는 실시간 인용(cite)입니다. 둘은 봇도 다르고, robots.txt에서 여닫는 스위치도 다릅니다.

① 학습·수집 (crawl)

나중을 위해 미리 읽는다

모델 학습·검색 인덱싱·AI 응답 준비를 위해 페이지를 미리 수집합니다. 지금 답변에 곧바로 인용되진 않지만, 향후 모델·검색 인덱스·AI 응답 후보군에 반영될 가능성이 있습니다.

  • ·GPTBot (OpenAI 학습)
  • ·ClaudeBot (Anthropic 학습)
  • ·Google-Extended (별도 봇이 아니라 Googlebot 수집물의 AI 학습 활용을 끄는 제어 토큰)
  • ·PerplexityBot, meta-externalagent, Bytespider

② 실시간 인용 (cite)

지금 답하려고 읽는다

사용자 질문이 들어온 그 순간, 답변에 출처로 달기 위해 페이지를 가져갑니다. 차단하면 AI 답변의 인용·노출이 즉시 줄어듭니다.

  • ·OAI-SearchBot(검색 인덱싱) · ChatGPT-User(답변 순간 실시간 fetch)
  • ·Claude-SearchBot · Claude-User (Anthropic 인용)
  • ·Perplexity-User (Perplexity 인용)
  • ·Google AI 답변 fetch 등

관측 · 2026-05

누가 인용하러 오고, 누가 수집하러 오는가

같은 데이터를 두 역할로 나눠 엔진별 점유율을 보면 그림이 완전히 달라집니다. 인용은 ChatGPT가 거의 독식하고, 수집은 Meta가 가장 큽니다.

실시간 인용(ai_cite) 점유율

ChatGPT 계열92%
Google4%
Claude3%
Perplexity1%

학습·수집(ai_crawl) 점유율

Meta(메타)60%
Perplexity12%
ByteDance11%
Claude8%
Amazon5%
ChatGPT2%

자사 사이트 한 곳(n=1)의 2026-05 스냅샷 · 각 역할 내부 점유율(합계 100% 기준 반올림) — 절대 횟수 비공개. 인용(cite)은 수집(crawl)보다 절대량이 작아 하위 1~3% 항목은 절대 횟수가 적고 월별 변동이 큽니다. 검색엔진 본연의 크롤(Googlebot·Yeti 등)은 search 역할로 따로 집계되어 위 학습·수집에는 포함하지 않았습니다.

핵심 발견

같은 브랜드, 다른 문 — 누구는 인용하러, 누구는 수집하러

브랜드별로 "그 브랜드 봇 트래픽 중 실시간 인용이 차지하는 비중"을 보면 의도가 드러납니다. 초록이 길수록 인용하러 온 것, 주황이 길수록 수집하러 온 것입니다.

ChatGPT 거의 인용하러 온다 (인용 94%)
인용 94%
Claude 거의 수집하러 온다 (인용 8%)
수집 92%
Perplexity 거의 수집하러 온다 (인용 2%)
수집 98%

자사 로그에서 식별된 각 브랜드 봇 기준, (인용 fetch ÷ 해당 브랜드 AI 봇 총 fetch) 비율. Google은 AI 학습 크롤(Google-Extended) 표본이 매우 작아 별도 표기에서 제외 — 자세한 정의는 아래 방법론을 참고하세요.

실무

그래서 어느 문을 여닫을지, robots.txt로 정한다

학습은 막고 인용은 열어 두고 싶다면, 학습봇만 골라 막으면 됩니다. 핵심은 같은 회사 봇이라도 UA가 다르므로 따로 적어야 한다는 점입니다.

브랜드학습·수집 봇 (막으면 학습 차단)실시간 인용 봇 (열어 두면 인용 유지)
OpenAIGPTBotOAI-SearchBot · ChatGPT-User
AnthropicClaudeBotClaude-SearchBot · Claude-User
GoogleGoogle-Extended
별도 봇이 아닌 AI 활용 제어 토큰
Googlebot(검색·AI 답변 공용)
PerplexityPerplexityBotPerplexity-User

예시 · 학습은 막고 인용은 허용

# 학습용 크롤러만 차단
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# 실시간 인용 봇은 명시적으로 허용(기본도 허용이지만 의도를 분명히)
User-agent: OAI-SearchBot
Allow: /

User-agent: Perplexity-User
Allow: /

⚠️ robots.txt는 선언적 약속입니다. 준수 여부는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 "사용자 요청 fetch"는 robots를 따르지 않는다고 공개한 경우도 있습니다. 강제 차단이 목적이면 서버·WAF 레벨 제어가 필요합니다.

우리 사이트의 3종 거버넌스(robots·sitemap·llms.txt)를 어떻게 맞췄는지는 llms.txt·robots.txt·sitemap 거버넌스에서 자체 관측과 함께 정리했습니다.

METHODOLOGY · 분류 방법과 한계

우리는 이렇게 인용과 수집을 갈랐습니다

같은 방법론을 자기 서버 로그에 적용해 직접 확인하실 수 있도록 분류 절차와 한계를 공개합니다.

분류 절차 (의사코드 수준)

  1. UA 매칭 — 공개된 봇 UA 명세로 1차 식별 (OpenAI·Anthropic·Google·Perplexity·Meta·ByteDance·Amazon·Apple 등).
  2. 역방향 DNS 검증 — UA에 봇이라 적힌 트래픽의 IP를 reverse DNS로 조회해 위장 UA를 거릅니다.
  3. 역할 분류 — 봇이면 ai_cite(답변용 실시간 fetch) · ai_crawl(학습·수집) · search(검색엔진) · other(SEO 도구 등)로 나눕니다. 판단 근거는 봇 운영사가 공개한 각 UA의 용도 설명입니다.
  4. 엔진 라벨링 — 봇을 브랜드(chatgpt·claude·perplexity·meta…)로 묶어 점유율을 집계합니다.

한계 · 솔직히 인정해야 하는 부분

  • ·역할 분류는 운영사 공개 설명에 의존 — 한 UA가 학습·인용 양쪽에 쓰이거나 정책이 바뀌면 분류가 달라질 수 있습니다. cite/crawl 경계는 칼처럼 떨어지지 않습니다.
  • ·소표본 엔진의 변동 — Perplexity·Claude 인용처럼 표본이 작은 항목은 월별 비율이 크게 출렁입니다. 추세는 월간 리포트로 보셔야 합니다.
  • ·자사 한정·이해상충 공개 — 이 비율은 자사 사이트 한정이고, 이 글은 자사 측정 엔진(OPTIANALYTICS)과 연결됩니다. 분류 절차는 공개 명세와 표준 검증(역방향 DNS)만 쓰므로 누구나 자기 로그에서 재현해 볼 수 있습니다.

CAPSTONE · 자주 보는 오해

"AI 봇을 막을까 열까"가 질문이 아니다.
"어느 문을 여닫는지 알고 정했는가"가 질문이다.

AI 크롤러를 한 덩어리로 보고 전부 막으면, 무단 학습을 막으려다 애써 만든 콘텐츠의 실시간 인용 노출까지 함께 닫는 일이 벌어집니다. 반대로 전부 열면 학습 정책에 대한 통제를 포기하는 것입니다. 학습봇과 인용봇을 분리해 보고, 우리 목적에 맞게 문을 골라 여닫는 것 — 그 판단의 전제는 "우리 사이트에 실제로 누가, 무슨 목적으로 오는가"를 먼저 정직하게 관측하는 것입니다.

FAQ

자주 보는 질문

GPTBot을 robots.txt로 막으면 ChatGPT 답변에서 우리 글이 사라지나요?

대개 그렇지 않습니다. GPTBot은 OpenAI의 학습용 크롤러이고, ChatGPT가 답변을 만들 때 실시간으로 문서를 가져오는 봇은 OAI-SearchBot(검색 인덱싱)과 ChatGPT-User(사용자 요청 fetch)로 별도입니다. GPTBot만 Disallow하면 GPTBot 기반 학습 수집엔 차단 의사를 전달하지만, OAI-SearchBot·ChatGPT-User를 따로 막지 않는 한 실시간 인용 fetch 경로는 원칙적으로 열려 있습니다. 다만 학습 데이터에서 빠지면, 검색·fetch 없이 모델 내부 기억만으로 답하는 상황에서의 노출에는 장기적으로 영향이 있을 수 있습니다.

학습봇을 막는 게 이득인가요, 손해인가요?

목적에 따라 다릅니다. 학습 차단(GPTBot·Google-Extended·ClaudeBot 등)은 콘텐츠가 모델의 장기 기억에 들어가는 것을 막아 무단 학습 우려를 줄이지만, 브랜드가 AI의 내부 지식으로 자리잡을 기회도 함께 줄입니다. 실시간 인용봇(OAI-SearchBot·Perplexity-User 등)을 막으면 당장의 AI 답변 인용·트래픽이 직접 손실됩니다. 인용 노출이 목표라면 인용봇은 열어 두고, 학습은 정책에 따라 선택하는 것이 일반적입니다.

이 비율(학습 약 80% · 인용 약 20%)은 다른 사이트에도 적용되나요?

아닙니다. 이 글의 비율은 자사 사이트 2026-05 한정 관측입니다. 자사 사이트가 GEO·AI 주제라 AI 봇 수집 빈도가 높은 편이고, 산업·언어권·콘텐츠 유형에 따라 분포는 달라집니다. 다만 "실시간 인용보다 학습·수집 크롤이 훨씬 많다", "브랜드마다 봇의 역할이 편중된다"는 구조적 경향은 비교적 흔하게 관측됩니다. 정확한 비율은 자기 서버 로그를 직접 분류해 봐야 압니다.

중요한 질문은 "AI 봇을 막을까 말까"가 아니라,
"지금 우리 사이트에 누가, 무슨 목적으로 오는지 보고 있는가"입니다.

우리 사이트엔 학습봇이 더 오나요, 인용봇이 더 오나요

우리 사이트의 cite vs crawl 분류받기

어느 AI가 인용하러 오고 어느 AI가 수집만 하는지, robots.txt가 의도대로 동작하는지 — 서버 로그 기반으로 진단합니다.