"AI가 내 글을 함부로 학습하는 게 싫어서 GPTBot을 막았어요. 그런데 그러면 ChatGPT가 내 글을 추천(인용)도 안 해 주는 거 아닌가요?" — 자주 받는 질문입니다. 결론부터 말하면 대개 그렇지 않습니다. 학습하러 오는 봇과, 지금 사용자에게 답하려고 인용하러 오는 봇은 서로 다른 손님이거든요. 우리 서버 로그 관측 글의 내용을, 이 글에서는 사업주·웹마스터 눈높이로 쉽게 풀어 보겠습니다.

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 2026-06-11

AI 봇은 한 덩어리가 아니에요 🚪🚪

우리 사이트를 가게라고 해 볼게요. AI가 보내는 손님은 크게 두 종류입니다.

  • ① 학습·수집 손님 (crawl) — 나중에 참고하려고 카탈로그를 미리 통째로 살펴보는 손님입니다. 지금 당장 손님에게 우리를 추천하지는 않지만, 나중에 "기억"의 재료가 됩니다.
  • ② 실시간 인용 손님 (cite) — 지금 옆에서 누가 질문을 해서, 그 자리에서 답해 주려고 우리 메뉴를 확인하러 온 점원입니다. 이 손님이 와서 가져가야 AI 답변에 우리 글이 출처로 붙습니다.

핵심은 이 둘이 서로 다른 봇이고, 가게 문 앞 안내판(robots.txt)에서 따로 여닫을 수 있다는 점이에요.

GPTBot은 '학습 손님'일 뿐이에요 🏷️

많은 분이 "GPTBot = ChatGPT"라고 생각하지만, GPTBot은 OpenAI의 학습용 손님 하나일 뿐입니다. 같은 회사가 목적별로 봇을 나눠 운영해요.

브랜드 학습 손님 (막으면 학습 차단) 인용 손님 (열어 두면 인용 유지)
OpenAIGPTBotOAI-SearchBot · ChatGPT-User
AnthropicClaudeBotClaude-SearchBot · Claude-User
GoogleGoogle-Extended (별도 봇이 아니라 AI 활용을 끄는 제어 표시)Googlebot (검색·AI 답변 공용)
PerplexityPerplexityBotPerplexity-User

💡그래서 GPTBot을 막으면?

GPTBot 차단은 "내 글로 학습은 하지 말라"는 뜻입니다. ChatGPT가 답하면서 우리 글을 출처로 가져가는 일은 OAI-SearchBot·ChatGPT-User가 하므로, 이 봇들을 따로 막지 않는 한 인용 경로는 그대로 열려 있습니다.

우리 로그로 봤더니 — 대부분 미리 수집하러 와요 🔭

넥스트티는 우리 사이트에 실제로 다녀간 AI 봇을 서버 로그로 분류해 봤습니다. 2026년 5월 한 달 기준으로요.

  • AI 봇이 우리 글을 가져간 것 중 약 80%가 학습·수집, 20%만 실시간 인용이었어요. → 대부분은 "지금 추천"이 아니라 "나중을 위해 쟁여 두는" 방문입니다.
  • 실시간 인용은 ChatGPT 계열이 대부분이었습니다. → 우리 로그에서 식별된 ChatGPT 봇은 거의 "인용하러" 온 손님이었어요.
  • 반대로 Meta·Claude 계열은 자사 로그에서 수집 성격이 강했습니다. PerplexityPerplexityBot(검색 결과에 사이트를 노출·연결하기 위한 수집·인덱싱)과 Perplexity-User(사용자 질문 시 답변·링크를 돕는 요청성 fetch)를 나눠 봐야 합니다 — 둘 다 모델 학습용은 아니라고 공개돼 있어요.

⚠️이 숫자, 그대로 믿지 마세요

위 비율은 넥스트티 사이트 한 곳(n=1)의 한 달 스냅샷입니다. 우리 사이트는 GEO·AI를 다루다 보니 AI 봇이 유독 많이 와요. 업종·언어·콘텐츠에 따라 분포는 완전히 달라집니다. "AI 봇은 한 덩어리가 아니라 목적이 갈린다"는 구조만 가져가시고, 정확한 비율은 자기 사이트에서 직접 측정해 보셔야 합니다.

'AI 다 막자'가 위험한 이유 🙅

"AI가 내 글 가져가는 게 싫으니 전부 막자"는 마음은 이해됩니다. 하지만 봇을 통째로 막으면 이런 일이 벌어져요.

막는 문에 따라 잃는 게 달라요

  • 학습 손님을 막으면 → 무단 학습 걱정은 줄지만, 우리 브랜드가 장기적으로 AI에 학습·참조될 가능성은 줄 수 있어요.
  • 인용 손님을 막으면 → 당장 AI 답변에 출처로 노출되어 들어오던 트래픽 경로가 줄어들 수 있습니다.

즉 "전부 막기"는 무단 학습을 막으려다 애써 만든 글의 인용 노출까지 함께 닫는 선택이 될 수 있어요.

robots.txt로 골라서 여닫기 🔧

그래서 추천하는 건 "전부 막기/전부 열기"가 아니라 문을 골라 여닫기입니다. 학습은 막되 인용은 받고 싶다면, 학습 봇만 콕 집어 막으면 돼요. 같은 회사 봇이라도 이름(UA)이 다르니 따로 적어야 한다는 게 포인트입니다.

# 학습용 봇만 차단
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# 실시간 인용 봇은 열어 두기(기본도 허용이지만 의도를 분명히)
User-agent: OAI-SearchBot
Allow: /

User-agent: Perplexity-User
Allow: /

⚠️robots.txt는 '약속'이지 '자물쇠'가 아니에요

robots.txt는 강제로 막는 장치가 아니라 "이렇게 해 주세요"라는 선언적 약속입니다. 지킬지는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 사용자 요청 fetch는 robots를 따르지 않는다고 밝힌 경우도 있어요. 반드시 막아야 한다면 서버·방화벽(WAF) 레벨에서 차단해야 합니다.

정리 — 막을지 말지가 아니라, 어느 문인지 🚀

이 글의 한 줄 요약은 이렇습니다.

"AI 봇을 막을까 말까"가 질문이 아니라,
"내가 지금 어느 문을 여닫는지 알고 정했는가"가 질문입니다.

GPTBot 차단은 학습을 막는 것이지 ChatGPT 인용을 막는 게 아닙니다. 학습 봇과 인용 봇을 나눠 보고, 우리 목적(무단 학습 통제 / AI 노출 확보)에 맞게 문을 고르세요. 그리고 그 판단의 전제는 "우리 사이트엔 지금 누가, 무슨 목적으로 오는가"를 먼저 정직하게 보는 것입니다.

🔎함께 읽기

출처 — 봇 이름과 용도는 각 사 공식 문서 기준입니다. OpenAI · Anthropic · Google · Perplexity

자주 묻는 질문 (FAQ)

Q.GPTBot을 막으면 ChatGPT 답변에서 우리 글이 사라지나요?

대개 그렇지 않습니다. GPTBot은 학습용 봇이고, ChatGPT가 답하면서 출처로 가져가는 일은 OAI-SearchBot·ChatGPT-User라는 다른 봇이 합니다. GPTBot만 막으면 학습 수집엔 차단 의사를 전하지만, 인용 봇을 따로 막지 않는 한 실시간 인용 경로는 열려 있습니다.

Q.그럼 AI 봇을 전부 막으면 안전한가요?

안전하다기보다 손해일 수 있습니다. 전부 막으면 무단 학습은 줄지만, AI 답변에 출처로 노출되어 들어오던 트래픽까지 함께 닫힙니다. "학습은 통제하되 인용은 받겠다"가 목표라면 봇을 골라서 여닫아야 합니다.

Q.학습은 막고 인용만 받을 수 있나요?

네. 같은 회사라도 학습용 봇과 인용용 봇은 이름(UA)이 다르므로 robots.txt에 따로 적으면 됩니다. GPTBot·ClaudeBot·Google-Extended(학습)는 막고, OAI-SearchBot·Perplexity-User(인용)는 열어 두는 식입니다.

Q.robots.txt에 적으면 100% 막히나요?

아닙니다. robots.txt는 강제력이 있는 차단 장치가 아니라 선언적 약속입니다. 준수 여부는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 사용자 요청 fetch는 robots를 따르지 않는다고 밝힌 경우도 있습니다. 반드시 막아야 한다면 서버·방화벽(WAF) 레벨 제어가 필요합니다.

Q.학습 80%·인용 20% 비율이 우리 사이트도 똑같나요?

아닙니다. 이 비율은 넥스트티 사이트 한 곳의 2026년 5월 한 달 스냅샷입니다. 우리 사이트는 GEO·AI 주제라 AI 봇이 유독 많이 옵니다. 업종·언어·콘텐츠에 따라 분포는 크게 달라지므로, 정확한 값은 자기 서버 로그를 직접 분류해 봐야 알 수 있습니다.