"AI가 내 글을 함부로 학습하는 게 싫어서 GPTBot을 막았어요. 그런데 그러면 ChatGPT가 내 글을 추천(인용)도 안 해 주는 거 아닌가요?" — 자주 받는 질문입니다. 결론부터 말하면 대개 그렇지 않습니다. 학습하러 오는 봇과, 지금 사용자에게 답하려고 인용하러 오는 봇은 서로 다른 손님이거든요. 우리 서버 로그 관측 글의 내용을, 이 글에서는 사업주·웹마스터 눈높이로 쉽게 풀어 보겠습니다.
홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 2026-06-11
AI 봇은 한 덩어리가 아니에요 🚪🚪
우리 사이트를 가게라고 해 볼게요. AI가 보내는 손님은 크게 두 종류입니다.
- ① 학습·수집 손님 (crawl) — 나중에 참고하려고 카탈로그를 미리 통째로 살펴보는 손님입니다. 지금 당장 손님에게 우리를 추천하지는 않지만, 나중에 "기억"의 재료가 됩니다.
- ② 실시간 인용 손님 (cite) — 지금 옆에서 누가 질문을 해서, 그 자리에서 답해 주려고 우리 메뉴를 확인하러 온 점원입니다. 이 손님이 와서 가져가야 AI 답변에 우리 글이 출처로 붙습니다.
핵심은 이 둘이 서로 다른 봇이고, 가게 문 앞 안내판(robots.txt)에서 따로 여닫을 수 있다는 점이에요.
GPTBot은 '학습 손님'일 뿐이에요 🏷️
많은 분이 "GPTBot = ChatGPT"라고 생각하지만, GPTBot은 OpenAI의 학습용 손님 하나일 뿐입니다. 같은 회사가 목적별로 봇을 나눠 운영해요.
| 브랜드 | 학습 손님 (막으면 학습 차단) | 인용 손님 (열어 두면 인용 유지) |
|---|---|---|
| OpenAI | GPTBot | OAI-SearchBot · ChatGPT-User |
| Anthropic | ClaudeBot | Claude-SearchBot · Claude-User |
Google-Extended (별도 봇이 아니라 AI 활용을 끄는 제어 표시) | Googlebot (검색·AI 답변 공용) | |
| Perplexity | PerplexityBot | Perplexity-User |
💡그래서 GPTBot을 막으면?
GPTBot 차단은 "내 글로 학습은 하지 말라"는 뜻입니다. ChatGPT가 답하면서 우리 글을 출처로 가져가는 일은 OAI-SearchBot·ChatGPT-User가 하므로, 이 봇들을 따로 막지 않는 한 인용 경로는 그대로 열려 있습니다.
우리 로그로 봤더니 — 대부분 미리 수집하러 와요 🔭
넥스트티는 우리 사이트에 실제로 다녀간 AI 봇을 서버 로그로 분류해 봤습니다. 2026년 5월 한 달 기준으로요.
- AI 봇이 우리 글을 가져간 것 중 약 80%가 학습·수집, 20%만 실시간 인용이었어요. → 대부분은 "지금 추천"이 아니라 "나중을 위해 쟁여 두는" 방문입니다.
- 실시간 인용은 ChatGPT 계열이 대부분이었습니다. → 우리 로그에서 식별된 ChatGPT 봇은 거의 "인용하러" 온 손님이었어요.
- 반대로 Meta·Claude 계열은 자사 로그에서 수집 성격이 강했습니다. Perplexity는
PerplexityBot(검색 결과에 사이트를 노출·연결하기 위한 수집·인덱싱)과Perplexity-User(사용자 질문 시 답변·링크를 돕는 요청성 fetch)를 나눠 봐야 합니다 — 둘 다 모델 학습용은 아니라고 공개돼 있어요.
⚠️이 숫자, 그대로 믿지 마세요
위 비율은 넥스트티 사이트 한 곳(n=1)의 한 달 스냅샷입니다. 우리 사이트는 GEO·AI를 다루다 보니 AI 봇이 유독 많이 와요. 업종·언어·콘텐츠에 따라 분포는 완전히 달라집니다. "AI 봇은 한 덩어리가 아니라 목적이 갈린다"는 구조만 가져가시고, 정확한 비율은 자기 사이트에서 직접 측정해 보셔야 합니다.
'AI 다 막자'가 위험한 이유 🙅
"AI가 내 글 가져가는 게 싫으니 전부 막자"는 마음은 이해됩니다. 하지만 봇을 통째로 막으면 이런 일이 벌어져요.
✅막는 문에 따라 잃는 게 달라요
- 학습 손님을 막으면 → 무단 학습 걱정은 줄지만, 우리 브랜드가 장기적으로 AI에 학습·참조될 가능성은 줄 수 있어요.
- 인용 손님을 막으면 → 당장 AI 답변에 출처로 노출되어 들어오던 트래픽 경로가 줄어들 수 있습니다.
즉 "전부 막기"는 무단 학습을 막으려다 애써 만든 글의 인용 노출까지 함께 닫는 선택이 될 수 있어요.
robots.txt로 골라서 여닫기 🔧
그래서 추천하는 건 "전부 막기/전부 열기"가 아니라 문을 골라 여닫기입니다. 학습은 막되 인용은 받고 싶다면, 학습 봇만 콕 집어 막으면 돼요. 같은 회사 봇이라도 이름(UA)이 다르니 따로 적어야 한다는 게 포인트입니다.
# 학습용 봇만 차단
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# 실시간 인용 봇은 열어 두기(기본도 허용이지만 의도를 분명히)
User-agent: OAI-SearchBot
Allow: /
User-agent: Perplexity-User
Allow: /
⚠️robots.txt는 '약속'이지 '자물쇠'가 아니에요
robots.txt는 강제로 막는 장치가 아니라 "이렇게 해 주세요"라는 선언적 약속입니다. 지킬지는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 사용자 요청 fetch는 robots를 따르지 않는다고 밝힌 경우도 있어요. 반드시 막아야 한다면 서버·방화벽(WAF) 레벨에서 차단해야 합니다.
정리 — 막을지 말지가 아니라, 어느 문인지 🚀
이 글의 한 줄 요약은 이렇습니다.
"AI 봇을 막을까 말까"가 질문이 아니라,
"내가 지금 어느 문을 여닫는지 알고 정했는가"가 질문입니다.
GPTBot 차단은 학습을 막는 것이지 ChatGPT 인용을 막는 게 아닙니다. 학습 봇과 인용 봇을 나눠 보고, 우리 목적(무단 학습 통제 / AI 노출 확보)에 맞게 문을 고르세요. 그리고 그 판단의 전제는 "우리 사이트엔 지금 누가, 무슨 목적으로 오는가"를 먼저 정직하게 보는 것입니다.
🔎함께 읽기
- 학습봇 vs 인용봇 (서버 로그 관측) — 이 글의 근거가 된 자세한 데이터·방법론
- AI 인용·수집 관측 리포트 — cite·crawl 집계를 매달 자동 발행
- AI가 가져가는 콘텐츠 3가지 패턴 — 어떤 글이 자주 인용되는가(자매편)
자주 묻는 질문 (FAQ)
Q.GPTBot을 막으면 ChatGPT 답변에서 우리 글이 사라지나요?
대개 그렇지 않습니다. GPTBot은 학습용 봇이고, ChatGPT가 답하면서 출처로 가져가는 일은 OAI-SearchBot·ChatGPT-User라는 다른 봇이 합니다. GPTBot만 막으면 학습 수집엔 차단 의사를 전하지만, 인용 봇을 따로 막지 않는 한 실시간 인용 경로는 열려 있습니다.
Q.그럼 AI 봇을 전부 막으면 안전한가요?
안전하다기보다 손해일 수 있습니다. 전부 막으면 무단 학습은 줄지만, AI 답변에 출처로 노출되어 들어오던 트래픽까지 함께 닫힙니다. "학습은 통제하되 인용은 받겠다"가 목표라면 봇을 골라서 여닫아야 합니다.
Q.학습은 막고 인용만 받을 수 있나요?
네. 같은 회사라도 학습용 봇과 인용용 봇은 이름(UA)이 다르므로 robots.txt에 따로 적으면 됩니다. GPTBot·ClaudeBot·Google-Extended(학습)는 막고, OAI-SearchBot·Perplexity-User(인용)는 열어 두는 식입니다.
Q.robots.txt에 적으면 100% 막히나요?
아닙니다. robots.txt는 강제력이 있는 차단 장치가 아니라 선언적 약속입니다. 준수 여부는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 사용자 요청 fetch는 robots를 따르지 않는다고 밝힌 경우도 있습니다. 반드시 막아야 한다면 서버·방화벽(WAF) 레벨 제어가 필요합니다.
Q.학습 80%·인용 20% 비율이 우리 사이트도 똑같나요?
아닙니다. 이 비율은 넥스트티 사이트 한 곳의 2026년 5월 한 달 스냅샷입니다. 우리 사이트는 GEO·AI 주제라 AI 봇이 유독 많이 옵니다. 업종·언어·콘텐츠에 따라 분포는 크게 달라지므로, 정확한 값은 자기 서버 로그를 직접 분류해 봐야 알 수 있습니다.