AI 크롤러, robots.txt로 막아도 될까? — 학습봇만 막고 ChatGPT 인용은 받는 법

"AI가 내 글을 함부로 학습하는 게 싫어서 GPTBot을 막았어요. 그런데 그러면 ChatGPT가 내 글을 추천(인용)도 안 해 주는 거 아닌가요?" — 자주 받는 질문입니다. 결론부터 말하면 대개 그렇지 않습니다. 학습하러 오는 봇과, 지금 사용자에게 답하려고 인용하러 오는 봇은 서로 다른 손님이거든요. 우리 서버 로그 관측 글의 내용을, 이 글에서는 사업주·웹마스터 눈높이로 쉽게 풀어 보겠습니다.

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 2026-06-11

AI 봇은 한 덩어리가 아니에요 🚪🚪

우리 사이트를 가게라고 해 볼게요. AI가 보내는 손님은 크게 두 종류입니다.

① 학습·수집 손님 (crawl) — 나중에 참고하려고 카탈로그를 미리 통째로 살펴보는 손님입니다. 지금 당장 손님에게 우리를 추천하지는 않지만, 나중에 "기억"의 재료가 됩니다.
② 실시간 인용 손님 (cite) — 지금 옆에서 누가 질문을 해서, 그 자리에서 답해 주려고 우리 메뉴를 확인하러 온 점원입니다. 이 손님이 와서 가져가야 AI 답변에 우리 글이 출처로 붙습니다.

핵심은 이 둘이 서로 다른 봇이고, 가게 문 앞 안내판(robots.txt)에서 따로 여닫을 수 있다는 점이에요.

GPTBot은 '학습 손님'일 뿐이에요 🏷️

많은 분이 "GPTBot = ChatGPT"라고 생각하지만, GPTBot은 OpenAI의 학습용 손님 하나일 뿐입니다. 같은 회사가 목적별로 봇을 나눠 운영해요.

브랜드	학습 손님 (막으면 학습 차단)	노출 손님 (열어 두면 AI 인용·검색 노출 유지)
OpenAI	`GPTBot`	`OAI-SearchBot`(검색 색인) · `ChatGPT-User`(실시간 인용)
Anthropic	`ClaudeBot`	`Claude-SearchBot`(검색 색인) · `Claude-User`(실시간 인용)
Google	`Google-Extended` (별도 봇이 아니라 AI 활용을 끄는 제어 표시)	`Googlebot` (검색·AI 답변 공용)
Perplexity	`PerplexityBot`	`Perplexity-User`

※ 노출 손님도 둘로 나뉩니다. OAI-SearchBot·Claude-SearchBot은 검색 색인(AI 검색 결과에 우리를 올려 두는 크롤러)이고, ChatGPT-User·Claude-User는 실시간 인용(질문 순간 답을 만들려 방문)입니다. 둘 다 학습이 아니라 노출에 필요하므로 열어 둡니다.

💡그래서 GPTBot을 막으면?

GPTBot 차단은 "내 글로 학습은 하지 말라"는 뜻입니다. ChatGPT가 답하면서 우리 글을 출처로 가져가는 일은 OAI-SearchBot·ChatGPT-User가 하므로, 이 봇들을 따로 막지 않는 한 인용 경로는 그대로 열려 있습니다.

우리 로그로 봤더니 — 대부분 미리 수집하러 와요 🔭

넥스트티는 우리 사이트에 실제로 다녀간 AI 봇을 서버 로그로 분류해 봤습니다. 2026년 5월 한 달 기준으로요.

AI 봇이 우리 글을 가져간 것 중 약 80%가 학습·수집, 20%만 실시간 인용이었어요. → 대부분은 "지금 추천"이 아니라 "나중을 위해 쟁여 두는" 방문입니다.
실시간 인용은 ChatGPT 계열이 대부분이었습니다. → 우리 로그에서 식별된 ChatGPT 봇은 거의 "인용하러" 온 손님이었어요.
반대로 Meta·Claude 계열은 자사 로그에서 수집 성격이 강했습니다. Perplexity는 PerplexityBot(검색 결과에 사이트를 노출·연결하기 위한 수집·인덱싱)과 Perplexity-User(사용자 질문 시 답변·링크를 돕는 요청성 fetch)를 나눠 봐야 합니다 — 둘 다 모델 학습용은 아니라고 공개돼 있어요.

⚠️이 숫자, 그대로 믿지 마세요

위 비율은 넥스트티 사이트 한 곳(n=1)의 한 달 스냅샷입니다. 우리 사이트는 GEO·AI를 다루다 보니 AI 봇이 유독 많이 와요. 업종·언어·콘텐츠에 따라 분포는 완전히 달라집니다. "AI 봇은 한 덩어리가 아니라 목적이 갈린다"는 구조만 가져가시고, 정확한 비율은 자기 사이트에서 직접 측정해 보셔야 합니다.

'AI 다 막자'가 위험한 이유 🙅

"AI가 내 글 가져가는 게 싫으니 전부 막자"는 마음은 이해됩니다. 하지만 봇을 통째로 막으면 이런 일이 벌어져요.

✅막는 문에 따라 잃는 게 달라요

학습 손님을 막으면 → 무단 학습 걱정은 줄지만, 우리 브랜드가 장기적으로 AI에 학습·참조될 가능성은 줄 수 있어요.
인용 손님을 막으면 → 당장 AI 답변에 출처로 노출되어 들어오던 트래픽 경로가 줄어들 수 있습니다.

즉 "전부 막기"는 무단 학습을 막으려다 애써 만든 글의 인용 노출까지 함께 닫는 선택이 될 수 있어요.

robots.txt로 골라서 여닫기 🔧

그래서 추천하는 건 "전부 막기/전부 열기"가 아니라 문을 골라 여닫기입니다. 학습은 막되 인용은 받고 싶다면, 학습 봇만 콕 집어 막으면 돼요. 같은 회사 봇이라도 이름(UA)이 다르니 따로 적어야 한다는 게 포인트입니다.

# 학습용 봇만 차단
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# 실시간 인용 봇은 열어 두기(기본도 허용이지만 의도를 분명히)
User-agent: OAI-SearchBot
Allow: /

User-agent: Perplexity-User
Allow: /

⚠️robots.txt는 '약속'이지 '자물쇠'가 아니에요

robots.txt는 강제로 막는 장치가 아니라 "이렇게 해 주세요"라는 선언적 약속입니다. 지킬지는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 사용자 요청 fetch는 robots를 따르지 않는다고 밝힌 경우도 있어요. 반드시 막아야 한다면 서버·방화벽(WAF) 레벨에서 차단해야 합니다.

정리 — 막을지 말지가 아니라, 어느 문인지 🚀

이 글의 한 줄 요약은 이렇습니다.

"AI 봇을 막을까 말까"가 질문이 아니라,
"내가 지금 어느 문을 여닫는지 알고 정했는가"가 질문입니다.

GPTBot 차단은 학습을 막는 것이지 ChatGPT 인용을 막는 게 아닙니다. 학습 봇과 인용 봇을 나눠 보고, 우리 목적(무단 학습 통제 / AI 노출 확보)에 맞게 문을 고르세요. 그리고 그 판단의 전제는 "우리 사이트엔 지금 누가, 무슨 목적으로 오는가"를 먼저 정직하게 보는 것입니다.

🔎함께 읽기

학습봇 vs 인용봇 (서버 로그 관측) — 이 글의 근거가 된 자세한 데이터·방법론
AI 인용·수집 관측 리포트 — cite·crawl 집계를 매달 자동 발행
AI가 가져가는 콘텐츠 3가지 패턴 — 어떤 글이 자주 인용되는가(자매편)

출처 — 봇 이름과 용도는 각 사 공식 문서 기준입니다. OpenAI · Anthropic · Google · Perplexity

자주 묻는 질문 (FAQ)

Q.GPTBot을 막으면 ChatGPT 답변에서 우리 글이 사라지나요?

대개 그렇지 않습니다. GPTBot은 학습용 봇이고, ChatGPT가 답하면서 출처로 가져가는 일은 OAI-SearchBot·ChatGPT-User라는 다른 봇이 합니다. GPTBot만 막으면 학습 수집엔 차단 의사를 전하지만, 인용 봇을 따로 막지 않는 한 실시간 인용 경로는 열려 있습니다.

Q.그럼 AI 봇을 전부 막으면 안전한가요?

안전하다기보다 손해일 수 있습니다. 전부 막으면 무단 학습은 줄지만, AI 답변에 출처로 노출되어 들어오던 트래픽까지 함께 닫힙니다. "학습은 통제하되 인용은 받겠다"가 목표라면 봇을 골라서 여닫아야 합니다.

Q.학습은 막고 인용만 받을 수 있나요?

네. 같은 회사라도 학습용 봇과 인용용 봇은 이름(UA)이 다르므로 robots.txt에 따로 적으면 됩니다. GPTBot·ClaudeBot·Google-Extended(학습)는 막고, OAI-SearchBot·Perplexity-User(인용)는 열어 두는 식입니다.

Q.robots.txt에 적으면 100% 막히나요?

아닙니다. robots.txt는 강제력이 있는 차단 장치가 아니라 선언적 약속입니다. 준수 여부는 각 봇 운영사 정책에 달려 있고, Perplexity-User처럼 사용자 요청 fetch는 robots를 따르지 않는다고 밝힌 경우도 있습니다. 반드시 막아야 한다면 서버·방화벽(WAF) 레벨 제어가 필요합니다.

Q.학습 80%·인용 20% 비율이 우리 사이트도 똑같나요?

아닙니다. 이 비율은 넥스트티 사이트 한 곳의 2026년 5월 한 달 스냅샷입니다. 우리 사이트는 GEO·AI 주제라 AI 봇이 유독 많이 옵니다. 업종·언어·콘텐츠에 따라 분포는 크게 달라지므로, 정확한 값은 자기 서버 로그를 직접 분류해 봐야 알 수 있습니다.

AI 크롤러, robots.txt로 막아도 될까? — 학습봇만 막고 ChatGPT 인용은 받는 법

AI 봇은 한 덩어리가 아니에요 🚪🚪

GPTBot은 '학습 손님'일 뿐이에요 🏷️

💡그래서 GPTBot을 막으면?

우리 로그로 봤더니 — 대부분 미리 수집하러 와요 🔭

⚠️이 숫자, 그대로 믿지 마세요

'AI 다 막자'가 위험한 이유 🙅

✅막는 문에 따라 잃는 게 달라요

robots.txt로 골라서 여닫기 🔧

⚠️robots.txt는 '약속'이지 '자물쇠'가 아니에요

정리 — 막을지 말지가 아니라, 어느 문인지 🚀

🔎함께 읽기

자주 묻는 질문 (FAQ)

Q.GPTBot을 막으면 ChatGPT 답변에서 우리 글이 사라지나요?

Q.그럼 AI 봇을 전부 막으면 안전한가요?

Q.학습은 막고 인용만 받을 수 있나요?

Q.robots.txt에 적으면 100% 막히나요?

Q.학습 80%·인용 20% 비율이 우리 사이트도 똑같나요?

넥스트티가 운영하는 GEO 솔루션

GEO 완전 가이드

GEO 솔루션 비교

VOS 라인업

AI 크롤러, robots.txt로 막아도 될까? — 학습봇만 막고 ChatGPT 인용은 받는 법

AI 봇은 한 덩어리가 아니에요 🚪🚪

GPTBot은 '학습 손님'일 뿐이에요 🏷️

💡그래서 GPTBot을 막으면?

우리 로그로 봤더니 — 대부분 미리 수집하러 와요 🔭

⚠️이 숫자, 그대로 믿지 마세요

'AI 다 막자'가 위험한 이유 🙅

✅막는 문에 따라 잃는 게 달라요

robots.txt로 골라서 여닫기 🔧

⚠️robots.txt는 '약속'이지 '자물쇠'가 아니에요

정리 — 막을지 말지가 아니라, 어느 문인지 🚀

🔎함께 읽기

자주 묻는 질문 (FAQ)

Q.GPTBot을 막으면 ChatGPT 답변에서 우리 글이 사라지나요?

Q.그럼 AI 봇을 전부 막으면 안전한가요?

Q.학습은 막고 인용만 받을 수 있나요?

Q.robots.txt에 적으면 100% 막히나요?

Q.학습 80%·인용 20% 비율이 우리 사이트도 똑같나요?

넥스트티가 운영하는 GEO 솔루션

GEO 완전 가이드

GEO 솔루션 비교

VOS 라인업

관련 포스트

GEO 투자가 늦어도 되는 기업과 조건별 판단 기준

GEO 인용률 상승 리포트 검증법과 조작 신호