CRAWL GOVERNANCE · 2026

llms.txt · robots.txt · sitemap
AI 시대 3종 크롤 거버넌스 가이드

AI 봇이 사이트를 어떻게 읽어가는지 통제하는 3종 표준.
실제로 누가 어떤 파일을 요청하는지 자체 관측 데이터와 함께.

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-05-26

DEFINITION · 한 문장 정의

크롤 거버넌스는 검색엔진과 AI 답변엔진이 사이트의 어디를 어떻게 읽어갈지를 의도적으로 통제·안내하는 운영입니다. 핵심 3종 파일 — robots.txt(허용·차단), sitemap.xml(색인 후보 목록), llms.txt(LLM용 요약) — 이 각자 다른 역할을 합니다.

1분 요약 · KEY TAKEAWAYS

robots.txt는 통제(허용·차단), sitemap.xml은 안내(색인 후보), llms.txt는 요약(LLM용 사이트 개요)입니다.
llms.txt는 2026년 5월 현재 비공식 사양 — 보조 신호로 운영합니다.
AI 봇은 학습용(ai_crawl)과 답변 인용용(ai_cite)이 분리됩니다.
OAI-SearchBot · Claude-User · Perplexity-User가 오면 실시간 답변 인용 신호입니다.
봇 정책은 학습/인용 분리로 설계 — 일괄 차단·일괄 허용보다 안전합니다.

3 FILES

robots.txt · sitemap.xml · llms.txt — 역할이 다 다르다

robots.txt

크롤 허용·차단

CONTROL · 통제

크롤러가 사이트의 어떤 경로를 가져갈 수 있는지 지시. 1994년부터 쓰여온 가장 오래된 표준이며 모든 공식 봇이 준수합니다.

User-agent별 정책 분리 가능
경로 단위 Allow/Disallow
강제력 없음 (권고)

sitemap.xml

색인 후보 안내

GUIDE · 안내

검색엔진이 색인할 URL 목록과 갱신 정보를 알려줍니다. 크롤이 도달하기 어려운 페이지를 직접 알려주는 역할.

lastmod · priority · changefreq
다국어 hreflang 신호
대형 사이트는 인덱스 사이트맵 분리

llms.txt

LLM용 사이트 요약

SUMMARY · 요약 (비공식)

LLM이 사이트를 빠르게 이해하도록 마크다운 요약 + 핵심 URL을 제공. Anthropic이 제안한 비공식 사양이며 현재 일부 사이트가 자율 채택 중.

2026년 5월 현재 W3C 표준 아님
역할은 robots와 겹치지 않음
보조 신호로 운영

세 파일은 한 가지를 대체하는 관계가 아니라 역할이 다른 3종 세트입니다. robots.txt만 두면 봇이 어디를 가져가야 하는지 안내가 없고, sitemap.xml만 두면 차단 정책이 없으며, llms.txt만 두면 표준 크롤 규약이 빠집니다. 모두 두는 것이 자연스럽습니다.

DEEP DIVE · llms.txt

llms.txt는 정확히 무엇을 담는가

llms.txt는 사이트 루트(/llms.txt)에 두는 마크다운 문서로, 사이트를 짧게 소개하고 LLM이 핵심 URL을 따라가도록 안내합니다. Anthropic의 제안(llmstxt.org)은 다음 구조를 권합니다.

# 사이트 이름

> 한 문단 요약. 사이트가 무엇이고 핵심 가치는 무엇인지.

## 섹션 헤딩 (예: 핵심 정보, 주요 페이지, 도구)

- [페이지 제목](/url) — 한 줄 설명
- [페이지 제목](/url) — 한 줄 설명

## Optional
# 부가 정보 — LLM이 토큰 부족 시 우선 건너뛰는 영역

넥스트티는 llms.txt를 동적 생성합니다 — GNB 메뉴를 단일 출처로 두고 그 구조를 마크다운으로 변환합니다. 메뉴를 한 번 갱신하면 llms.txt도 자동으로 따라 갱신되어 별도 유지보수가 발생하지 않습니다. 실제 파일은 /llms.txt에서 확인할 수 있습니다.

운영 디테일 — 동적 생성 엔드포인트는 X-Robots-Tag: noindex, follow로 색인에서 제외하고, Cache-Control: public, max-age=3600으로 캐시 1시간을 두어 매 요청마다 다시 그리지 않도록 보호합니다.

OBSERVED · 자체 visit-analytics 관측

AI 봇은 한 종류가 아니다 — ai_cite와 ai_crawl 구분

넥스트티 사이트는 모든 페이지 요청을 자사 DB(nxt_visit_log)에 기록하고 User-Agent로 봇을 분류합니다. 그 분류 안에서 AI 봇은 두 가지 역할로 나뉩니다 — 답변 시점에 사이트를 fetch하는 인용용(ai_cite)과 학습 데이터 수집용(ai_crawl)입니다.

ai_cite · 인용 신호

답변 시점 실시간 fetch

사용자가 AI에게 질문할 때, AI가 답을 만들기 위해 사이트를 즉시 가져가는 크롤. 우리 페이지가 답변에 인용된다는 직접 신호이므로 GEO 관점에서 가장 가치가 큽니다.

OAI-SearchBot (ChatGPT 답변)
ChatGPT-User (사용자 브라우징)
Claude-User · Claude-SearchBot (Claude)
Perplexity-User (Perplexity)

ai_crawl · 학습 크롤

주기적 학습 데이터 수집

AI 모델 학습용으로 사이트를 주기적으로 가져가는 크롤. 답변 시점과 직접 연결되지는 않지만, 장기 권위 누적의 토대가 됩니다.

GPTBot (OpenAI 학습)
ClaudeBot (Anthropic 학습)
PerplexityBot (Perplexity 인덱스)
Google-Extended (Gemini 학습 옵트인)

실무 함의는 단순합니다 — ai_cite 봇이 자주 들어오는 페이지가 곧 AI 답변에 인용되는 페이지 후보입니다. ai_crawl 차단·허용 정책은 학습 데이터 정책이고, ai_cite 차단·허용 정책은 곧 GEO 노출 정책입니다. 두 정책을 분리해서 설계해야 합니다. 관측→재작성 루프에서 이 신호를 콘텐츠 품질로 역산합니다.

POLICY MATRIX

주요 AI 봇 정책 매트릭스 (2026-05)

봇 (User-Agent)	소유	역할	권장 기본 정책
`OAI-SearchBot`	OpenAI	ai_cite	허용 — ChatGPT 답변 인용 직결, 차단 시 노출 손실 큼
`ChatGPT-User`	OpenAI	ai_cite	허용 — 사용자 ChatGPT 브라우징 (실시간)
`GPTBot`	OpenAI	ai_crawl	허용/차단 선택 — 학습 데이터 제공 여부 정책 결정
`Claude-User`	Anthropic	ai_cite	허용 — Claude 답변 인용 직결
`Claude-SearchBot`	Anthropic	ai_cite	허용 — Claude 검색 인덱스
`ClaudeBot`	Anthropic	ai_crawl	허용/차단 선택 — 학습 정책 결정
`Perplexity-User`	Perplexity	ai_cite	허용 — Perplexity 답변 인용
`PerplexityBot`	Perplexity	ai_crawl	허용/차단 선택
`Google-Extended`	Google	ai_crawl	허용/차단 선택 — Gemini 학습 옵트인 토큰

기본 권장 — ai_cite 봇은 모두 허용(답변 노출 직결), ai_crawl 봇은 사이트 정책에 따라 결정. 일괄 차단·일괄 허용보다 역할별 분리가 안전합니다.

우리 사이트에 어떤 AI 봇이 실제로 오는지 — 관측부터 시작

SEO Checker로 무료 진단 →

COMMON PITFALLS · 잘못 만든 llms.txt

"운영하긴 하는데 손해 보는" llms.txt의 3가지 함정

만들기로 한 이상 *제대로* 만들어야 옵션 가치가 살아납니다. 운영 중인 한국 사이트를 점검할 때 자주 보이는 잘못된 패턴 3가지를 정리합니다.

PITFALL 01 · 전체 URL 무차별 덤프

sitemap.xml을 그대로 마크다운으로 옮긴 형태

사이트의 모든 URL을 그대로 마크다운 리스트로 쏟아붓는 패턴. llms.txt의 핵심은 "무엇이 중요한 페이지인가"를 LLM에 알려주는 것이지 URL 카탈로그가 아닙니다.

고치는 법 — 사이트 핵심 문서·서비스 페이지·인사이트 본문 위주로 *추린* 목록 + 한 줄 설명. sitemap이 있는데 또 사이트맵을 둘 필요 없음.

PITFALL 02 · 동적 생성인데 캐시 누락

매 요청마다 메뉴를 다시 그리는 구조

llms.txt를 PHP·동적 라우트로 생성하면서 Cache-Control 헤더를 빠뜨린 패턴. AI 봇이 짧은 간격으로 여러 번 요청할 때 서버 부하가 누적되고, 응답 지연으로 봇이 중도 포기하는 경우도 발생합니다.

고치는 법 — 동적 생성이면 Cache-Control: public, max-age=3600 정도. 메뉴가 자주 안 바뀐다면 정적 빌드로 굳혀도 OK.

PITFALL 03 · noindex 헤더 누락

llms.txt 자체가 검색 결과에 노출

X-Robots-Tag: noindex, follow 헤더를 안 줘서 llms.txt 파일 자체가 구글 검색 결과에 잡히는 패턴. 사이트 메타 정보가 검색 결과에 그대로 노출되는 사고로 이어집니다.

고치는 법 — 응답 헤더에 X-Robots-Tag: noindex, follow 추가. 정적 파일이라면 웹서버 설정에서 /llms.txt 경로에 같은 헤더를 강제.

HONEST · 넥스트티 관점

llms.txt, 아직 안 해도 되나요?

"곧 표준이 됩니다"라는 과대포장도, "유행일 뿐이라 무시해도 됩니다"라는 회의론도 정답이 아닙니다.
현재 시점의 정직한 평가를 정리합니다.

HONEST ANSWER

안 해도 당장 큰 손실이 생긴다고 보기 어렵습니다. 2026년 5월 현재 llms.txt는 공식 표준이 아니고, 주요 AI 엔진의 채택이 명확히 확정된 단계도 아닙니다. 안 했다고 답변 인용에서 빠지지는 않습니다.

다만 제작·운영 비용이 거의 없고, 채택이 늘 경우 먼저 준비된 사이트가 유리할 수 있습니다. 그래서 우리는 llms.txt를 "필수 작업"이 아니라 낮은 비용의 옵션 가치(option value)로 봅니다.

왜 "옵션 가치"라고 보는가

COST · 비용

동적 생성 시 코드 한 번 작성 후 자동 갱신. 정적 파일로도 한 페이지 분량. 초기 1회 + 유지 거의 0.

DOWNSIDE · 안 했을 때 손실

현재로선 거의 없음. 답변 인용이 빠지지 않음. 최악의 시나리오에서도 손해가 작음.

UPSIDE · 채택이 확대됐을 때 이득

AI 엔진이 llms.txt를 본격 사용하기 시작하면 먼저 운영해 둔 사이트가 보조 신호를 한 채널 더 보유. 시작 시점부터 운영 데이터를 쌓을 수 있음.

RECOMMENDATION

신규 사이트·리뉴얼 중인 사이트는 같이 만들어 두는 것을 권합니다 — 어차피 비용이 거의 없습니다. 기존 사이트는 우선순위가 높은 작업이 끝난 뒤 여유 자원으로 진행해도 됩니다. 어느 쪽이든 "표준이 확정되면 그때 한다"는 옵션 가치를 놓치는 결정에 가깝습니다.

과대포장도, 무시도 답이 아닙니다 — 비용이 작은 일은 정답 기다리지 말고 옵션을 사두는 것이 합리적입니다.

FAQ

자주 묻는 질문

llms.txt는 공식 표준인가요?+

2026년 5월 현재 llms.txt는 공식 W3C·IETF 표준이 아닙니다. Anthropic이 제안하고 일부 사이트가 자율적으로 채택하는 비공식 사양입니다. 따라서 모든 AI 엔진이 llms.txt를 보장된 방식으로 읽는다고 단정할 수 없으며, robots.txt와 sitemap.xml은 그대로 두고 llms.txt는 보조 신호로 운영하는 것이 안전합니다.

robots.txt와 llms.txt는 무엇이 다른가요?+

robots.txt는 크롤러가 어떤 경로를 가져갈 수 있는지 허용·차단을 지시하는 파일이고, llms.txt는 LLM이 사이트를 빠르게 이해하도록 핵심 요약과 주요 URL을 마크다운으로 제공하는 파일입니다. 한쪽은 "어디를 가져가도 되는가"의 통제, 다른 쪽은 "무엇이 핵심인가"의 안내입니다. 역할이 겹치지 않으므로 둘 다 두는 것이 자연스럽습니다.

AI 크롤러를 차단하면 검색 노출에도 영향을 주나요?+

봇마다 역할이 다르므로 영향도 다릅니다. GPTBot·ClaudeBot 같은 학습용 크롤러를 차단해도 일반 검색엔진 색인은 영향을 받지 않습니다. 다만 OAI-SearchBot·Claude-User 같은 "답변 시점 인용 크롤러"를 차단하면, ChatGPT·Claude 답변에 우리 사이트가 인용될 가능성이 줄어듭니다. 따라서 학습용과 인용용을 구분해 정책을 설정하는 것이 권장됩니다.

ai_cite와 ai_crawl 봇의 차이는 무엇인가요?+

ai_crawl은 AI 학습 데이터 수집용 크롤(예: GPTBot, ClaudeBot, Google-Extended)입니다. 사이트 전체를 주기적으로 가져가지만, 답변 시점과 직접 연결되지 않습니다. ai_cite는 사용자가 AI에게 질문할 때 실시간으로 사이트를 fetch하는 크롤(예: OAI-SearchBot, Claude-User, Perplexity-User)입니다. 우리 페이지가 답변에 인용되는 직접 신호이므로 GEO 관점에서 더 가치가 큽니다.

sitemap.xml에 llms.txt를 포함해야 하나요?+

필수는 아닙니다. sitemap.xml은 검색엔진이 색인할 페이지 목록이고, llms.txt는 그 자체로 별도 엔드포인트로 노출됩니다. 다만 llms.txt가 동적 생성되어 자주 갱신된다면, sitemap.xml에 lastmod와 함께 포함하거나 별도 RSS·changelog 신호를 두는 것도 방법입니다.

봇이 robots.txt를 정말로 준수하나요?+

공식 봇(Googlebot, Bingbot, GPTBot, ClaudeBot 등)은 일반적으로 준수합니다. 다만 robots.txt는 강제력이 아닌 권고이므로, 비공식 봇·사칭 봇은 무시하는 경우가 있습니다. 따라서 실제로 우리 사이트에 들어온 봇이 누구인지 IP 역방향 DNS로 사후 검증하는 절차가 안전합니다.

DIAGNOSE · AI CRAWL GOVERNANCE

어떤 AI 봇이 우리 사이트의 어떤 페이지를 가져가고 있는가

robots.txt 정책 검토 · sitemap·llms.txt 정합 · 봇별 ai_cite/ai_crawl 분리 · 사칭 봇 IP 검증.
넥스트티가 AI 크롤 거버넌스를 진단하고 GEO 노출에 맞춘 정책을 설계해드립니다.

크롤 거버넌스 상담 → SEO Checker로 자가진단

llms.txt · robots.txt · sitemapAI 시대 3종 크롤 거버넌스 가이드

AI 봇이 사이트를 어떻게 읽어가는지 통제하는 3종 표준. 실제로 누가 어떤 파일을 요청하는지 자체 관측 데이터와 함께.