홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-05-26
DEFINITION · 한 문장 정의
크롤 거버넌스는 검색엔진과 AI 답변엔진이 사이트의 어디를 어떻게 읽어갈지를 의도적으로 통제·안내하는 운영입니다. 핵심 3종 파일 — robots.txt(허용·차단), sitemap.xml(색인 후보 목록), llms.txt(LLM용 요약) — 이 각자 다른 역할을 합니다.
1분 요약 · KEY TAKEAWAYS
3 FILES
robots.txt
CONTROL · 통제
크롤러가 사이트의 어떤 경로를 가져갈 수 있는지 지시. 1994년부터 쓰여온 가장 오래된 표준이며 모든 공식 봇이 준수합니다.
sitemap.xml
GUIDE · 안내
검색엔진이 색인할 URL 목록과 갱신 정보를 알려줍니다. 크롤이 도달하기 어려운 페이지를 직접 알려주는 역할.
llms.txt
SUMMARY · 요약 (비공식)
LLM이 사이트를 빠르게 이해하도록 마크다운 요약 + 핵심 URL을 제공. Anthropic이 제안한 비공식 사양이며 현재 일부 사이트가 자율 채택 중.
세 파일은 한 가지를 대체하는 관계가 아니라 역할이 다른 3종 세트입니다. robots.txt만 두면 봇이 어디를 가져가야 하는지 안내가 없고, sitemap.xml만 두면 차단 정책이 없으며, llms.txt만 두면 표준 크롤 규약이 빠집니다. 모두 두는 것이 자연스럽습니다.
DEEP DIVE · llms.txt
llms.txt는 사이트 루트(/llms.txt)에 두는 마크다운 문서로, 사이트를 짧게 소개하고 LLM이 핵심 URL을 따라가도록 안내합니다. Anthropic의 제안(llmstxt.org)은 다음 구조를 권합니다.
# 사이트 이름 > 한 문단 요약. 사이트가 무엇이고 핵심 가치는 무엇인지. ## 섹션 헤딩 (예: 핵심 정보, 주요 페이지, 도구) - [페이지 제목](/url) — 한 줄 설명 - [페이지 제목](/url) — 한 줄 설명 ## Optional # 부가 정보 — LLM이 토큰 부족 시 우선 건너뛰는 영역
넥스트티는 llms.txt를 동적 생성합니다 — GNB 메뉴를 단일 출처로 두고 그 구조를 마크다운으로 변환합니다. 메뉴를 한 번 갱신하면 llms.txt도 자동으로 따라 갱신되어 별도 유지보수가 발생하지 않습니다. 실제 파일은 /llms.txt에서 확인할 수 있습니다.
운영 디테일 — 동적 생성 엔드포인트는 X-Robots-Tag: noindex, follow로 색인에서 제외하고, Cache-Control: public, max-age=3600으로 캐시 1시간을 두어 매 요청마다 다시 그리지 않도록 보호합니다.
OBSERVED · 자체 visit-analytics 관측
넥스트티 사이트는 모든 페이지 요청을 자사 DB(nxt_visit_log)에 기록하고 User-Agent로 봇을 분류합니다. 그 분류 안에서 AI 봇은 두 가지 역할로 나뉩니다 — 답변 시점에 사이트를 fetch하는 인용용(ai_cite)과 학습 데이터 수집용(ai_crawl)입니다.
사용자가 AI에게 질문할 때, AI가 답을 만들기 위해 사이트를 즉시 가져가는 크롤. 우리 페이지가 답변에 인용된다는 직접 신호이므로 GEO 관점에서 가장 가치가 큽니다.
AI 모델 학습용으로 사이트를 주기적으로 가져가는 크롤. 답변 시점과 직접 연결되지는 않지만, 장기 권위 누적의 토대가 됩니다.
실무 함의는 단순합니다 — ai_cite 봇이 자주 들어오는 페이지가 곧 AI 답변에 인용되는 페이지 후보입니다. ai_crawl 차단·허용 정책은 학습 데이터 정책이고, ai_cite 차단·허용 정책은 곧 GEO 노출 정책입니다. 두 정책을 분리해서 설계해야 합니다. 관측→재작성 루프에서 이 신호를 콘텐츠 품질로 역산합니다.
POLICY MATRIX
| 봇 (User-Agent) | 소유 | 역할 | 권장 기본 정책 |
|---|---|---|---|
OAI-SearchBot |
OpenAI | ai_cite | 허용 — ChatGPT 답변 인용 직결, 차단 시 노출 손실 큼 |
ChatGPT-User |
OpenAI | ai_cite | 허용 — 사용자 ChatGPT 브라우징 (실시간) |
GPTBot |
OpenAI | ai_crawl | 허용/차단 선택 — 학습 데이터 제공 여부 정책 결정 |
Claude-User |
Anthropic | ai_cite | 허용 — Claude 답변 인용 직결 |
Claude-SearchBot |
Anthropic | ai_cite | 허용 — Claude 검색 인덱스 |
ClaudeBot |
Anthropic | ai_crawl | 허용/차단 선택 — 학습 정책 결정 |
Perplexity-User |
Perplexity | ai_cite | 허용 — Perplexity 답변 인용 |
PerplexityBot |
Perplexity | ai_crawl | 허용/차단 선택 |
Google-Extended |
ai_crawl | 허용/차단 선택 — Gemini 학습 옵트인 토큰 |
기본 권장 — ai_cite 봇은 모두 허용(답변 노출 직결), ai_crawl 봇은 사이트 정책에 따라 결정. 일괄 차단·일괄 허용보다 역할별 분리가 안전합니다.
우리 사이트에 어떤 AI 봇이 실제로 오는지 — 관측부터 시작
SEO Checker로 무료 진단 →COMMON PITFALLS · 잘못 만든 llms.txt
만들기로 한 이상 *제대로* 만들어야 옵션 가치가 살아납니다. 운영 중인 한국 사이트를 점검할 때 자주 보이는 잘못된 패턴 3가지를 정리합니다.
PITFALL 01 · 전체 URL 무차별 덤프
사이트의 모든 URL을 그대로 마크다운 리스트로 쏟아붓는 패턴. llms.txt의 핵심은 "무엇이 중요한 페이지인가"를 LLM에 알려주는 것이지 URL 카탈로그가 아닙니다.
고치는 법 — 사이트 핵심 문서·서비스 페이지·인사이트 본문 위주로 *추린* 목록 + 한 줄 설명. sitemap이 있는데 또 사이트맵을 둘 필요 없음.
PITFALL 02 · 동적 생성인데 캐시 누락
llms.txt를 PHP·동적 라우트로 생성하면서 Cache-Control 헤더를 빠뜨린 패턴. AI 봇이 짧은 간격으로 여러 번 요청할 때 서버 부하가 누적되고, 응답 지연으로 봇이 중도 포기하는 경우도 발생합니다.
고치는 법 — 동적 생성이면 Cache-Control: public, max-age=3600 정도. 메뉴가 자주 안 바뀐다면 정적 빌드로 굳혀도 OK.
PITFALL 03 · noindex 헤더 누락
X-Robots-Tag: noindex, follow 헤더를 안 줘서 llms.txt 파일 자체가 구글 검색 결과에 잡히는 패턴. 사이트 메타 정보가 검색 결과에 그대로 노출되는 사고로 이어집니다.
고치는 법 — 응답 헤더에 X-Robots-Tag: noindex, follow 추가. 정적 파일이라면 웹서버 설정에서 /llms.txt 경로에 같은 헤더를 강제.
HONEST · 넥스트티 관점
"곧 표준이 됩니다"라는 과대포장도, "유행일 뿐이라 무시해도 됩니다"라는 회의론도 정답이 아닙니다.
현재 시점의 정직한 평가를 정리합니다.
HONEST ANSWER
안 해도 당장 큰 손실이 생긴다고 보기 어렵습니다. 2026년 5월 현재 llms.txt는 공식 표준이 아니고, 주요 AI 엔진의 채택이 명확히 확정된 단계도 아닙니다. 안 했다고 답변 인용에서 빠지지는 않습니다.
다만 제작·운영 비용이 거의 없고, 채택이 늘 경우 먼저 준비된 사이트가 유리할 수 있습니다. 그래서 우리는 llms.txt를 "필수 작업"이 아니라 낮은 비용의 옵션 가치(option value)로 봅니다.
COST · 비용
동적 생성 시 코드 한 번 작성 후 자동 갱신. 정적 파일로도 한 페이지 분량. 초기 1회 + 유지 거의 0.
DOWNSIDE · 안 했을 때 손실
현재로선 거의 없음. 답변 인용이 빠지지 않음. 최악의 시나리오에서도 손해가 작음.
UPSIDE · 채택이 확대됐을 때 이득
AI 엔진이 llms.txt를 본격 사용하기 시작하면 먼저 운영해 둔 사이트가 보조 신호를 한 채널 더 보유. 시작 시점부터 운영 데이터를 쌓을 수 있음.
RECOMMENDATION
신규 사이트·리뉴얼 중인 사이트는 같이 만들어 두는 것을 권합니다 — 어차피 비용이 거의 없습니다. 기존 사이트는 우선순위가 높은 작업이 끝난 뒤 여유 자원으로 진행해도 됩니다. 어느 쪽이든 "표준이 확정되면 그때 한다"는 옵션 가치를 놓치는 결정에 가깝습니다.
과대포장도, 무시도 답이 아닙니다 — 비용이 작은 일은 정답 기다리지 말고 옵션을 사두는 것이 합리적입니다.
FAQ
DIAGNOSE · AI CRAWL GOVERNANCE
robots.txt 정책 검토 · sitemap·llms.txt 정합 · 봇별 ai_cite/ai_crawl 분리 · 사칭 봇 IP 검증.
넥스트티가 AI 크롤 거버넌스를 진단하고 GEO 노출에 맞춘 정책을 설계해드립니다.