홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-05-28
관측 노트 · 비율만 공개
이 글의 모든 수치는 2026-05-17 ~ 05-28 자사 방문 로그를 분류한 결과입니다. 비율(%)·순위·관측 사실만 공개하고 — 절대 행수·DAU·페이지별 절대 트래픽은 공개하지 않습니다. 이 비율은 자사 사이트 한정이며, 모든 사이트에 동일 비율이 적용된다는 주장 아닙니다.
결론부터
11일치 트래픽을 분류해 보니, GA가 분류 가능한 사람 영역은 19.4%였습니다. 나머지 80.6%는 봇 — 그중 AI 봇이 15.3%, 검색 봇이 33.9%입니다.
※ 이 비율은 GEO·AI 관련 도메인인 자사 사이트의 11일 관측입니다 — AI·검색 봇 수집 빈도가 높은 시기·도메인 특성을 반영한 한 사례이며, 모든 사이트에 같은 비율이 적용된다는 주장 아닙니다.
사람
19.4%
GA가 분류 가능한 영역
봇 전체
80.6%
GA에 거의 안 잡힘
AI 봇
15.3%
ChatGPT·Meta·Perplexity·ByteDance·Claude 등
AI 답변에서 직접 클릭
0.27%
사람 방문 중 (0이 아니다)
자사 방문 로그 11일 관측 (2026-05-17 ~ 05-28) · 비율만 공개
참고 — GA는 사람 행동 분석엔 여전히 강력합니다. 다만 "누가 사람인가" 판별은 서버 로그 관점과 다를 수 있다는 사실이 이 글의 관측 대상입니다.
COMPOSITION
GA가 못 보는 80.6%를 다시 분류해 보면, AI 봇·검색 봇·기타 봇이 거의 1/3씩 차지합니다.
DAILY TREND
사람을 100으로 정규화해서 AI 봇 활동을 같이 그렸습니다. 11일 중 3일은 AI 봇이 사람과 비등하거나 초과했습니다.
⚑ AI 봇 트래픽이 사람과 비등(±5%p)하거나 초과한 날. GA의 사람 트래픽 추세 안에는 이 활동이 표시되지 않습니다 — 같은 페이지가 AI에 얼마나 자주 읽혔는지는 별도 신호(서버 로그)로만 보입니다.
📝 관측 가설(단정 아님) — 5/24~5/26은 새 GEO·SEO 인사이트 글이 다수 발행된 직후입니다. AI 크롤러의 재방문·재인덱싱 빈도가 일시적으로 늘어났을 가능성이 있지만, 외부 변수(엔진 측 크롤 스케줄·우연한 일치)도 작용할 수 있어 인과는 단정하지 않습니다.
CASE A · 위장 데이터센터
GA가 가장 잘 속는 패턴은 UA를 Chrome으로 위장한 데이터센터 자동화입니다. GA 화면에서는 평범한 한 명의 방문자로 보입니다.
GA 판정
🇭🇰 홍콩 사용자 1명
UA 명단에 봇이 없으므로 사람으로 분류
서버 로그 + ASN 분류
⚠ 데이터센터 자동화
ASN이 일반 ISP가 아닌 클라우드 인프라
CASE B · 정직한 스캐너
반대 사례 — UA에 자기 정체를 명시한 스캐너인데도, IAB 명단에 등록되지 않으면 GA는 사람으로 분류할 수 있습니다.
GA 판정
🇬🇧 영국 사용자 1명
UA 룰이 자동 매칭하지 않으면 통과
서버 로그 + ASN 분류
⚠ 봇·스캐너
UA 키워드 + ASN 양쪽이 일치
SIGNALS · 한 명, 네 가지 신호
GA의 봇 분류는 공개 기준상 알려진 봇·스파이더 명단 제외가 중심입니다. 서버 로그를 직접 분류하면 ASN(인프라 분류)·봇 IP 검증·참조 도메인 같은 신호를 같이 볼 수 있습니다.
| 신호 | GA | 자사 로그 분류 | 케이스 A | 케이스 B |
|---|---|---|---|---|
| UA 문자열 | ✓ | ✓ | 통과 (위장) | 매칭 (봇) |
| ASN · 인프라 분류 | ✕ | ✓ | → 데이터센터 | → 측정·스캔 |
| 봇 IP 검증 명단 | ✕ | ✓ | 비매칭 | 매칭 |
| 참조 URL · AI 도메인 | 부분 | ✓ | — | — |
| 최종 분류 | 사람 1명 | 봇/자동화 | 봇 | 봇 |
AI REFERRAL
사람 방문의 0.27% — 작은 비율입니다. 다만 0이 아닌 시점이 분기점이며, GA는 이 트래픽을 보통 단일 채널로 묶지 못합니다.
| 순위 | 도착 페이지 | 주요 출처 |
|---|---|---|
| ① | /geo/ | ChatGPT |
| ② | / (홈) | ChatGPT |
| ③ | /blog/seo/2026년-최신-seo-... | ChatGPT |
| ④ | /seo/check/ | Gemini |
| ⑤ | /blog/ | Perplexity |
| ⑥ | /geo/process | ChatGPT |
출처별 누적 점유율 순위: ChatGPT 1위 · Perplexity 2위 · Gemini 3위 · Claude · Copilot. 횟수는 비공개 — *0이 아니다*가 핵심 관측.
AI BOT COVERAGE
GA에선 이 페이지들의 "사람 트래픽"만 보이지만, AI 답변 노출의 주역은 이쪽입니다. 어떤 글이 AI에 자주 읽히는가는 GA로 보이지 않습니다.
| 순위 | 경로 | 상대 활동 (① 기준 100) |
|---|---|---|
| ① | / (홈) | 100 |
| ② | /seo/ | 68 |
| ③ | /blog/seo/2026년-최신-seo-... | 57 |
| ④ | /geo/ | 28 |
| ⑤ | /seo/webmaster-tools-setup/ | 24 |
상위 페이지를 100으로 정규화한 상대 막대 — 절대 횟수 비공개.
METHODOLOGY · 분류 방법과 한계
이 글의 비율은 자체 분류 결과라 외부 검증이 어렵습니다. 그래서 같은 방법론을 자기 사이트 로그에 적용해 직접 측정해 보실 수 있도록 분류 절차와 한계를 공개합니다.
분류 절차 (의사코드 수준)
ai_cite(AI 답변 inline-citation용 실시간 fetch) · ai_crawl(학습·검색 인덱싱용 크롤) · search(검색엔진 크롤러) · other(SEO 도구 포함 기타)한계 · 솔직히 인정해야 하는 부분
📌 같은 분류 결과를 자기 사이트에서 보고 싶으시면 — 서버 액세스 로그를 1주 이상 수집해 위 4단계를 적용하시거나, 또는 외부 도구(Cloudflare Bot Management·라이브러리)와 비교해 보실 수 있습니다.
CAPSTONE · 자주 보는 오해
GA의 봇 필터링은 IAB Tech Lab이 관리하는 표준 봇·스파이더 명단(주기적 갱신)을 기반으로 동작합니다. 공개적으로 확인 가능한 기준은 명단에 등록된 봇 식별이 중심이고, Chrome UA로 위장한 데이터센터 자동화·명단 외 측정 도구·AI 답변 referral의 단일 채널 분류까지 모두 가려낸다는 보장은 명세에 없습니다. 그래서 자사 트래픽을 정직하게 보려면 GA를 버리는 게 아니라, 서버 로그·ASN·봇 IP 검증을 별도 신호로 보강해야 합니다.
FAQ
Google Analytics는 알려진 봇·스파이더(IAB Tech Lab 표준 명단 기반)를 자동 제외한다고 공개되어 있습니다. 다만 세부 로직은 모두 공개되지 않고, 명단은 식별 가능한 봇 UA를 중심으로 갱신됩니다. 일반 Chrome UA로 자동화된 트래픽(헤드리스 브라우저·데이터센터 자동화 등)이 명단에 등록되어 있지 않다면 사람으로 분류될 여지가 있고, AI 크롤러(GPTBot·ClaudeBot·PerplexityBot 등)는 UA에 봇이라 명시돼 있어 보통 GA 화면에 사람으로는 잡히지 않습니다.
사람 트래픽 자체는 GA에 잡힙니다. 다만 referrer가 ChatGPT 등 도메인으로 들어오면 GA는 보통 "Direct" 또는 개별 referrer로 흩어 놓아, "AI 답변에서 왔다"는 사실 자체를 단일 채널로 묶지 못합니다. 별도 utm 캡처 또는 referrer 분류 규칙을 구축해야 합니다.
아닙니다. 이 글의 비율은 자사 사이트 11일 관측 한정입니다. 자사 사이트가 GEO·AI 관련 도메인이라 AI·검색 봇 수집 빈도가 높은 편이며, 산업·언어권·콘텐츠 유형에 따라 분포는 다릅니다. 같은 GA 사각지대 구조는 공통적으로 존재하지만 그 안의 비율은 자사 사이트에서 직접 분류해 봐야 알 수 있습니다.
다음 글 예고
"그럼 서버 로그로 분류하면 100% 잡히나요?" — 아닙니다. Residential proxy·CGNAT·익명 VPN을 거치면 ASN이 일반 가정·통신사 인프라로 보입니다. 다음 글에서는 서버 로그 분류의 한계(데이터센터 판별이 안 되는 경우)와, 그래서 우리가 정직하게 "추정"으로 분류하는 영역을 정리합니다.
RELATED CONTENT
학습 깊이와 도입 단계에 맞춘 추천
이제 중요한 질문은 "방문자가 몇 명인가"가 아니라,
"그 방문자가 사람인지·봇인지·AI 수집인지 구분하고 있는가"입니다.
GA가 안 보는 80% 안에서, 우리 사이트는 어떻게 분류되고 있을까요
AI 봇이 어느 페이지를 가장 자주 읽는지, 사람으로 잡힌 트래픽 중 데이터센터는 얼마인지 — 서버 로그 기반으로 진단합니다.