상세문의 아이콘 상세문의
간편문의 아이콘 × 간편문의

GA가 분류하지 못한 80.6%,
그 안엔 무엇이 있었나

자사 방문 로그 11일 관측
GA가 분류 가능한 영역은 19.4%였습니다. 나머지 80.6%의 정체를 비율과 순위로만 공개합니다.

홍은표 · 넥스트티 대표 · SEO/GEO 컨설턴트 | 작성 2026-05-28

관측 노트 · 비율만 공개

이 글의 모든 수치는 2026-05-17 ~ 05-28 자사 방문 로그를 분류한 결과입니다. 비율(%)·순위·관측 사실만 공개하고 — 절대 행수·DAU·페이지별 절대 트래픽은 공개하지 않습니다. 이 비율은 자사 사이트 한정이며, 모든 사이트에 동일 비율이 적용된다는 주장 아닙니다.

결론부터

11일치 트래픽을 분류해 보니, GA가 분류 가능한 사람 영역은 19.4%였습니다. 나머지 80.6%는 봇 — 그중 AI 봇이 15.3%, 검색 봇이 33.9%입니다.

※ 이 비율은 GEO·AI 관련 도메인인 자사 사이트의 11일 관측입니다 — AI·검색 봇 수집 빈도가 높은 시기·도메인 특성을 반영한 한 사례이며, 모든 사이트에 같은 비율이 적용된다는 주장 아닙니다.

  • GA4는 알려진 봇·스파이더(IAB Tech Lab 표준 명단 기반)를 자동 제외한다고 공개되어 있습니다. 다만 세부 로직은 모두 공개되지 않으며, Chrome UA로 위장한 데이터센터 트래픽이 명단에 없다면 사람으로 분류될 여지가 있습니다.
  • 11일 중 3일은 AI 봇이 사람과 비등하거나 초과했습니다. GA 트래픽 추세에는 이 활동이 표시되지 않습니다.
  • GA를 버리라는 게 아니라, GA의 입력 신호 자체가 사람만 정직하게 들어와야 작동한다는 사실입니다.

사람

19.4%

GA가 분류 가능한 영역

봇 전체

80.6%

GA에 거의 안 잡힘

AI 봇

15.3%

ChatGPT·Meta·Perplexity·ByteDance·Claude 등

AI 답변에서 직접 클릭

0.27%

사람 방문 중 (0이 아니다)

자사 방문 로그 11일 관측 (2026-05-17 ~ 05-28) · 비율만 공개

참고 — GA는 사람 행동 분석엔 여전히 강력합니다. 다만 "누가 사람인가" 판별은 서버 로그 관점과 다를 수 있다는 사실이 이 글의 관측 대상입니다.

COMPOSITION

사각지대 안엔 무엇이 있나

GA가 못 보는 80.6%를 다시 분류해 보면, AI 봇·검색 봇·기타 봇이 거의 1/3씩 차지합니다.

100% 11일 관측
  • 사람 19.4% · GA가 분류 가능
  • AI 봇 15.3% · ai_crawl + ai_cite
  • 검색 봇 33.9% · Google·Bing·Naver·Baidu
  • 기타·미분류 31.4% · SEO 도구·스캐너 등

DAILY TREND

AI 봇이 사람과 비등한 날 — 11일 중 3일

사람을 100으로 정규화해서 AI 봇 활동을 같이 그렸습니다. 11일 중 3일은 AI 봇이 사람과 비등하거나 초과했습니다.

사람 (100 기준) AI 봇 (사람 대비 %)
05-17 100 89
05-18 100 97
05-19 100 61
05-20 100 95
05-21 100 70
05-22 100 67
05-23 100 86
05-24 ⚑ 100 100
05-25 ⚑ 100 139
05-26 ⚑ 100 100
05-27 100 65
05-28 100 43

⚑ AI 봇 트래픽이 사람과 비등(±5%p)하거나 초과한 날. GA의 사람 트래픽 추세 안에는 이 활동이 표시되지 않습니다 — 같은 페이지가 AI에 얼마나 자주 읽혔는지는 별도 신호(서버 로그)로만 보입니다.

📝 관측 가설(단정 아님) — 5/24~5/26은 새 GEO·SEO 인사이트 글이 다수 발행된 직후입니다. AI 크롤러의 재방문·재인덱싱 빈도가 일시적으로 늘어났을 가능성이 있지만, 외부 변수(엔진 측 크롤 스케줄·우연한 일치)도 작용할 수 있어 인과는 단정하지 않습니다.

CASE A · 위장 데이터센터

"홍콩 사용자 1명" — 실제로는 데이터센터

GA가 가장 잘 속는 패턴은 UA를 Chrome으로 위장한 데이터센터 자동화입니다. GA 화면에서는 평범한 한 명의 방문자로 보입니다.

VISITOR · 케이스 A
IP203.xx.xx.xx (홍콩)
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...
ASNHUAWEI CLOUDS · 클라우드 인프라

GA 판정

🇭🇰 홍콩 사용자 1명

UA 명단에 봇이 없으므로 사람으로 분류

서버 로그 + ASN 분류

⚠ 데이터센터 자동화

ASN이 일반 ISP가 아닌 클라우드 인프라

CASE B · 정직한 스캐너

"영국 사용자 1명" — UA에 봇이라 적혀 있는데도

반대 사례 — UA에 자기 정체를 명시한 스캐너인데도, IAB 명단에 등록되지 않으면 GA는 사람으로 분류할 수 있습니다.

VISITOR · 케이스 B
IPxxx.xxx.xxx.xxx (영국)
User-AgentInternetMeasurement · 스캐너임을 명시
ASNDriftnet · 측정·스캔 인프라

GA 판정

🇬🇧 영국 사용자 1명

UA 룰이 자동 매칭하지 않으면 통과

서버 로그 + ASN 분류

⚠ 봇·스캐너

UA 키워드 + ASN 양쪽이 일치

SIGNALS · 한 명, 네 가지 신호

GA가 보는 신호 vs 자사 로그가 보는 신호

GA의 봇 분류는 공개 기준상 알려진 봇·스파이더 명단 제외가 중심입니다. 서버 로그를 직접 분류하면 ASN(인프라 분류)·봇 IP 검증·참조 도메인 같은 신호를 같이 볼 수 있습니다.

신호GA자사 로그 분류케이스 A케이스 B
UA 문자열통과 (위장)매칭 (봇)
ASN · 인프라 분류→ 데이터센터→ 측정·스캔
봇 IP 검증 명단비매칭매칭
참조 URL · AI 도메인부분
최종 분류사람 1명봇/자동화

AI REFERRAL

AI 답변에서 직접 클릭해 온 사람 — 도착 페이지 순위

사람 방문의 0.27% — 작은 비율입니다. 다만 0이 아닌 시점이 분기점이며, GA는 이 트래픽을 보통 단일 채널로 묶지 못합니다.

순위도착 페이지주요 출처
/geo/ChatGPT
/ (홈)ChatGPT
/blog/seo/2026년-최신-seo-...ChatGPT
/seo/check/Gemini
/blog/Perplexity
/geo/processChatGPT

출처별 누적 점유율 순위: ChatGPT 1위 · Perplexity 2위 · Gemini 3위 · Claude · Copilot. 횟수는 비공개 — *0이 아니다*가 핵심 관측.

AI BOT COVERAGE

AI 봇이 가장 자주 인용·크롤한 페이지

GA에선 이 페이지들의 "사람 트래픽"만 보이지만, AI 답변 노출의 주역은 이쪽입니다. 어떤 글이 AI에 자주 읽히는가는 GA로 보이지 않습니다.

순위경로상대 활동 (① 기준 100)
/ (홈) 100
/seo/ 68
/blog/seo/2026년-최신-seo-... 57
/geo/ 28
/seo/webmaster-tools-setup/ 24

상위 페이지를 100으로 정규화한 상대 막대 — 절대 횟수 비공개.

METHODOLOGY · 분류 방법과 한계

우리는 이렇게 분류했습니다 — 같은 방법으로 검증해 보실 수 있도록

이 글의 비율은 자체 분류 결과라 외부 검증이 어렵습니다. 그래서 같은 방법론을 자기 사이트 로그에 적용해 직접 측정해 보실 수 있도록 분류 절차와 한계를 공개합니다.

분류 절차 (의사코드 수준)

  1. UA 매칭 — 공개된 봇 UA 명세와 비교 (OpenAI GPTBot/OAI-SearchBot/ChatGPT-User · Anthropic ClaudeBot · Perplexity PerplexityBot · Google Googlebot · Microsoft Bingbot · Baidu Baiduspider · Naver Yeti · Apple Applebot 등)
  2. 역방향 DNS 검증 — UA에 봇이라고 적힌 트래픽의 IP를 reverse DNS로 조회해 정말 그 출처가 맞는지 확인 (위장 UA 차단)
  3. 역할 분류 — 봇으로 식별되면 다시 4분류: ai_cite(AI 답변 inline-citation용 실시간 fetch) · ai_crawl(학습·검색 인덱싱용 크롤) · search(검색엔진 크롤러) · other(SEO 도구 포함 기타)
  4. AI 답변 referral — referrer 헤더가 ChatGPT·Perplexity·Gemini·Claude·Copilot 도메인이면 utm 캡처와 함께 별도 컬럼 기록

한계 · 솔직히 인정해야 하는 부분

  • ·기타·미분류 31.4%의 내역 — 안을 다시 열어 보면 식별된 SEO 도구가 21.9%(Ahrefs·SEMrush·Screaming Frog 등 자기 정체를 UA에 명시한 도구), 진짜 미분류는 약 9.5%입니다. AI 봇 15.3% 수치는 이 미분류 9.5%만큼의 잠재 오차 위쪽으로 변할 수 있습니다.
  • ·자체 분류라 외부 검증 불가 — 같은 로그를 다른 도구로 분류하면 결과가 다를 수 있습니다. "GA 사각지대가 존재한다"는 정성적 결론은 신뢰하시되, 구체적 비율(19.4%·15.3% 등)은 참고용으로 받아들이시는 것이 적절합니다.
  • ·이해 상충 공개 — 이 글은 자사 측정 엔진(OPTIANALYTICS)과 연결되는 콘텐츠입니다. 비율이 극적으로 보일 유인이 있다는 점을 인지하고 읽어 주시기 바랍니다. 위 분류 절차는 공개된 봇 명세와 표준 검증(역방향 DNS·utm)만 사용하므로 누구나 자기 사이트 로그에서 재현해 볼 수 있습니다.

📌 같은 분류 결과를 자기 사이트에서 보고 싶으시면 — 서버 액세스 로그를 1주 이상 수집해 위 4단계를 적용하시거나, 또는 외부 도구(Cloudflare Bot Management·라이브러리)와 비교해 보실 수 있습니다.

CAPSTONE · 자주 보는 오해

GA가 틀린 게 아니다.
GA의 입력 신호 자체가 사람만 정직하게 들어와야 작동한다.

GA의 봇 필터링은 IAB Tech Lab이 관리하는 표준 봇·스파이더 명단(주기적 갱신)을 기반으로 동작합니다. 공개적으로 확인 가능한 기준은 명단에 등록된 봇 식별이 중심이고, Chrome UA로 위장한 데이터센터 자동화·명단 외 측정 도구·AI 답변 referral의 단일 채널 분류까지 모두 가려낸다는 보장은 명세에 없습니다. 그래서 자사 트래픽을 정직하게 보려면 GA를 버리는 게 아니라, 서버 로그·ASN·봇 IP 검증을 별도 신호로 보강해야 합니다.

FAQ

자주 보는 질문

GA의 봇 필터링은 왜 데이터센터 트래픽을 못 잡나요?

Google Analytics는 알려진 봇·스파이더(IAB Tech Lab 표준 명단 기반)를 자동 제외한다고 공개되어 있습니다. 다만 세부 로직은 모두 공개되지 않고, 명단은 식별 가능한 봇 UA를 중심으로 갱신됩니다. 일반 Chrome UA로 자동화된 트래픽(헤드리스 브라우저·데이터센터 자동화 등)이 명단에 등록되어 있지 않다면 사람으로 분류될 여지가 있고, AI 크롤러(GPTBot·ClaudeBot·PerplexityBot 등)는 UA에 봇이라 명시돼 있어 보통 GA 화면에 사람으로는 잡히지 않습니다.

AI 답변에서 클릭해 오는 사람은 GA에 잡히지 않나요?

사람 트래픽 자체는 GA에 잡힙니다. 다만 referrer가 ChatGPT 등 도메인으로 들어오면 GA는 보통 "Direct" 또는 개별 referrer로 흩어 놓아, "AI 답변에서 왔다"는 사실 자체를 단일 채널로 묶지 못합니다. 별도 utm 캡처 또는 referrer 분류 규칙을 구축해야 합니다.

이 비율은 다른 사이트에도 그대로 적용되나요?

아닙니다. 이 글의 비율은 자사 사이트 11일 관측 한정입니다. 자사 사이트가 GEO·AI 관련 도메인이라 AI·검색 봇 수집 빈도가 높은 편이며, 산업·언어권·콘텐츠 유형에 따라 분포는 다릅니다. 같은 GA 사각지대 구조는 공통적으로 존재하지만 그 안의 비율은 자사 사이트에서 직접 분류해 봐야 알 수 있습니다.

다음 글 예고

"그럼 서버 로그로 분류하면 100% 잡히나요?" — 아닙니다. Residential proxy·CGNAT·익명 VPN을 거치면 ASN이 일반 가정·통신사 인프라로 보입니다. 다음 글에서는 서버 로그 분류의 한계(데이터센터 판별이 안 되는 경우)와, 그래서 우리가 정직하게 "추정"으로 분류하는 영역을 정리합니다.

이제 중요한 질문은 "방문자가 몇 명인가"가 아니라,
"그 방문자가 사람인지·봇인지·AI 수집인지 구분하고 있는가"입니다.

GA가 안 보는 80% 안에서, 우리 사이트는 어떻게 분류되고 있을까요

우리 사이트 트래픽도 분류받기

AI 봇이 어느 페이지를 가장 자주 읽는지, 사람으로 잡힌 트래픽 중 데이터센터는 얼마인지 — 서버 로그 기반으로 진단합니다.