[전문] 뉴욕타임스 등 SEO 컨설팅 전문가의 사이트에 대한 구글봇 크롤링 인사이트

Barry Adams의 Advanced Insights into Googlebot Crawling 글 번역

내부 참고용으로만 사용 예정이라 구글 색인을 막아뒀습니다

Googlebot 크롤링에 대한 고급 통찰

Googlebot이 뉴스 웹사이트를 크롤링하는 방식은 크롤링 효율성을 최적화하려는 경우 매우 유용한 몇 가지 흥미로운 점을 제공합니다.

Googlebot 크롤링 속도 개선하기

“Googlebot이 내 콘텐츠를 얼마나 빠르게 크롤링할 수 있는지 개선하려면 어떻게 해야 하나요?”라는 질문은 자주 들을 수 있습니다.
이 질문은 간단하지만, 이에 대한 답변은 복잡합니다. 사용할 수 있는 전략은 상황과 목표에 따라 다양하기 때문입니다.

Google의 크롤링 결정 방식

Google이 어떤 페이지를 크롤링할지를 결정하는 데 중요한 개념은 **URL 중요도(URL Importance)**입니다.
단순히 말해, 더 중요한 것으로 간주되는 URL은 더 자주 크롤링됩니다.

중요한 URL을 결정하는 두 가지 주요 요소:

해당 URL에 연결된 링크 수
해당 URL의 콘텐츠와 링크가 얼마나 자주 업데이트되는지

만약 특정 URL이 많은 외부 링크를 받고, 페이지의 콘텐츠가 자주(예: 매일 이상) 변경된다면, Google은 해당 URL을 자주 크롤링할 가능성이 높습니다.

뉴스 웹사이트의 홈페이지와 주요 섹션 페이지는 이 두 가지 기준에 모두 부합합니다.

이러한 이유로 뉴스 웹사이트의 홈 및 섹션 페이지는 매우 자주 크롤링됩니다.
때로는 몇 분 간격으로 크롤링되기도 합니다.

Google은 최신 뉴스를 가능한 한 빨리 찾아 색인화하고 Google의 뉴스 전용 순위 요소에 반영하기 위해 이러한 페이지를 매우 공격적으로 크롤링합니다.
사용자는 Google을 통해 최신 뉴스를 찾는 데 의존하기 때문에 Google은 뉴스 기사를 신속하게 크롤링하고 색인화하는 데 특별한 노력을 기울입니다.

홈페이지와 섹션 페이지의 중요성을 높이는 방법

Googlebot의 크롤링을 개선하려면 홈페이지와 섹션 페이지의 중요성을 높이는 것이 효과적입니다.

링크 추가
- 사이트 전반에 걸쳐 상단 내비게이션 메뉴에 홈페이지와 주요 섹션 링크를 포함시키세요.
새로운 기사 즉시 노출
- 새로 게시된 기사가 홈페이지와 섹션 페이지에 바로 표시되도록 하세요.
- Google은 자주 크롤링하여 새로운 기사를 빠르게 찾을 것입니다.

첫 번째 크롤링의 중요성

Googlebot의 뉴스 웹사이트 크롤링에서 특히 중요한 한 가지는, Google은 이미 크롤링된 기사 URL을 빠르게 재크롤링하지 않는다는 점입니다.

Google 크롤링의 두 가지 레이어

저는 Google이 다층 구조의 크롤링 시스템을 가지고 있다고 생각합니다.
- 우선 크롤러(priority crawler): 새로운 URL을 즉시 크롤링.
- 정규 크롤러(regular crawler): 크롤링된 URL을 재방문.

결과적으로:

기사가 게시되면 Google은 즉시 이를 크롤링합니다.
하지만 이후 크롤링은 몇 시간 또는 며칠 뒤에 이루어집니다.

첫 번째 크롤링에서 최적화가 필수인 이유

기사가 처음 크롤링된 후, 기사 제목을 수정하거나 SEO 작업을 추가로 수행하더라도 Google은 이를 즉시 반영하지 않습니다.
이 시점에서 기사는 더 이상 뉴스로 간주되지 않으며 “Top Stories”에서 제외됩니다.

결론적으로, 기사가 처음 게시될 때 최적화하는 것이 유일한 기회입니다.

SEO를 에디토리얼 워크플로의 일부로 만들어, 기사가 게시 전에 최적화되도록 해야 합니다.

예외: 라이브 기사(Live Articles)

Google은 라이브 기사로 인식되면 정기적으로 이를 재크롤링하여 업데이트된 내용을 반영합니다.

robots.txt 파일의 활용: 크롤링과 순위 관리

robots.txt 파일은 주로 크롤링 제어 메커니즘으로 사용됩니다.
기본적으로 Googlebot은 모든 공개 URL이 자유롭게 크롤링 가능하다고 가정합니다.

예를 들어 /search로 시작하는 모든 URL의 크롤링을 방지하려면 다음 규칙을 추가합니다:

User-agent: *
Disallow: /search

Googlebot-News의 활용

과거에는 Googlebot-News가 뉴스 웹사이트를 크롤링했지만, 2011년 이후로는 일반 Googlebot이 사용됩니다.
하지만 robots.txt에 Googlebot-News 규칙을 추가하여 Google News에서의 콘텐츠 노출을 제한할 수 있습니다.

User-agent: Googlebot-News
Disallow: /

이 규칙은 크롤링 활동에 영향을 미치지 않지만, Google News에서 콘텐츠를 표시하지 못하게 만듭니다.

LLM(대형 언어 모델) 크롤링 차단

Google은 GoogleOther 사용자 에이전트를 통해 콘텐츠를 크롤링해 LLM을 학습시킨다고 언급합니다.
다음과 같은 규칙으로 일부 LLM 크롤링을 차단할 수 있습니다:

User-agent: GoogleOther
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: GPTBot
Disallow: /

하지만 이러한 방법은 완전하지 않으며, AI 모델이 콘텐츠를 사용하는 것을 완벽히 차단할 수는 없습니다.

Google의 사이트 변경 감지

Google은 사이트에서 주요 변경 사항(예: 새로운 섹션 도입, CMS 변경 등)을 감지하면 크롤링 속도를 일시적으로 증가시켜 변경 내용을 신속히 색인화합니다.

이는 Google Search Console의 크롤링 통계 보고서에서 크롤링 요청 스파이크로 나타납니다.

내부 링크와 URL 파라미터 문제

뉴스 웹사이트에서 자주 보이는 크롤링 문제 중 하나는 내부 링크에 URL 파라미터(쿼리 문자열)를 추가하는 것입니다.
이 방식은 링크 클릭을 추적하려는 의도로 사용되지만, 결과적으로 크롤링 효율성을 크게 저하시킬 수 있습니다.

URL 파라미터 사용의 문제점

크롤링 리소스 낭비
- 파라미터가 포함된 링크는 새로운 URL로 간주되며, Google은 이를 크롤링합니다.
- 그러나 실제로는 동일한 콘텐츠로 연결되므로 Google의 크롤링 노력이 낭비됩니다.
canonical 태그의 신뢰성 약화
- 이러한 URL에는 보통 rel=canonical 메타 태그가 포함되어 “정리된(clean)” 버전의 URL만 색인화하라고 요청합니다.
- 하지만 canonical 태그는 “힌트”일 뿐이고, Google은 내부 링크를 강력한 정규화 신호로 간주합니다.
- 파라미터가 포함된 내부 링크가 있다면 Google은 이를 색인화 대상으로 선택할 가능성이 있습니다.
웹 분석 데이터의 왜곡
- 파라미터가 포함된 URL이 Google의 색인에 포함되면, 사용자가 이 URL을 클릭했을 때 웹 분석 도구에서는 내부 클릭으로 기록됩니다.
- 이로 인해 추적 데이터가 부정확해지고, 파라미터 사용 목적이 무의미해집니다.

권장 사항

URL 파라미터를 내부 링크에서 사용하지 마세요.

대신, 사용자의 웹사이트 이동 데이터를 추적할 수 있는 보다 효과적인 방법(예: 이벤트 추적)을 활용하세요.
이는 크롤링 낭비를 줄이고, 분석 데이터의 정확성을 유지하는 데 도움을 줍니다.

오래된 콘텐츠와 페이지네이션 관리

오래된 콘텐츠 관리

오래된 기사 콘텐츠를 다루는 방법은 뉴스 웹사이트에서 흔히 제기되는 질문입니다.

제 의견은 오래된 콘텐츠를 단순히 삭제하는 것을 지양하는 것입니다.

오래된 뉴스 기사는 트래픽을 많이 유도하지 않을 수 있지만, 주제별 권위를 입증하는 중요한 역할을 합니다.
특정 주제 페이지에서 기사 수가 적을 경우, Google은 이를 해당 주제에 대한 권위가 낮은 것으로 간주할 수 있습니다.

Google이 권위를 평가하는 방식

Google은 주제 페이지에 표시된 기사의 수를 기준으로 해당 주제에 대한 권위를 평가할 가능성이 높습니다.

예를 들어, 한 웹사이트는 특정 주제에 대해 10개의 기사만 보유하고, 다른 웹사이트는 같은 주제에 대해 200개의 기사를 보유한 경우, Google은 후자를 더 권위 있는 퍼블리셔로 간주할 것입니다.

따라서:
오래된 콘텐츠를 삭제하면, 저널리즘 기록의 일부를 삭제하는 것과 같으며, 주제 권위를 약화시킬 위험이 있습니다.

오래된 콘텐츠 크롤링 제한 방법

Google은 기본적으로 오래된 콘텐츠를 크롤링 우선순위에서 제외합니다.

콘텐츠가 수년간 변경되지 않았다면 Google이 크롤링 자원을 낭비할 가능성은 낮습니다.
따라서 오래된 콘텐츠는 큰 문제가 되지 않을 수 있습니다.

다만, 크롤링을 제한하려는 경우 다음과 같은 방법을 고려할 수 있습니다:

페이지네이션 제한
- 주제 페이지에서 페이지네이션을 10페이지로 제한하고, 11페이지 이상은 404 상태 코드를 반환합니다.
- 이 방법은 10페이지를 초과한 기사를 고아 페이지(orphaned page)로 만들지만, Google은 URL을 잊지 않으므로 큰 문제가 되지 않습니다.
단일 “다음 페이지” 링크 사용
- 각 페이지에 하나의 “다음 페이지” 링크를 추가하여 더 깊은 페이지로의 크롤링 우선순위를 낮춥니다.
- 이 방식은 PageRank 감쇠(Pagerank Damping) 효과를 통해 Google이 깊은 페이지의 크롤링을 우선적으로 줄이는 데 효과적입니다.

결론:
Google의 오래된 URL 크롤링에 대해 너무 걱정하지 마세요. 이는 대부분 상상 속의 문제이며, 실제로 큰 문제가 되지 않습니다.

Google Search Console(GSC) 크롤링 통계

대부분의 뉴스 웹사이트는 GSC에서 메인 도메인(예: https://www.example.com)으로 소유권을 인증하고, 크롤링 통계 보고서를 확인합니다.

도메인 전체 인증

도메인 전체 인증(domain-wide verification)을 통해 모든 서브도메인에 대한 크롤링 통계를 확인할 수 있습니다.

이는 Googlebot이 사이트 전체에서 어떤 방식으로 크롤링하는지에 대한 더 자세한 통찰을 제공합니다.
또한 Google이 크롤링하고 있는 의도하지 않은 서브도메인(예: 비공개 스테이징 사이트)을 발견할 수도 있습니다.

결론: 크롤링 최적화의 기본 원칙

홈페이지와 주요 섹션 페이지의 중요도를 높이세요.
- 링크를 추가하고, 새로운 기사를 빠르게 노출하여 크롤링 빈도를 증가시키세요.
첫 번째 크롤링에서 콘텐츠를 최적화하세요.
- 첫 번째 크롤링이 유일한 기회일 가능성이 크므로, 기사 게시 전에 SEO를 완벽히 적용하세요.
URL 파라미터를 내부 링크에서 사용하지 마세요.
- 크롤링 낭비를 줄이고, 데이터 왜곡을 방지하세요.
오래된 콘텐츠의 저널리즘 가치를 고려하세요.
- 삭제 대신, 페이지네이션 제한 및 크롤링 우선순위 조정을 통해 문제를 해결하세요.
Google Search Console 도구를 최대한 활용하세요.
- 도메인 전체 인증을 통해 서브도메인 크롤링 통계까지 분석하세요.

(끝)

거북이 미디어 전략 연구소장

거북이 미디어 전략 연구소장은 미디어의 온라인 수익화와 전략에 주요 관심을 가지고 있습니다.

저는 Publisher side에서 2015년부터 모바일과 PC 광고를 담당했습니다. 2022년부터 국내 포털을 담당하고 있습니다.

▲ 강의 이력

구글 디지털 성장 프로그램의 광고 워크샵 게스트 스피커(21년 6월)
구글 서치콘솔, 네이버 서치어드바이저, MS 웹마스터 도구 사용법(24년 8월 한국 언론진흥재단 미디어교육원)