구글, 크롤링 예산 문제에 대해 답변하다

구글이 웹사이트에 대한 크롤링 예산 문제에 대해 답변했다고 SEJ가 보도했다. 크롤링 예산이란 구글이 각 웹사이트마다 미리 지정해둔 크롤링 시간과 리소스의 양을 의미한다. 크롤링 예산은 크롤링 용량 한도와 크롤링 수요라는 두가지 기본 요소로 결정된다. 크롤링 예산은 구글 봇이 특정 도메인에서 하루에 크롤링하는 최대 URL의 수라고 해석할 수 있다. 크롤링 예산을 잘 설명한 링크드인 페이지도 참고하면 된다.

크롤링 예산 예시 화면

내 사이트 도메인의 구글 크롤링 예산을 확인하려면 구글 서치코솔의 좌측 메뉴 하단의 설정>크롤링 통계의 상단 화면을 보면 된다.

하단 이미지를 보면 크롤링 요청의 숫자를 확인할 수 있다.

구글 크롤링 예산 예시 화면
구글 크롤링 예산 예시 화면

크롤링 예산을 알아야 하는 대상 언론사

  • 대규모 사이트 : 기사 페이지 수가 1백만개 이상, 콘텐츠가 일주일에 한번 이상 업데이트됨
  • 중간 규모 이상 사이트 : 기사 페이지 수가 1만개 이상, 콘텐츠가 매일 업데이트됨
  • 전체 URL 중 상당 부분이 서치콘솔에서 [발견됨-현재 색인이 생성되지 않음] 증상이 있는 사이트

크롤링 예산 문제에 대한 구글의 답변

미국 커뮤니티 사이트인 Reddit의 SEO 섹션에 크롤링 예산에 대한 질문에 구글의 존 뮬러는 아래와 같이 답변했다

크롤링 예산은 매우 거대한 웹사이트의 문제입니다. 만약 당신의 웹사이트가 정말로 크지 않음에도 크롤링 이슈를 발견한다면 아마도 구글이 당신의 사이트에서 더 많이 크롤링할 가치가 없다고 판단해서일겁니다. 이것은 기술적인 이슈가 아닙니다.

John Muller, Google

크롤링 예산에 대한 구글의 직접 설명

구글은 2017년 크롤링 예산에 대해 아래와 같은 설명을 했다.

크롤링 속도 제한

  • 크롤링 예산은 대규모 웹사이트(사이트 URL이 수천개 이상인 대규모 사이트나 URL 매개변수로 사이트를 자동생성하는 사이트 등)에 중요함
  • 크롤링 상태 : 웹사이트에서 한동안 응답을 매우 빠르게 보내면 한도가 올라가 크롤링에 사용할 수 있는 연결이 많아짐. 사이트 속도가 느려지거나 서버 오류 응답이 있으면 한도는 내려가고 구글봇의 크롤링이 감소함

크롤링 수요

  • 크롤링 속도 제한에 도달하지 않아도 색인 생성의 수요가 없다면 구글봇의 활동이 감소함. 크롤링 수요를 판단하는데 중요한 역할을 하는 두가지 요소는 인기도와 비활성임
  • 인기도 : 인터넷에서 인기가 높은 URL은 구글 색인에서 최신으로 유지하기 위해 더 자주 크롤링되는 경향이 있음
  • 비활성 : 구글 시스템은 URL이 색인에서 비활성이 되는 것을 방지하려고 함
  • 또한, 사이트 이동과 같은 사이트 전체 이벤트는 새 URL에서 콘텐츠의 색인을 다시 생성하기 위해 크롤링 수요의 증가를 유발할 수 있음
  • 크롤링 속도와 크롤링 수요를 함께 고려하여 구글은 크롤링 예산을 구글봇 이 크롤링할 수 있고 크롤링하려는 URL 수로 정의함

크롤링 예산에 영향을 미치는 요소

  • 구글의 분석에 따르면 가치가 낮은 URL이 많이 있으면 사이트의 크롤링과 색인 생성에 부정적인 영향을 미칠 수 있음. 가치가 낮은 URL은 중요도 순에 따라 다음 카테고리로 분류됨
  • 속성 탐색과 세션 식별자
  • 사이트 내 중복 콘텐츠
  • soft 오류 페이지
  • 해킹된 페이지
  • 무한 공간과 프록시
  • 품질이 낮거나 스팸인 콘텐츠

크롤링 예산에 대한 FAQ

Q : 사이트 속도가 크롤링 예산에 영향을 미치나요? 오류는 어떤가요? 

  • 사이트를 더 빠르게 만들면 사용자 환경이 개선되면서 크롤링 속도도 높아짐. 구글봇은 속도가 빠른 사이트는 상태가 좋은 서버라는 신호이므로 동일한 연결 수를 통해 더 많은 콘텐츠를 가져올 수 있음. 반면 5xx 오류 또는 연결 시간 초과의 상당수가 반대의 경우를 나타내므로 크롤링 속도가 느려짐. 서치콘솔의 크롤링 오류 보고서를 확인하고 서버 오류 수를 낮게 유지하는 것이 좋음

Q : 크롤링은 랭킹 결정 순위인가?

  • 아니다

Q : 대체 URL과 삽입된 콘텐츠가 크롤링 예산에 포함되나?

  • 일반적으로 구글봇이 크롤링하는 URL은 모두 사이트의 크롤링 예산에 포함됨. AMP나 hreflang과 같은 대체 URL과 AJAX(XHR) 호출을 비롯한 삽입된 콘텐츠(예: CSS, 자바스크립트)는 크롤링해야 할 수 있고 사이트의 크롤링 예산을 사용함. 마찬가지로 긴 리디렉션 체인은 크롤링에 부정적인 영향을 미칠 수 있음

Q : crawl-delay 규칙으로 Googlebot을 제어할 수 있나?

  • 표준 crawl-delay robots.txt 규칙은 Googlebot에서 처리되지 않음

Q : robots.txt를 통해 허용하지 않은 URL이 어떤 식으로든 크롤링 예산에 영향을 미치나?

  • 아님. 허용되지 않은 URL은 크롤링 예산에 영향을 미치지 않음

Q : nofollow 규칙이 크롤링 예산에 영향을 미치나?

  • 경우에 따라 다름. 크롤링된 URL은 모두 크롤링 예산에 영향을 미침. 따라서 페이지에서 URL을 nofollow로 표시하더라도 사이트의 다른 페이지나 웹의 페이지에서 링크 라벨을 nofollow로 지정하지 않으면 여전히 크롤링될 수 있음 (끝)

관련뉴스

구글, 크롤링 예산 문제에 대해 답변하다
구글, 크롤링 예산 문제에 대해 답변하다

Leave a Comment