구글, 크롤링 예산 문제에 대해 답변하다

구글이 웹사이트에 대한 크롤링 예산 문제에 대해 답변했다고 SEJ가 보도했다. 크롤링 예산이란 구글이 각 웹사이트마다 미리 지정해둔 크롤링 시간과 리소스의 양을 의미한다. 크롤링 예산은 크롤링 용량 한도와 크롤링 수요라는 두가지 기본 요소로 결정된다.

크롤링 예산을 알아야 하는 대상 언론사

  • 대규모 사이트 : 기사 페이지 수가 1백만개 이상, 콘텐츠가 일주일에 한번 이상 업데이트됨
  • 중간 규모 이상 사이트 : 기사 페이지 수가 1만개 이상, 콘텐츠가 매일 업데이트됨
  • 전체 URL 중 상당 부분이 서치콘솔에서 [발견됨-현재 색인이 생성되지 않음] 증상이 있는 사이트

크롤링 예산 문제에 대한 구글의 답변

미국 커뮤니티 사이트인 Reddit의 SEO 섹션에 크롤링 예산에 대한 질문에 구글의 존 뮬러는 아래와 같이 답변했다

크롤링 예산은 매우 거대한 웹사이트이 문제입니다. 만약 당신의 웹사이트가 정말로 크지 않음에도 크롤링 이슈를 발견한다면 아마도 구글이 당신의 사이트에서 더 많이 크롤링할 가치가 없다고 판단해서일겁니다. 이것은 기술적인 이슈가 아닙니다.

John Muller, Google

크롤링 예산에 대한 구글의 직접 설명

구글은 2017년 크롤링 예산에 대해 아래와 같은 설명을 했다.

크롤링 속도 제한

  • 크롤링 예산은 대규모 웹사이트(사이트 URL이 수천개 이상인 대규모 사이트나 URL 매개변수로 사이트를 자동생성하는 사이트 등)에 중요함
  • 크롤링 상태 : 웹사이트에서 한동안 응답을 매우 빠르게 보내면 한도가 올라가 크롤링에 사용할 수 있는 연결이 많아짐. 사이트 속도가 느려지거나 서버 오류 응답이 있으면 한도는 내려가고 구글봇의 크롤링이 감소함

크롤링 수요

  • 크롤링 속도 제한에 도달하지 않아도 색인 생성의 수요가 없다면 구글봇의 활동이 감소함. 크롤링 수요를 판단하는데 중요한 역할을 하는 두가지 요소는 인기도와 비활성임
  • 인기도 : 인터넷에서 인기가 높은 URL은 구글 색인에서 최신으로 유지하기 위해 더 자주 크롤링되는 경향이 있음
  • 비활성 : 구글 시스템은 URL이 색인에서 비활성이 되는 것을 방지하려고 함
  • 또한, 사이트 이동과 같은 사이트 전체 이벤트는 새 URL에서 콘텐츠의 색인을 다시 생성하기 위해 크롤링 수요의 증가를 유발할 수 있음
  • 크롤링 속도와 크롤링 수요를 함께 고려하여 구글은 크롤링 예산을 구글봇 이 크롤링할 수 있고 크롤링하려는 URL 수로 정의함

크롤링 예산에 영향을 미치는 요소

  • 구글의 분석에 따르면 가치가 낮은 URL이 많이 있으면 사이트의 크롤링과 색인 생성에 부정적인 영향을 미칠 수 있음. 가치가 낮은 URL은 중요도 순에 따라 다음 카테고리로 분류됨
  • 속성 탐색과 세션 식별자
  • 사이트 내 중복 콘텐츠
  • soft 오류 페이지
  • 해킹된 페이지
  • 무한 공간과 프록시
  • 품질이 낮거나 스팸인 콘텐츠

크롤링 예산에 대한 FAQ

Q : 사이트 속도가 크롤링 예산에 영향을 미치나요? 오류는 어떤가요? 

  • 사이트를 더 빠르게 만들면 사용자 환경이 개선되면서 크롤링 속도도 높아짐. 구글봇은 속도가 빠른 사이트는 상태가 좋은 서버라는 신호이므로 동일한 연결 수를 통해 더 많은 콘텐츠를 가져올 수 있음. 반면 5xx 오류 또는 연결 시간 초과의 상당수가 반대의 경우를 나타내므로 크롤링 속도가 느려짐. 서치콘솔의 크롤링 오류 보고서를 확인하고 서버 오류 수를 낮게 유지하는 것이 좋음

Q : 크롤링은 랭킹 결정 순위인가?

  • 아니다

Q : 대체 URL과 삽입된 콘텐츠가 크롤링 예산에 포함되나?

  • 일반적으로 구글봇이 크롤링하는 URL은 모두 사이트의 크롤링 예산에 포함됨. AMP나 hreflang과 같은 대체 URL과 AJAX(XHR) 호출을 비롯한 삽입된 콘텐츠(예: CSS, 자바스크립트)는 크롤링해야 할 수 있고 사이트의 크롤링 예산을 사용함. 마찬가지로 긴 리디렉션 체인은 크롤링에 부정적인 영향을 미칠 수 있음

Q : crawl-delay 규칙으로 Googlebot을 제어할 수 있나?

  • 표준 crawl-delay robots.txt 규칙은 Googlebot에서 처리되지 않음

Q : robots.txt를 통해 허용하지 않은 URL이 어떤 식으로든 크롤링 예산에 영향을 미치나?

  • 아님. 허용되지 않은 URL은 크롤링 예산에 영향을 미치지 않음

Q : nofollow 규칙이 크롤링 예산에 영향을 미치나?

  • 경우에 따라 다름. 크롤링된 URL은 모두 크롤링 예산에 영향을 미침. 따라서 페이지에서 URL을 nofollow로 표시하더라도 사이트의 다른 페이지나 웹의 페이지에서 링크 라벨을 nofollow로 지정하지 않으면 여전히 크롤링될 수 있음 (끝)

관련뉴스

구글, 크롤링 예산 문제에 대해 답변하다
구글, 크롤링 예산 문제에 대해 답변하다

Leave a Comment