유출된 구글 검색의 내부 문서 시사점 - 거북이 미디어 전략 연구소

Google 검색에서 거북이 미디어의 포스팅을 더 자주 볼 수 있습니다.

2024년 5월 27일, 구글의 검색 알고리즘 내부 문서가 유출됐습니다. 유출된 구글 검색의 내부 문서는 구글의 검색 시스템이 실제로 어떻게 작동하는지, 그리고 구글이 공개적으로 밝힌 내용과 실제 사용되는 시스템 간의 차이를 보여줍니다. 다만, 구글은 실제 내부 유출문서는 맞지만 해당 문서가 새로운 버전으로 업데이트됐거나 일부 분석 내용이 다를 수도 있다는 뉘앙스의 입장을 밝혔습니다. SEO 전문지 등의 기사를 요약 정리했습니다.

유출된 구글 검색의 내부 문서의 주요 내용

사이트 권위 (Domain Authority)

“siteAuthority”라는 순위 신호가 존재하며, 구글은 이를 사용해 사이트 전체의 권위를 측정하고 있음. 브랜드 사이트는 검색에서 우대받게 됨
내 사이트의 브랜드 인지도와 권위를 강화하기 위해 소셜미디어, 긍정적 리뷰를 활용해 신뢰할 수 있는 브랜드를 만들 필요성이 있음
참고로 마이크로소프트 스타트는 권위 있는 언론사의 브랜드 권위를 우대한다고 공식적으로 밝힘

클릭 기반 순위 (Click-based Ranking)

구글은 사용자 클릭 데이터를 기반으로 순위를 조정하는 NavBoost 시스템을 통해 사용자 클릭 로그를 기반으로 순위를 재조정함. 긴 클릭(사용자 만족도 표시)와 짧은 클릭(불만족 표시) 등의 클릭 신호를 통해 사용자 행동의 추이와 선호도를 파악해 순위를 결정함

크롬 브라우저의 데이터 사용 (Chrome Data Usage)

크롬에서 수집된 데이터가 순위 결정에 사용되고 있음. topURL같은 측정 항목은 크롬 브라우저가 클릭 데이터를 활용해 검색 결과의 사이트 링크에 대해 사이트에서 가장 중요한 페이지를 식별함

사이트가 다루는 주제에 대한 권위

구글은 siteFocusScore, siteRadius, siteEmbeddings 및 pageEmbeddings를 사용하여 주제 권위를 평가함

민감한 콘텐츠에 화이트리스트

구글은 검색 결과에 표시되는 정보의 신뢰성과 정확성을 보장하기 위해 여행, 코로나 19 정보, 선거 관련 콘텐츠 등 특정 부문에 대해 화이트리스트 목록을 사용
화이트리스트를 통해 구글은 민감하거나 위험성이 높은 검색 쿼리에 대해 신뢰할 수 있고 권위 있는 소스만 검색 결과에 나오도록 함

랭킹 하락 요소들

탐색 : 좋지 않은 탐색(navigation) 경험은 점수 하락
지리 정보 : 사이트의 지리 정보가 매칭되지 않을 경우 점수 하락
앵커 불일치 : 링크된 사이트가 일치하지 않을 경우 점수 하락
검색 결과 : 검색 결과에 대한 사용자의 만족스럽지 않은 클릭은 점수 하락

[참고] 구글 순위 시스템의 구조

구글의 순위 시스템은 일련의 마이크로 서비스(시스템을 여러개의 작은 독립적인 서비스로 구성하는 것)로 구성되어 있음. 주요 시스템은 다음과 같음:

크롤링: Trawler
인덱싱: Alexandria 및 SegIndexer
렌더링: HtmlrenderWebkitHeadless
처리: LinkExtractor 및 WebMirror
순위: Mustang 및 Ascorer
서빙: 구글 웹 서버 및 SuperRoot
Twiddlers : 기본 검색 알고리즘 후에 작동하는 재랭킹 함수

크롤링 (Crawling) – Trawler

구글의 웹 크롤링 시스템을 의미함. 이 시스템은 웹 페이지를 자동으로 탐색하고 수집하여 구글의 검색 색인에 추가할 페이지를 결정함. Trawler는 웹 전체에서 콘텐츠를 수집하며, 이러한 콘텐츠는 나중에 검색 결과로 제공될 수 있도록 구글의 색인에 저장됨. 구글의 크롤링 시스템은 웹 페이지가 얼마나 자주 변경되는지 이해하고, 이를 바탕으로 크롤링 속도를 조절함
크롤링 큐 관리: Trawler는 어떤 페이지를 언제 크롤링할지 결정하는 큐를 유지함.
변경 감지: 페이지가 얼마나 자주 변경되는지 분석하여 크롤링 주기를 조정함.
데이터 수집: 웹 페이지의 텍스트, 이미지, 링크 등을 수집하여 색인에 반영함.

인덱싱 (Indexing)

Alexandria : 구글의 핵심 인덱싱 시스템으로, 웹 페이지를 분석하고 색인에 추가하는 역할을 함
SegIndexer는 문서를 인덱스 내의 계층으로 분류하는 시스템임. 이 시스템은 문서의 중요도에 따라 계층화하여 검색 효율성을 높임
TeraGoogle은 장기적으로 디스크에 저장되는 문서를 위한 보조 인덱싱 시스템임

렌더링 (Rendering)

자바스크립트 페이지 렌더링 시스템: HtmlrenderWebkitHeadless는 자바스크립트 페이지를 렌더링하는 시스템. 웹 페이지의 실제 모습을 분석함. 이 시스템은 웹 페이지의 자바스크립트를 실행하고, 최종적으로 렌더링된 콘텐츠를 수집하여 인덱싱함

처리 (Processing)

LinkExtractor는 웹 페이지에서 링크를 추출하는 시스템임
WebMirror는 WebMirror는 페이지의 정규 URL을 식별하고 중복 콘텐츠를 제거하는 시스템

순위 (Ranking)

Mustang은 검색 결과 페이지(SERP)를 생성하는 주요 시스템으로 기본 점수 매기기, 검색 순위를 지정함
Ascorer는 랭킹 재조정 전에 페이지의 초기 순위를 매기는 알고리즘
NavBoost는 사용자 클릭 로그를 기반으로 순위를 재조정하는 시스템임
FreshnessTwiddler는 문서의 최신성에 따라 순위를 재조정함
WebChooserScorer는 스니펫 점수화에 사용되는 기능을 정의함

서빙 (Serving)

Google Web Server (GWS, 구글 프론트엔드 서버)는 사용자에게 데이터를 제공함
SuperRoot 구글 서버에 메시지를 보내고 재랭킹 및 결과 표시 시스템을 관리함
SnippetBrain은 SnippetBrain은 검색 결과에 표시되는 스니펫을 생성하는 시스템임
Glue는 사용자 행동을 기반으로 유니버설 검색 결과를 통합함
Cookbook은 신호를 생성하는 시스템으로, 런타임 시 값을 생성하는 것으로 보임.

검색 랭킹 재배열 : Twiddlers

Twiddlers는 Mustang의 기본 검색 알고리즘 후에 검색 결과 순위를 다시 매기는 역할을 하며 서빙 내 Superroot의 일부임. 이들은 문서의 정보 검색 점수나 순위를 조정함. 예시는 다음과 같음:

NavBoost: 클릭 로그 기반 재랭킹
QualityBoost: 품질 신호 기반 조정
RealTimeBoost: 실시간 신호 기반 조정 (끝)

관련 포스팅

거북이 미디어 전략 연구소장

거북이 미디어 전략 연구소장은 미디어의 온라인 수익화와 전략에 주요 관심을 가지고 있습니다.

저는 Publisher side에서 2015년부터 모바일과 PC 광고를 담당했습니다. 2022년부터 국내 포털을 담당하고 있습니다.

▲ 강의 이력

구글 디지털 성장 프로그램의 광고 워크샵 게스트 스피커(21년 6월)
구글 서치콘솔, 네이버 서치어드바이저, MS 웹마스터 도구 사용법(24년 8월 한국 언론진흥재단 미디어교육원)