구글뉴스 추천 알고리즘 정리

구글뉴스의 추천 알고리즘을 최신 업데이트한 발표내용과 2010년 논문 내용을 참고용으로 함께 정리합니다.

구글뉴스 캡처
구글뉴스 캡처

구글 뉴스의 미션(mission)

구글뉴스의 사명

구글뉴스의 사명은 “모든 사람이 다양한 관점의 양질의 뉴스에 접근하여 세상을 이해할 수 있도록 돕는 것(Empower everyone to understand the world through access to high quality news from a variety of perspectives)”입니다. 이를 통해 모든 사람들이 다양한 정보와 관점을 기반으로 세상의 사건과 문제를 이해하고 판단할 수 있도록 합니다.

구글뉴스

신뢰할 수 있는 정보 우선 표시

구글 알고리즘은 전문성과 권위성이 있는 언론사의 뉴스를 우선적으로 표시하도록 설계되었습니다. 뉴스 검색결과에 뉴스를 노출하려는 언론사들은 사이트 소유권, 기사 소유권, 기자명 등의 정보를 투명하게 공개해야 합니다. 구글이 신뢰할 수 있는 언론사 뉴스를 우선 표시한다는 것을 마이크로소프트의 콘텐츠 랭킹 알고리즘과 비슷합니다.

자동화 알고리즘 기술을 통해 이용자에게 정보 제공

구글은 수백만 개의 뉴스 기사를 수십 개의 언어로 정리하고 누구나 검색할 수 있도록 하기 위해 자동화 알고리즘 기술을 활용합니다. 편집자가 기사를 선택하는 대신, 구글의 자동화 시스템인 알고리즘이 인공지능을 사용하여 수백 가지 다양한 요소를 분석하고 전 세계 소식을 다루는 기사를 식별하고 체계화합니다.

맥락 및 다양한 관점에 대한 접근 기회 제공

구글의 목표는 이용자가 스스로 정보에 기반하여 판단할 수 있도록 다양한 관점과 기사를 제공하는 것입니다. 이를 위해 구글은 최신 뉴스의 이해를 돕기 위해 특정 주제를 강조하거나 분류하여 보여주며, 맥락과 관점을 제공합니다.

오보 및 기만 행위 방지 노력

구글의 뉴스 정책은 정치 성향과 관계없이 악의적인 행위를 대상으로 합니다. 구글은 자신의 소유 구조나 주된 목적과 관련하여 허위로 진술하는 매체를 허용하지 않으며, 오보나 기만 행위를 방지하기 위해 노력합니다. 구글이 규제하는 뉴스 정책을 이해하는 게 중요합니다.

구글뉴스의 접근방식

오픈웹 뉴스 체계화

구글은 엄청난 양의 뉴스 콘텐츠를 기술을 활용해 분류하고, 가장 중요하고 관련성이 높은 뉴스를 이용자에게 제공합니다. 구글뉴스 추천 알고리즘(콘텐츠순위 지정 시스템)은 웹 크롤링과 색인 생성 기술을 사용하여 웹상의 뉴스 콘텐츠를 식별하고 체계화합니다. 또한, 언론사들은 게시자 센터를 통해 직접 콘텐츠를 추가할 수 있습니다. 구글뉴스는 최신뉴스와 주요 뉴스 및 중요한 주제를 다루는 매체를 노출시킵니다.

유용하고 관련성 있는 콘텐츠 노출

구글뉴스는 사용자에게 가장 유용한 콘텐츠를 제공하기 위해 구글뉴스 추천 알고리즘을 사용합니다. 구글뉴스 추천 알고리즘은 관련성, 이용자의 위치, 화제성, 권위성, 최신성, 사용성, 이용자의 관심분야를 고려합니다

  • 이용자가 찾는 검색어와의 관련성(relevance) : 구글검색의 뉴스탭 노출
  • 검색 이용자의 위치(your location) : 지역뉴스 섹션
  • 화제성(prominence) : 주목할 만한 뉴스를 선정하기 위해 언론사 사이트에서의 메인 편집, 타사가 많이 인용한 뉴스, 명백한 단독 뉴스를 고려함
  • 권위성(Authoritativeness) : 가장 신뢰할수 있는 언론사 정보를 우선적으로 보여줌. 비슷한 검색어를 검색하는 다른 이용자가 신뢰하는 언론사, 해당 주제와 관련해 다수의 유명한 웹사이트에 해당 언론사의 콘텐츠 링크가 포함되는지를 고려
  • 최신성(freshness) : 큰 사건이 발생하면 구글은 최신 정보 뉴스가 유용하다고 판단
  • 사용성(usability) : 웹사이트 속도, 모바일에서 작동 여부 등 사이트에서 콘텐츠를보는 것이 얼마나 쉬운지를 평가. 유료 콘텐츠 여부는 영향 없음
  • 이용자의 관심 분야(your interests) : 구글 디스커버와 구글뉴스의 추천탭 같은 맞춤형 콘텐츠 영역에는 이용자 관심분야가 반영.

가시성, 최신성, 공신력, 사용성 등 다양한 신호와 사용자의 위치, 언어를 고려하여 검색결과를 결정합니다. 이용자의 관심분야도 고려하여 검색 결과를 맞춤설정하기도 합니다.

구글뉴스 추천 알고리즘의 결과

모든 이용자를 위한 뉴스

구글뉴스는 최신 뉴스를 놓치지 않도록 중요한 소식을 항상 제공합니다. 구글뉴스 추천 알고리즘은 언론사의 중요한 뉴스를 구글 검색의 주요 뉴스, 뉴스 탭, 구글뉴스의 헤드라인 및 검색, 어시스턴트의 뉴스 등에 공통으로 보여줍니다. 이는 개별 이용자에게 맞춤설정되지 않지만, 지역, 언어, 위치 설정에 따라 달라질 수 있습니다. 이때 중요한 뉴스의 기준은 콘텐츠의 화제성과 최신성, 매체의 권위성입니다.

개인 맞춤 뉴스

구글뉴스는 디스커버 및 Google 뉴스의 추천 탭 등에서 이용자에게 맞춤설정된 검색결과를 제공합니다. 이용자의 관심분야와 활동 설정을 고려하여 구글 뉴스 추천 알고리즘이 콘텐츠를 추천할 수 있습니다. 콘텐츠와 이용자의 관심분야와의 관련성, 콘텐츠의 화제성 및 최신성, 그리고 콘텐츠를 전달하는 매체의 권위성과 같은 요소들이 콘텐츠 랭킹을 지정하는 기준입니다.

심층적인 맥락 및 다양한 관점

구글 뉴스 검색결과는 다양한 언론사가 제공하는 정보와 관점을 알려줍니다. 이용자가 검색하는 주제에 관련된 뉴스 및 관련 뉴스를 볼 수 있으며, 맞춤 설정되지 않은 다양한 매체의 뉴스를 통해 이용자에게 심층적인 맥락과 다양한 관점을 제공합니다. 구글뉴스 추천 알고리즘은 이용자 검색어와의 관련성, 화제성, 최신성, 매체의 권위성과 같은 요소를 기준으로 특정 뉴스와 콘텐츠를 보여줍니다

구글뉴스 추천 알고리즘을 설명한 2010년 논문

구글뉴스 추천 알고리즘을 알아보기 위해 구글이 2010년에 발표한 논문을 찾아 정리했습니다. 논문제목은 클릭 행동에 기반해 개인화된 뉴스 추천Personalized News Recommendation Based on Click Behavior)입니다

구글 뉴스와 같은 뉴스 웹사이트에서는 개별 사용자들의 관심사에 맞게 콘텐츠를 제공하는 것이 사용자 경험과 참여를 증진시키는 데 중요한 역할을 합니다. 구글뉴스는 사용자의 진정한 뉴스 관심사와 현재의 뉴스 트렌드를 조합해 사용자의 뉴스 관심사를 예측하고 이 결과를 기반으로 해당 사용자가 관심을 가질 적절한 뉴스를 추천합니다.

인사이트 및 사실 확인

인사이트

  • 뉴스 추천 알고리즘과 클릭률(CTR : Click-Through Rate)은 직접적으로 관련됐습니다. CTR은 뉴스 추천 알고리즘이 얼마나 효과적인지를 평가하는 데 사용되는 중요한 지표 중 하나입니다
  • 뉴스의 클릭률이 중요하다는 것은 기자가 뉴스의 헤드라인에 기사의 ‘키워드’를 정확하게 배치하는 것이 중요하다는 말입니다. 다만, 본문과 관련 없는 키워드를 악용하게 될 경우 낚시기사(clickbait)로 인지될 가능성이 있습니다.
  • 뉴스가 나왔을때 초반 클릭률이 높다면 해당 뉴스의 추천 가능성이 높아집니다. 이는 구글 뉴스와 구글 디스커버 추천 가능성이 높아질 수 있다는 말입니다.

사실 확인

  • 구글뉴스는 뉴스 기사를 카테고리로 보여주지만 실제 분류 방법은 뉴스의 텍스트를 기반으로 함
  • 뉴스에 대한 사용자 관심은 단기와 장기의 두 개 유형. 단기는 최신뉴스, 장기 관심은 실제 사용자 관심사항
  • 사용자는 검색할 때 목적성을 가지지만, 뉴스 사이트에 방문할때는 ‘재미있는 것을 보여줘’라는 태도를 가짐. 큰 뉴스 이벤트에 따라 영향을 받음

논문 내용 정리

사용자의 관심사와 뉴스 트렌드 이해하기

연구의 첫 번째 단계에서 팀은 사용자의 클릭 행동을 분석하여 시간이 지남에 따라 사용자의 뉴스 관심사에 대한 통찰을 얻었습니다. 이 분석에서 사용자들의 뉴스 관심사가 정적이 아닌 것으로 나타났으며, 시간이 지남에 따라 변화하는 것으로 나타났습니다. 더욱이, 연구원들은 사용자들의 관심사가 지역적인 뉴스 트렌드에 영향을 받는 것을 발견했습니다. 예를 들어, 특정 지역의 사용자들은 주요 스포츠 이벤트 기간에 스포츠 뉴스에 높은 관심을 보일 수 있습니다.

사용자의 현재 뉴스 관심사를 예측하기

로그 분석에서 얻은 인사이트를 바탕으로 연구원들은 사용자들의 현재 뉴스 관심사를 효과적으로 예측하기 위한 베이지안 프레임워크를 개발했습니다. 이 프레임워크는 뉴스 추천에 필요한 두 가지 주요 요소를 모델링하는 데 중점을 둡니다. 사용자의 진정한 관심사와 현재 의 지역 뉴스 트렌드를 반영하는 것입니다. 사용자의 진정한 관심사는 사용자들의 과거 클릭 행동에서 유추되며, 현재 뉴스 트렌드의 영향력은 단기적인 효과를 나타내며 시간이 지남에 따라 변화하는 요소입니다. 베이지안 프레임워크를 통해 시스템은 사용자들의 진정한 뉴스 관심사와 현재의 지역 뉴스 트렌드를 결합하여 사용자들의 현재 뉴스 관심사를 예측할 수 있습니다. 이를 통해 사용자에게 더욱 흥미로운 뉴스를 제공하고 사용자 만족도를 향상시키는데 기여합니다.

베이지안 프레임워크를 적용한 뉴스 추천 시스템은 다음과 같은 절차를 따릅니다:

  • 사용자의 과거 뉴스 클릭 기록 분석: 사용자의 과거 뉴스 클릭 기록을 분석하여 사용자의 진정한 뉴스 관심사를 추정합니다. 이를 통해 사용자가 어떤 뉴스 카테고리에 관심을 가지고 있는지 파악합니다.
  • 현재 뉴스 트렌드 분석: 사용자의 현재 위치를 기준으로 일정 기간 동안의 뉴스 클릭 분포를 계산하여 현재 뉴스 트렌드를 파악합니다. 이를 통해 해당 위치에서 인기 있는 뉴스 카테고리를 파악합니다
  • 사용자의 뉴스 관심사 예측: 사용자의 진정한 뉴스 관심사와 현재 뉴스 트렌드를 조합하여 사용자의 뉴스 관심사를 예측합니다. 이를 통해 해당 사용자가 현재 관심을 가지고 있을 가능성이 높은 뉴스 카테고리를 파악합니다.
  • 뉴스 추천: 사용자의 뉴스 관심사 예측 결과를 기반으로 해당 사용자에게 적절한 뉴스를 추천합니다. 이를 통해 사용자의 관심사에 맞춘 맞춤형 뉴스 추천을 제공합니다.
※ 베이지안 프레임워크(Bayesian framework)란?
– 베이지안 프레임워크는 확률적 추론을 기반으로 하는 통계적 모델링 방법으로, 불확실성을 다루고 원하는 결과를 추정하는 데 사용됨. 이 프레임워크는 베이즈 정리에 기반하여 확률을 업데이트하고 추론하는 과정을 통해 정보를 합리적으로 결합. 베이지안 프레임워크는 다양한 분야에서 활용되고 있으며, 머신 러닝, 인공 지능, 통계학, 의학, 경제학 등 다양한 분야에서 문제 해결에 유용하게 활용. 이러한 접근 방법은 불확실한 정보를 처리하고 의사 결정을 지원하는데 유용하며, 복잡한 문제를 다루는데 활용성이 높은 기술로 평가됨
※ 베이지안 프레임워크의 특징
– 사전 확률 설정: 사전 정보를 기반으로 추정하고자 하는 사건이 발생할 확률을 사전 확률로 설정. 이는 이전 경험, 도메인 지식 또는 기존 데이터를 바탕으로 할 수 있음
– 새로운 데이터 추가: 새로운 데이터가 수집되면 사전 확률에 해당 데이터를 결합하여 사후 확률을 계산. 이 과정은 베이즈 정리를 이용
– 확률적 추론: 결과는 확률적으로 제시되며, 불확실성을 포함한 다양한 가능성을 고려. 이를 통해 정확성과 불확실성을 모두 고려하여 결론을 도출.
– 업데이트 가능: 새로운 데이터가 수집될 때마다 확률을 업데이트하여 추론 개선 가능. 이를 통해 계속해서 학습하고 발전하는 모델을 구축 가능
– 유연성과 일반성: 베이지안 프레임워크는 다양한 문제에 적용될 수 있으며, 다양한 데이터 유형과 도메인에 적용할 수 있는 일반성을 가짐.

구글뉴스 추천 알고리즘

뉴스 관심사 예측을 기반으로 구글은 맞춤형 뉴스 추천 알고리즘을 구현했습니다. 이 알고리즘은 정보 필터링과 협업 필터링이라는 두 가지 주요 요소를 사용하여 뉴스 기사를 순위로 매깁니다. 정보 필터링은 사용자의 베이지안 프레임워크를 사용한 예측된 관심사에 기반하며, 협업 필터링은 관심사가 유사한 다른 사용자들의 추천을 고려합니다.

▲ 더 알아보기 : 협업 필터링과 정보 필터링
– 협업 필터링 방법(collaborative filtering mechanism)은 1. 사용자의 뉴스 클릭과 평가 데이터를 분석해 특정 사용자와 비슷한 관심사를 가진 다른 사용자들을 찾고 2. 그들이 좋아하는 콘텐츠를 추천하는 것. 단점은 다른 사용자가 아직 읽지 않은 뉴스를 추천할 수 없어 최신뉴스의 추천에 시차가 발생하는 콜드 스타트와 대부분의 사용자에 관심있는 뉴스(예를 들면 연예뉴스)가 관심없는 사용자에도 추천된다는 것 등이 있음
– 정보 필터링 방법((informationfiltering mechanism)은 사용자의 뉴스 클릭 기록을 분석하여 사용자의 진정한 뉴스 관심사를 추정. 이를 통해 사용자가 어떤 뉴스 카테고리에 관심을 가지고 있는지 파악

실시간 트래픽 실험과 결과

결합된 구글뉴스 추천 알고리즘의 효과를 평가하기 위해 연구원들은 구글 뉴스의 일부 실시간 트래픽에 대한 실험을 진행했습니다. 사용자들은 무작위로 제어 그룹과 테스트 그룹으로 나누어졌습니다. 제어 그룹은 기존의 협업 필터링 방법을 사용하고, 테스트 그룹은 새로운 결합 방법을 사용했습니다. 실험은 34일 동안 진행되었으며, 클릭 스루유율(CTR)과 구글 뉴스 홈페이지의 CTR, 그리고 구글 뉴스 웹사이트 방문 빈도와 같은 세 가지 지표를 사용하여 성능을 측정했습니다.

구글의 연구는 개인화된 구글뉴스 추천 알고리즘이 성과가 있다는 것을 보여주고 있습니다. 사용자들의 진정한 관심사를 이해하고 지역 뉴스 트렌드를 고려함으로써 알고리즘은 구글뉴스 추천의 품질을 크게 향상시켰습니다. 이러한 기술은 사용자들의 관심사와 일치하는 콘텐츠를 제공하여 뉴스 소비를 효율적이고 즐겁게 만들어 줍니다. (끝)

2 thoughts on “구글뉴스 추천 알고리즘 정리”

Leave a Comment