이 글은 한국언론재단이 2017년 5월에 참가한 국제뉴스미디어협회 세계 총회(INMA) 결과 보고서 중 일부 세션 을 기초로 재 작성했습니다
빅데이터 뉴스와 AI, 미디어의 전략적 우선 순위에 대해 뉴욕타임스, 로이터 통신, SCMP(사우스 차이나 모닝포스트)의 사례들을 정리한 글입니다.
빅데이터 뉴스와 AI, 그리고 미디어의 전략적 우선 순위 관련 총평
아래 3명의 발표는 궁극적으로 더 좋은 콘텐츠를 만들어 더 많은 소비자에 제공하기 위한 방법으로 빅데이터와 AI를 연구하고 시험하는 과정을 소개하고 있습니다.
과거와는 달라진 독자 환경 그리고 미디어 환경에 맞춰 생존하기 위한 방법 중 하나를 소개하는 것이죠.
하지만 3개 미디어는 모두 세계의 TOP 미디어이기에 인적 투자와 물적 투자가 가능합니다.
뉴욕타임스의 2016년 총 매출은 15억5천만달러(환율 1천100원 적용할 경우 1조7천억원)이고 영업이익은 1억160만달러입니다.(뉴욕타임스 2016년 재무제표)
한국만 하더라도 이 정도의 투자가 가능한 곳은 많지 않을 것입니다.
그렇다면 일반적인 규모의 한국 언론사는 어떻게 해야 할까요?
직접 개발보다는 시장에 있는 도구들을 사용해보는 것이 필요할 것으로 보입니다.
주로 구글의 상품이 될 것으로 보입니다.
아래 링크는 구글이 언론인을 위해 제공하는 무료 툴입니다.
그리고 구글이 제공하는 다른 무료 툴들에 대해서도 스터디해 자사의 형편에 맞는 도구들을 직접 시도하는 것은 어떨까 합니다.
토론자 3명 소개
Gary Liu, South China Morning Post in Hong Kong, CEO
Reg Chua, Reuters, Executive Editor, Editorial Operations, Data and Innovation,
Laura Evans, The New York Times, Senior Vice President
※ 특이점 : 토론자 3명 중 2명의 전공은 응용수학, 1명은 기술(technology)
South China Morning Post의 Gary Liu CEO 발표 내용
요약
콘텐츠를 선택해 독자에게 제공하는 것은 더 이상 편집자의 일이 아니다
기계 학습과 인공지능을 독자 데이터 분석에 활용해 더 나은 사용자 경험을 제공하겠다
※ South China Morning Post는 2015년 12월 중국의 알리바바가 2억6천만 달러에 인수했으며 미국의 디그(digg.com)에서 근무하던 Gary Liu(33세)를 사장으로 임명했습니다
South China Morning Post는 데이터를 어떻게 수집할 지 판단하는 역할을 하는 3가지 데이터 시스템과 이 시스템을 활용해 만든 데이터 제품에 집중 투자하고 있습니다
3가지 데이터 시스템이란?
– CMS(Contents Management System) : 기사의 모든 단어, 글자, 구두점, 단어의 순서까지 수집해 머신러닝의 기초 데이터로 활용함
– DWH(Data WareHouse) : 사용자를 이해하기 위해 필요한 데이터 창고로 사용자의 콘텐츠 이용 행태를 파악할 수 있음. 구글의 빅데이터 플랫폼인 빅쿼리(BigQuery)를 사용해도 됨
– DMP(Data Management Platform) : 외부 사용자 데이터를 분석해 사용자들이 신문사 플랫폼 외부에서 무엇을 하고 있는지 확인하고 그들의 관심사를 파악함
4가지 데이터 제품
– OI(Operating Intelligence)를 통해 제품의 성과와 소비자 행태를 실시간으로 분석함. OI 제작을 위해서는 BI(Business Intellence) Platform의 구축이 선행돼야 함
– 콘텐츠 추천 알고리즘을 통해 사용자에 최고의 뉴스 발견 소비 경험(the best news discovery consumption experience)을 제공함
– 수익성 증대를 위한 제품으로 DSP와 SSP가 있음.
DSP(Demand-side Platform)를 통해 구독 가능성이 있는 사용자에 타깃 광고를 진행해서 구독자를 증가시킴.
SSP(Supply-Side Platform)를 통해 광고주에 신문사가 수집한 독자 정보를 제공하고 광고비를 효율적으로 더 많이 지출하도록 함.
– 콘텐츠 데이터, 내부 사용자 데이터, 외부 사용자 데이터 등을 머신러닝에 반영하고 인공지능(AI)을 만들어냄.
미래를 위한 두 가지 AI 제품(머신러닝과 관련 있음)
– 자연어 처리(NPL: Natural Language Processing)는 소비자가 콘텐츠를 발견(discovery)할 수 있도록 함
– 자연어 생성(NLG: Natural Language Generation)은 콘텐츠를 자동화해 생산할 수 있도록 함
– 일반적인 기사는 자동화해 저널리스트의 일을 덜어 주고 저널리스트는 작품 기사를 만들 수 있도록 함
– 음성 처리에 있어 아마존의 Echo와 구글 Assistant가 경쟁자다
로이터 통신의 Reg Chua 수석 에디터 발표 내용
요약
진짜 가치는 기계와 사람의 결합(the marriage between machine and people)에 있다.
– AP의 경우 Automated Insights라는 회사에 외주를 줘서 그래프를 자동화했으며 매 분기별로 수 천 개 기업의 수익을 다루고 있음
– 로이터는 다음의 두 가지 시도를 하고 있음
통찰력을 위한 자동화(automation for insights)
– 기계를 이용해 패턴과 트렌드를 읽는 일이다. 2016년 공화당 경선에 기계로 기사를 제작했다. 통계적으로 유의미한 요소를 골라 트럼프의 경선 전망에 대해 흥미로운 사실을 발견했다.
기계를 이용한 마켓 리포트
– 기계를 통해 ‘빠르게’ 데이터 기반의 초벌 기사를 만든 후 사람이 인사이트 있는 부분을 추가해 더 좋은 기사를 제작한다. 이 경우 개인화된 마켓 리포트를 제공할 수 있다.
뉴욕타임스의 로라 에반스 수석 부사장
요약
데이터의 목적은 더 좋은 콘텐츠 제작이며 더 나은 사용자 경험을 창조하기 위한 것이다
믿을 수 있는 데이터 환경 만들기
믿을 수 있는 데이터 환경을 만들기 위해서는 접근성(access), 정확성(accuracy), 신뢰성(reliability)이 필수적이다.
뉴욕타임스는 수년간 데이터를 활용한 작업을 하려고 노력했지만 사용자 경험을 지원해 줄 인프라가 없어서 낮은 수준의 일만 했왔다.
그래서 뉴욕타임스는 광범위하면서 믿을 만한 데이터 환경이 필요하다고 생각했고 2016년부터 데이터 전반과 머신러닝에 대한 리서치를 했다
우리가 하는 일이 우리의 광고, 소비자 경험, 소비자 참여 및 재구독 의사에 어떤 영향을 끼치는지 알고 싶어서 이 모든 것을 하나의 데이터 환경에 넣었다.
그리고 우리는 회사의 구성원들에게 데이터에 대한 교육을 하고 모든 사람에게 데이터를 제공했다.
우리가 새로운 시도를 할 때는 모든 사람이 같은 선상에 있어야 하기 때문이다.
우리가 모든 것을 수집하는 환경에서 머신러닝을 어떻게 활용할 수 있는지 우리의 이해도를 높이고 효율성을 향상하기로 했다.
※ 데이터 환경의 계층 구조(hierarchy)
일차적인 데이터==> 안정적인 인프라==> 빠르고 쉬운 접근 방법 ==> 원하는 데이터 지점을 찾기 위한 관리 방식(governance) ==> 회사가 필요할 때 그 데이터를 끌어낼 도구 ==>사용자 경험과 머신러닝
유니버설 프리엔진(Universal pre-engine) 만들기
– 구독자 데이터, 독자 추적(reader tracking), 독자가 읽은 기사 등 3가지 데이터를 결합하면 독자들의 지형도(geography)를 만들 수 있다.
이를 토대로 유니버설 프리엔진을 만들었다.
유니버설 프리엔진은 사람들이 어떤 토픽에 관심 있고 어디에 있으며 사람들의 패턴 변화와 그들이 뉴욕타임스에 기대하는 것이 무엇인지 알 수 있다.
이런 정보를 토대로 더 많은 토픽의 제작도 가능한데 이게 바로 머신러닝의 힘이다.
개인화된 추천엔진(personalized recommendation engine)
세션 후 Q&A
데이터를 어떻게 실무 현장에 적용하는가?
South China Morning Post)의 Gary Liu CEO는 자신의 취임 후 가장 먼저 채용한 사람 중 하나가 데이터 해석 담당자(Head of data analytics)라고 밝힘. 회사의 시스템과 프로덕트를 설계 및 교육해야 하고 그 사람의 존재가 회사 전체에 실시간 데이터가 중요하다는 것을 알리는 역할을 하기 때문
미디어 분야에 대한 생각
South China Morning Post)의 Gary Liu CEO는 대부분의 언론사가 대규모 엔지니어링 부서를 가질 만한 여유가 없음을 인정함. 단, 이미 많은 시스템이 존재하고 있으니 이를 구매할 수 있다고 밝힘
다른 회사들에 데이터 분석과 예측에 대한 조언
뉴욕타임스의 로라 에반스 수석 부사장은 우선 구글 빅쿼리같은 데이터 창고(DWH) 구축부터 시작해 보라고 조언. . 믿을 수 있는 데이터를 먼저 수집해 두고 나중에 데이터 분석가를 고용해 해석하면 됨. 데이터 파일화와 수집부터 시작할 것 (끝)
거북이 미디어 전략 연구소장은 미디어의 온라인 수익화와 전략에 주요 관심을 가지고 있습니다.
저는 Publisher side에서 2015년부터 모바일과 PC 광고를 담당했습니다. 2022년부터 국내 포털을 담당하고 있습니다.
▲ 강의 이력
구글 디지털 성장 프로그램의 광고 워크샵 게스트 스피커(21년 6월)
구글 서치콘솔, 네이버 서치어드바이저, MS 웹마스터 도구 사용법(24년 8월 한국 언론진흥재단 미디어교육원)