AI 저널리즘 입문서 – AI시대의 저널리즘

AI시대의 저널리즘은 연합뉴스 김태균, 권영전, 박주현씨가 공저한 AI 저널리즘 입문서입니다

2016년엔 한국 언론계에 로봇 저널리즘 바람이 불었습니다

파이낸셜뉴스가 최초로 로봇 기자 서비스를 만들었고 파이낸셜뉴스, 헤럴드경제, 이투데이, 전자신문, 연합뉴스, 대구일보 등도 이를 뒤따랐습니다

하지만 로봇 기자는 아무도 읽지 않는 서비스가 됐으며 2018년 즈음에는 관심도 사라졌습니다

이 때 저자들은 연합뉴스에서 기사 자동화와 AI 저널리즘 도입 프로젝트를 시작했다고 합니다

이들의 과제는 1. 기술을 과시하는 시험서비스가 아닌 독자에게 뚜렷한 가치를 주는 서비스를 만들 것 2. 언론사 내부에서 환영받을 자동화 서비스를 내놓을 것이었습니다

이 책은 저자들이 NC소프트 AU센터와 함께 기사 자동화와 AI 서비스를 추진하며 겪은 주요 난제를 정리한 글이며 향후 AI 저널리즘 도입을 검토하는 언론사 실무자가 읽어볼만 합니다

현직 기자 두 명과 엔지니어가 공저한 책이기에 AI 저널리즘을 도입할 때 미리 대비해야 할 문제점과 대응방안들을 잘 기술했습니다

무엇보다도 읽기 쉽게 써졌습니다

여기에서는 AI 저널리즘에 대한 사례와 용어 중심으로 정리했습니다

책값이 조금 부담스럽지만 내용은 알찹니다

AI 저널리즘 – 기사 자동화 및 AI 사례

로이터통신 – AI

  • 2018년 3월 자동화가 아닌 AI를 이용한 링스 인사이트(lynx insight)라는 서비스를 공개
  • 링스는 금융, 스포츠 등 다양한 데이터를 뒤져 기사 소스가 될 만한 사실들을 찾아내 자사 기자에 전달하는 것이 핵심 기능임. 일종의 자동 제보임
  • AI는 사진과 동영상에 자동 캡션을 붙일 수도 있음

AP통신 – 기사 자동화

  • 2014년 7월부터 오토메이티드인사이츠(automated insights)라는 협업사와 함께 기업 실적 기사를 자동화
  • 자동기사 도입 후 매분기 실적기사는 3천건으로 종전의 300건에 비해 10배 증가하고 업무 시간의 20%가 절감됐다고 밝힘
  • 기사를 공급받는 지역신문 등에서 좋은 반응을 얻었다고 AP통신은 밝힘
  • 2018년부터 AI 요약서비스 회사 아골로(Agolo)와 협업해 과거 에디터가 직접 썼던 TV뉴스 앵커용 요약문을 아골로의 AI에 맡기는 프로젝트를 시험적으로 진행. 과거에 1일 2천건의 기사 중 200여건만 요약했으나 이후는 모든 기사에 요약을 생성 가능함

뉴욕타임스 – AI요약

  • AI 요약서비스 회사 아골로(Agolo)와 협업해 특정한 동일 주제의 과거기사를 요약해 연대기적 기사를 만드는 서비스를 개발중(아골로와 인터뷰 당시까지 미개발됨)

블룸버그통신 – 기사 자동화와 AI번역

  • 2019년 전체 콘텐츠의 25%를 자체기술로 개발한 자동기사로봇 사이보그(Cyborg)가 자동화 기사로 생산
  • AI는 주로 데이터 확보에 사용함. 기업 컨퍼런스콜 음성 파일, 보도자료, 소셜미디어 글처럼 기계가 읽을 수 없는 구조화되지 않은 데이터를 AI가 분석해 컴퓨터가 잘 처리할 수 있도록 구조화된 데이터로 변환함
  • AI가 변환한 데이터를 고객에 제공하기도 하고 템플릿을 통해 자동기사로 제작하기도 함
  • AI가 번역한 외국어 기사를 사람기자가 감수해 송고
  • 엔지니어 수는 5천명이며 AI 업무 담당은 200여명, 기자는 2천700여명

톰슨 – 금융 기사 자동화

  • 2006년 3월 일부 금융 기사를 자동화. 데이터 수신 후 0.3초 만에 기사 생산
  • 톰슨의 기사 자동화 목표는 비용절감이 아닌 고객사에 더 빠르게 정보를 전달하기 위한 것

LA타임스 – 살인 기사 자동화

  • 2010년 지역의 살인 범죄 양상을 조망하기 위해 LA카운티의 모든 살인 사건을 기사화
  • LA카운티 검시관이 배포한 살인 사건 데이터를 분석해 로봇이 자동으로 기사를 제작함
  • 로봇이 리드 문장을 만들면 인간 기자는 피해자 취재와 경찰 수사상황을 추가해 기사를 완성해나가게 됨
  • LA카운티는 이 기사 때문에 지역의 살인 사건 패턴을 쉽게 분석하고 특정 지역에 살인 사건이 증가하면 해당 주민에게 경보를 발령하기도 함

LA타임스- 지진 기사 자동화

  • LA타임스는 2011년 지진봇(quakebot)을 제작해 지진이 일어나는 즉시 기사를 생산
  • 지진봇은 미국 지질조사국의 지진 정보를 이용해 특정 지진을 기사를 제작하고 인간 기자는 이를 검토해 최종 발행함
  • 2017년 6월 22일 지진봇은 태평양 연안에서 규모 6.8의 큰 지진이 발생했다는 오보를 냄. 데이터의 출처인 지질조사국의 지진정보가 틀렸기 때문

야후 – 개인화 자동뉴스

  • 판타지풋볼(Fantasy Football)에 오토메이티드인사이츠가 제공하는 개인화 자동뉴스를 서비스
  • 판타지풋볼은 이용자가 가상의 미식축구팀 구단주가 돼 선수를 선발하고 승패를 겨루는 온라인 시뮬레이션 스포츠이며 선수들은 실제 플레이어들임
  • 각 팀에 대한 데이터를 기계가 인지해 각 사용자들에 맞는 선수 선발 기사, 경기 프리뷰, 경기결과 요약을 작성함
  • 2013년 오토메이티드인사이츠가 최초 야후와 계약할 때 작성하기로 한 기사 건수는 한 시즌에 2억5천만건이며 기사 생산 속도는 초당 1천건 이상이었음
  • 2018년 미국에서 도박 합법화 결정을 각주가 결정하기로 한 연방대법원 판결로 스포츠 기사에 대한 기사 수요가 더욱 증가할 것으로 보임

포브스 – 실적기사 자동화

  • 2012년 내러티브사이언스(narrative science)사가 개발한 인공지능 플랫폼 퀼(Quill)을 사용해 기업 실적 기사 송고

워싱턴포스트

  • 2016년부터 인공지능 프로그램 헬리오그래프를 이용해 스포츠 기사와 선거 관련 기사를 생산

파이낸셜뉴스 – 한국 최초의 기사 자동화

  • 2016년 1월 21일 서울대 이준환, 서봉원 교수 연구팀과 함께 개발한 IamFNBOT를 한국 최초로 송고함
  • IamFNBOT은 매일 장이 마감한 후 코스피/코스닥지수 시가총액 상위종목/업종별 등락을 묶어 하루에 1건의 기사만 송고함
  • 2016년 6월 22일까지 서비스하고 종료

연합뉴스 – 다양한 기사 자동화

  • 2017년 3월 23일 최초의 자연재해 분야 자동화 기사 서비스
  • 1보는 로봇기자가 출시하고 추가 취재는 인간 기자가 담당하는 모델
  • 2017년 8월 12일 영국 프리미어 리그 경기 결과를 보도하는 ‘사커봇’ 출시(현재 서비스 안됨)
  • 2018년 사커봇을 올림픽에 적용한 올림픽봇 서비스 출시
  • 2019년 1월 로또 기사 자동화

기사 자동화 기타

  • 한국경제TV는 스마트폰앱 ‘거장들의 투자공식’을 운영하는 부자앱컴퍼니와 협업해 ‘라이온봇’ 개발
  • 서울경제는 자체개발한 것으로 추정되는 ‘서경뉴스봇‘ 출시

AI 저널리즘 관련 회사 사례

오토메이티드 인사이츠(automated insights) – 자동화

  • 미국 회사로 자연어 생성(NLG) 기술 분야에서 내러티브 사이언스(narrative science, 미국), 아리아(Aria, 영국)와 함께 유명한 회사
  • 2014년 AP통신의 기업실적 자동화를 통해 미국에서 로봇저널리즘 붐을 일으킴
  • NLG플랫폼인 워드스미스(Wordsmiths)는 AP통신, 다우존스, 야후, 타블라(Tableau), 신용평가회사 S&P 등의 언론사와 기업이 고객
  • AI가 아닌 자동화 기술(template)에 특화된 회사

아골로(Agolo) – AI 요약

  • 원문의 문장을 그대로 가져와 배열만 다시 하는 추출(extraction) 방식과 요약문을 새롭게 다시 쓰는 초록(abstract) 방식을 혼용해 사용
  • AP통신의 기사 원문과 요약문을 대량(200만건 정도) 입수해 AI 학습 자료로 사용했으며 이를 토대로 AI가 훈련할 수 있는 요약 데이터 2억건을 생성
  • AP통신, 뉴욕타임스, 다우존스 산하의 글로벌 뉴스 데이터베이스인 Factiva 등과 협업 중
  • 아마존 AI 서비스 알렉사에 기사 읽기용 요약서비스 제공

SAM – AI

  • 캐나다의 AI스타트업으로 소셜미디어를 분석해 화재나 물난리 등 사고 소식을 전하는 서비스를 운영함
  • AP통신, AFP통신, 로이터통신, BBC 방송, 뉴욕타임스도 이 서비스를 이용 중

싱크풀 – 증권 자동기사

  • 싱크풀은 전자공시시스템 자료를 기반으로 데이터를 가공해 자동기사를 생성하며 다양한 언론사와 협업
  • 2008년부터 자동화 기사를 생산했으며 주식을 자동으로 추천하고 사고파는 시스템ㄷ 구축
  • 이 같은 자동화를 라시(RASSI, Robot Assembly System on Stock Investment)라는 이름으로 판매함
  • 2016년 5월31일 전자신문과 협업해 ‘에봇(ebot)’이라는 증시 자동화 봇 출시
  • 2016년 6월 8일 파이낸셜뉴스와 협업해 fnRASSI 출시
  • 2016년 9월 헤럴드경제의 영어 매체 더인베스터와 국내 최초 자동화 로봇인 HeRo 출시(현재 찾기수 없음)
  • 2018년 5월 한국경제와 협업해 한경로보뉴스 출시
  • 2018년 6월 매일경제와 협업해 아이넷 출시

엔씨소프트 – AI 기술

  • 2018년 3월 AI 기술 사업화 밝힘
  • AI기사를 요약하는 야구정보 앱 ‘페이지(PAIGE) 서비스
  • AI 인력 150여명

한국 언론사 로봇(AI) 기자 모음

언론사로봇 기자 이름개발사
서울경제서경뉴스봇
매일경제아이넷 AI 로봇기자씽크풀
한국경제한경로보뉴스씽크풀
파이낸셜뉴스FnRASSI씽크풀
전자신문로봇 ET씽크풀
국민일보스톡봇엠로보
뉴스핌로보뉴스씽크풀
조세금융신문TF로보기자씽크풀
조선비즈C-Biz봇증권플러스(두나무)
아시아경제AI라씨로씽크풀
대구일보에이프자체개발
이투데이이투봇(e2BOT)씽크풀

기본 용어 정의

자동화

  • 일반적으로 인간의 도움 없이 전체 프로세스나 그 중의 일부 작업(procedure)을 수행하는 기술
  • 이 책에서 자동화는 AI를 쓰지 않고 인간이 기계(또는 소프트웨어)에 규칙을 알려주고 이에 따라 한 치 오차 없이 일하게 만드는 것
  • 기사 자동화는 사람이 미리 기사의 틀(template)을 다 만들고 로봇이 그 틀 속에 데이터를 채워 기사를 생성하는 방식
  • 자동화를 위해서는 구조화된 데이터(structured data)가 필수적임
  • 서구언론은 자동화 기사가 독자에 어필할 수 있는 두 가지 조건으로 정의함. 1. 텍스트를 빠르고 효율적으로 전달하는 것이 세련된 스토리텔링보다 더 중요할 것 2. 독자들이 문장의 미려함에 큰 기대를 하지 않음
  • 지진속보, 유가동향, 기업실적, 공시 단신, 녹조류 경보 등 정형 문장이 계속되는 판에 박힌 템플릿(template) 기사가 대표적
  • AI에 비해 자동화는 개발 난이도가 낮고 비용부담이 적어 언론사에 경제적인 기술임
  • AP통신과 협업하는 오토메이티드 인사이츠(automated insights)가 대표적인 회사임
  • 미국의 포털 야후는 ‘판타지 풋불‘이라는 종목에서 자동화 기술을 도입해 속도와 규모(speed and scale)가 뒷받침돼야 가능한 개인화, 주문형 뉴스 서비스를 선보임

AI(Artificial Intelligence : 인공지능)

  • 머신러닝 기법을 활용해 언론의 업무 프로세스 일부 또는 전부를 인간의 도움 없이 스스로 학습해 성능이 좋아지게 하는 기술
  • AI는 지도학습과 비지도학습, 강화학습으로 구분되며 실제 개발에서는 3가지를 골고루 사용함
  • 지도학습(supervised learning)은 정답이 붙은 문제를 제공해 AI를 학습시키는 것. 개라는 제목(label)이 붙은 개 사진과 고양이 제목이 붙은 고양이 사진을 주고 두 가지를 구분하도록 훈련시키는 것임
  • 비지도학습(unsupervised learning)은 대량의 데이터로 틀에 억매이지 않고 유연하게 기계가 알아서 학습하도록 하는 것임. 학습의 목표만 있고 정답 데이터는 없음. 개와 고양이 구분하기 과제에서 제목을 안 붙인 개와 고양이 사진을 보여주고 AI가 두 동물의 특성과 차이점을 스스로 익히게 하는 것
  • 강화학습(reinforcement learning)은 AI 로봇의 행동결과에 따라 점수를 주는 등의 방식으로 학습하는 것
  • AI는 자동화보다 더 많은 일들을 할 수 있음
  • 데이터마이닝은 뒤죽박죽 정보를 카테고리로 분류(classification)하고, 특정 조건의 정보를 필터링(filtering)하고, 여러 주체의 관계도를 그리는(관계맺기 : associating) 작업이 대표적임
  • 구조화하지 않은 자료를 정형화한 데이터로 자동전환해 데이터 마이닝을 할 수도 있음
  • 머신러닝 역량이 있는 개발자를 고용하고 AI학습을 위해 양질의 데이터를 확보해야 하는 등 언론사에는 개발 난이도가 높고 비용 부담이 많음

범용 AI(AGI : Artificial General Intellligence)

  • 다양한 업무 수행이 가능하고 인간과 흡사한 지적 판단이 가능한 AI
  • 알파고를 만든 구글 딥마인드도 이상적 목표로 삼고 있음
  • 오픈AI(OpenAI)라는 회사의 GPT-3이라는 제품이 범용 AI의 선두 주자임
  • 오픈AI(OpenAI)는 와이 콤비네이터 전 사장 샘 알트만(Sam Altman), 테슬라 창업자 일론 머스크(Elon Musk), 링크드인 공동창업자 리드 호프먼(Reid Hoffman), 페이팔 공동창업자 피터 틸(Peter Thiel), 구글 출신 딥러닝 전문가 일리야 서츠케버(Ilya Sutskever) 등이 참여해 2015년 설립한 AI 연구기관으로 2019년 7월 마이크로소프트도 오픈AI에 10억 달러를 투자함
  • GPT–3는 무려 1,750억 개의 매개변수를 통해 엄청난 성능을 자랑합니다. 위에 나오는 아골로라는 회사는 2억개의 매개변수를 이용해 AI 요약의 기반을 다졌다고 함

구조화된 데이터(structured data)

  • 구조화된 데이터는 기계가 잘 이해할 수 있도록 정보가 질서정연한 범주에 따라 잘 구분된 데이터로 항목마다 숫자와 코드 등 명확한 내용이 정리돼있음

머신러닝(machine learning)

  • 기계가 데이터를 바탕으로 지식을 자동으로 습득해 스스로 성능을 향상하는 기술
  • 1940년대부터 연구된 기술

deep neural network

  • 인간의 뇌를 모방한 인공 신경망으로 2006년 캐나다 토론토대학의 제프리 힌튼 교수가 발표
  • 많은 자료를 읽으면 저절로 지식을 쌓는 인간의 뇌처럼 인공신경망도 방대한 데이터를 받으면 별도 지시 없이 정보 사이의 패턴을 인식하고 추론하게 됨

자연어

  • 인간의 언어를 기계어와 대비해 자연어(natural language)라고 함

자연어 처리(NLP : natural language processing)

  • 자연어 처리는 자연어 이해기술과 자연어 생성기술의 상위 개념
  • 자연어 이해(NLU : natural language understanding)는 기계가 인간의 말을 듣거나 글을 읽고 그 뜻을 파악하는 것
  • 자연어 생성(NLG : natural language generation)은 기계가 자연스럽게 글을 쓰거나 대사를 생성하는 것
  • 구글 어시스턴트, 애플 시리, 삼성 빅스비가 자연어 처리 기술을 기반으로 함

AI 요약

  • 원문의 문장을 그대로 가져와 배열만 다시 하는 추출(extraction) 방식과 요약문을 새롭게 다시 쓰는 초록(abstract) 방식이 있음
  • 네이버 요약봇은 추출 방식이며 미국의 AI요약서비스 기업 아골로는 초록과 추출을 혼용하는 하이브리드 방식

메타 데이터(meta data)

  • 데이터의 성격, 출처, 세부 내용, 다른 데이터와의 관계 등 부가적인 정보
  • 체계적인 메타데이터를 많이 가지고 있으면 라벨링(labeling)이 잘됐다고 표현함

배타적 전송과 오픈 API

  • 배타적 전송은 송신자와 수신자가 인터넷 등을 통해 1:1 관계로 데이터를 송수신하는 것으로 FTP(file transfer protocol)이나 소켓통신 방식 등이 있음
  • 배타적 전송은 안전하고 간편하지만 송신자가 데이터를 제공하는 서버와 회선을 갖추고 이를 관리하는 별도 인력이 필요함
  • 오픈 API는 송신자가 불특정 다수의 수신자에 데이터를 제공할 때 사용함. 서비스가 불특정 다수에 개방된 구조이기에 디도스(DDoS: 분산서비스 거부) 공격 등 보안에 취약할 수 있고 하루에 사용하는 건수에 제한(limit)이 걸린 경우가 대부분임

웹 스크래핑(web scraping)

  • 로봇을 이용해 웹사이트 정보를 긁어오는 것을 웹클롤링(web crawling)이라 함
  • 웹스크래핑은 필요한 특정 사이트에서 특정 데이터만 다운로드받는 것

데이터 파싱(data parsing)

  • 데이터를 쪼개 구조화한 형태로 정리하는 것

마크업 언어

  • 마크업언어는 데이터의 논리 구조를 설명하는 컴퓨터 언어
  • 여기 있는 정보를 데이터 항목별로 정리하면 이런 모양이라고 알려주는 것이 목표
  • HTML, XML(eXtensible Markup Language) 등이 있음

이 글이 마음에 드신다면 비트코인 입문 포스팅도 읽어보세요~

(끝)

Leave a Comment