더 나은 세상은 가능하다, 이정환닷컴!

페이지뷰 보다 열독률, 카카오 뉴스 알고리즘의 원리.

Written by leejeonghwan

May 28, 2021

요즘 뉴스 추천 알고리즘이 화두인데요. 카카오의 뉴스 추천 알고리즘은 일부 공개돼 있습니다. 2019년에 나온 논문이군요.

다음은 카카오 이동권 매니저와 고려대학교 김대원 교수가 쓴 논문 “Kakao Deep Reading Index: Consumption Time as a Key Factor in News Curation Algorithm”을 정리한 것입니다. http://www.itiis.org/digital-library/manuscript/2504

과거 루빅스 시스템은 클릭율(CTR)을 기초로 뉴스를 추천했죠. 노출당 클릭 비율입니다. 어떤 기사를 클릭하는지 추적하면서 선호를 분석하는 방식입니다. 이 논문에서 지적하고 있는 것처럼 CTR만 들여다 보면 얼마나 열심히 읽었는지 확인할 수 없기 때문에 클릭 바이트 기사를 인기 기사로 추천하게 되죠.

그래서 딥 리딩 인덱스(Deep Reading Index)라는 걸 도입했는데, 열독률 지표라고 할 수 있겠네요.

카카오가 뉴스 콘텐츠의 만족도를 측정하는 방법은 두 가지입니다. 첫째, 기사를 얼마나 읽었는가 스크롤 깊이(depth)를 측정하는 거죠. 끝까지 읽으면 100%, 절반만 읽으면 50%가 됩니다. 둘째, 체류 시간을 봐야 합니다. 오래 읽은 기사가 좋은 기사일 거라는 거죠. 물론 기사 분량도 감안해야 하고요. 좋은 기사라도 짧은 기사는 빨리 읽을 테니까요.

아래 그림에서 가로 축이 기사 길이고 세로 축은 기사를 읽는 시간입니다. 분량이 길면 확실히 더 오래 읽죠. 여기에 이미지나 동영상 등을 포함해야 하고요. 시사 기사는 엔터테인먼트 기사보다 더 오래 읽겠죠. 카테고리의 특성도 반영합니다. 이런 변수들을 감안해서 기사마다 예상 시간을 계산하고 이보다 더 오래 읽는가 더 짧게 읽는가를 기준으로 열독 정도를 추산하는 방식입니다. 30초 걸릴 거라고 예상한 기사인데 40초를 읽더라, 그럼 이 기사는 좋은 기사일 가능성이 크다는 거고요. 20초 걸릴 거라고 예상했는데 5초만에 빠져나가더라, 그럼 이 기사는 제목 낚시를 했을 가능성이 크다고 볼 수 있겠죠.

다음 그림은 기사 3만7652건의 소비 시간을 비교한 것입니다. 시사 기사는 분량이 짧아도 상대적으로 더 오래 읽고요. 분량이 긴 기사들 중에는 스포츠 기사가 읽는 시간이 상대적으로 더 깁니다.

아래 그림을 보면 단순히 페이지뷰가 많은 기사와 DRI가 높은 기사를 비교해 봤더니 PV 랭킹 기사의 평균 체류 시간은 60.1초, DRI 랭킹 기사는 96초로 차이가 컸습니다. 한 사람이 몇 건의 기사를 읽는지 살펴봤더니 PV 랭킹 기사는 1.224건, DRI 랭킹 기사는 1.255건이었습니다.

PV 랭킹 기사와 DRI 랭킹 기사는 성격도 달랐습니다. 발생 사건을 다루는 스트레이트 기사가 PV가 많지만 깊이 파고드는 심층 기사가 DRI가 높았고요. PV 랭킹의 절반 정도가 사회 기사였는데 DRI 랭킹은 여러 섹션이 골고루 섞여 있습니다.

그래서 카카오가 DRI+CTR 알고리즘을 도입한 이후 기사당 체류 시간이 6.6% 늘었고 1인당 체류시간은 4.5% 늘었다고 합니다.

카카오는 2017년에 루빅스 알고리즘의 원리를 소개하는 논문을 공개한 바 있습니다. 제가 간단히 소개한 적 있는데요.

슬롯 머신과 포털 뉴스의 공통점.

초창기 루빅스 시스템이 더 많이 읽고 더 오래 머물게 하는 게 목표였다면 이 개선된 알고리즘은 열독률 지표를 반영해서 효율을 높인 것입니다. 카카오가 루빅스 추천 시스템을 도입한 게 2015년 6월, 그리고 개선된 알고리즘을 적용한 게 2017년 9월부터군요. 지금은 또 어떻게 바뀌었을지 모르겠습니다.

leejeonghwan.com audio
Voiced by Amazon Polly

Related Articles

Related

초등학교 3학년 1학기 수학 만점왕 47페이지 11번 문제.

초등학교 3학년 1학기 수학 만점왕 47페이지 11번 문제.

검색하기 좋게 제목을 달았습니다. "다음 그림과 같이 12개의 못이 박혀 있는 나무판에 고무줄을 한 개 걸어 직각 삼각형을 만들려고 합니다. 만들 수 있는 직각 삼각형은 모두 몇 개인지 구해 보세요." EBS 수학 교재 만점왕에 실린 문제입니다. 초등학교 3학년 수학 문제가 이렇게 어려워도 되나 싶은데 정작 해설도 답도 틀렸네요. 해설지에는 정답이 80개라고 나와 있는데. 애초에 이 점들이 같은 간격이라는 설명이 없으면 대각선으로 직각이 되는지 안...

구글이 단종시킨 비운의 하드웨어, 크롬캐스트 오디오.

구글이 단종시킨 비운의 하드웨어, 크롬캐스트 오디오.

중고로 보이면 무조건 질러야 한다는 말이 나올 정도인데. 35달러짜리 제품이 요즘 중고가가 10만 원을 넘어가는 것 같습니다. 사람들이 잘 모르는 기능 가운데 하나가 크롬캐스트 오디오가 광(optical) 출력을 지원한다는 것. 그러니까 3.5mm 구멍으로 아날로그 출력과 디지털 출력(mini-toslink)을 동시에 지원한다는 이야기죠. 같은 구멍에 아날로그 케이블을 꽂으면 아날로그 출력이, 디지털 케이블을 꽂으면 디지털 출력이 나오는 거죠. (두 번째 사진이 디지털 광...

주요 언론사 매출액 2021년 업데이트.

주요 언론사 매출액 2021년 업데이트.

18개 주요 신문사 매출액을 집계해 봤습니다. 해마다 이 데이터를 집계하고 있는데 지난해에는 상당수 신문사가 매출이 반등했습니다. 매출액 순위로 보면 2019년 조중동한매에서 2020년부터 다시 조중동매한으로 바뀌었고요. 아래 그림에서 보시다시피 지난 20년 동안 주요 언론사 매출액은 거의 비슷한 수준에서 유지되고 있습니다.     18개 주요 일간지 매출액 합계가 2조 원 밑으로 떨어졌다가 다시 올라섰습니다. 조중동의 매출이 추세적으로 줄어들고 있지만...

더 나은 세상은 가능하다, 이정환닷컴!

Join

Subscribe For Updates.

이정환닷컴 뉴스레터를 구독하세요.