leejeonghwan.com

페이지뷰 보다 열독률, 카카오 뉴스 알고리즘의 원리.

요즘 뉴스 추천 알고리즘이 화두인데요. 카카오의 뉴스 추천 알고리즘은 일부 공개돼 있습니다. 2019년에 나온 논문이군요.

다음은 카카오 이동권 매니저와 고려대학교 김대원 교수가 쓴 논문 “Kakao Deep Reading Index: Consumption Time as a Key Factor in News Curation Algorithm”을 정리한 것입니다. http://www.itiis.org/digital-library/manuscript/2504

과거 루빅스 시스템은 클릭율(CTR)을 기초로 뉴스를 추천했죠. 노출당 클릭 비율입니다. 어떤 기사를 클릭하는지 추적하면서 선호를 분석하는 방식입니다. 이 논문에서 지적하고 있는 것처럼 CTR만 들여다 보면 얼마나 열심히 읽었는지 확인할 수 없기 때문에 클릭 바이트 기사를 인기 기사로 추천하게 되죠.

그래서 딥 리딩 인덱스(Deep Reading Index)라는 걸 도입했는데, 열독률 지표라고 할 수 있겠네요.

카카오가 뉴스 콘텐츠의 만족도를 측정하는 방법은 두 가지입니다. 첫째, 기사를 얼마나 읽었는가 스크롤 깊이(depth)를 측정하는 거죠. 끝까지 읽으면 100%, 절반만 읽으면 50%가 됩니다. 둘째, 체류 시간을 봐야 합니다. 오래 읽은 기사가 좋은 기사일 거라는 거죠. 물론 기사 분량도 감안해야 하고요. 좋은 기사라도 짧은 기사는 빨리 읽을 테니까요.

아래 그림에서 가로 축이 기사 길이고 세로 축은 기사를 읽는 시간입니다. 분량이 길면 확실히 더 오래 읽죠. 여기에 이미지나 동영상 등을 포함해야 하고요. 시사 기사는 엔터테인먼트 기사보다 더 오래 읽겠죠. 카테고리의 특성도 반영합니다. 이런 변수들을 감안해서 기사마다 예상 시간을 계산하고 이보다 더 오래 읽는가 더 짧게 읽는가를 기준으로 열독 정도를 추산하는 방식입니다. 30초 걸릴 거라고 예상한 기사인데 40초를 읽더라, 그럼 이 기사는 좋은 기사일 가능성이 크다는 거고요. 20초 걸릴 거라고 예상했는데 5초만에 빠져나가더라, 그럼 이 기사는 제목 낚시를 했을 가능성이 크다고 볼 수 있겠죠.

다음 그림은 기사 3만7652건의 소비 시간을 비교한 것입니다. 시사 기사는 분량이 짧아도 상대적으로 더 오래 읽고요. 분량이 긴 기사들 중에는 스포츠 기사가 읽는 시간이 상대적으로 더 깁니다.

아래 그림을 보면 단순히 페이지뷰가 많은 기사와 DRI가 높은 기사를 비교해 봤더니 PV 랭킹 기사의 평균 체류 시간은 60.1초, DRI 랭킹 기사는 96초로 차이가 컸습니다. 한 사람이 몇 건의 기사를 읽는지 살펴봤더니 PV 랭킹 기사는 1.224건, DRI 랭킹 기사는 1.255건이었습니다.

PV 랭킹 기사와 DRI 랭킹 기사는 성격도 달랐습니다. 발생 사건을 다루는 스트레이트 기사가 PV가 많지만 깊이 파고드는 심층 기사가 DRI가 높았고요. PV 랭킹의 절반 정도가 사회 기사였는데 DRI 랭킹은 여러 섹션이 골고루 섞여 있습니다.

그래서 카카오가 DRI+CTR 알고리즘을 도입한 이후 기사당 체류 시간이 6.6% 늘었고 1인당 체류시간은 4.5% 늘었다고 합니다.

카카오는 2017년에 루빅스 알고리즘의 원리를 소개하는 논문을 공개한 바 있습니다. 제가 간단히 소개한 적 있는데요.

슬롯 머신과 포털 뉴스의 공통점.

초창기 루빅스 시스템이 더 많이 읽고 더 오래 머물게 하는 게 목표였다면 이 개선된 알고리즘은 열독률 지표를 반영해서 효율을 높인 것입니다. 카카오가 루빅스 추천 시스템을 도입한 게 2015년 6월, 그리고 개선된 알고리즘을 적용한 게 2017년 9월부터군요. 지금은 또 어떻게 바뀌었을지 모르겠습니다.

.

www.leejeonghwan.com
leejeonghwan.com audio
Exit mobile version