더 나은 세상은 가능하다, 이정환닷컴!

페이지뷰 보다 열독률, 카카오 뉴스 알고리즘의 원리.

Written by leejeonghwan

May 28, 2021

요즘 뉴스 추천 알고리즘이 화두인데요. 카카오의 뉴스 추천 알고리즘은 일부 공개돼 있습니다. 2019년에 나온 논문이군요.

다음은 카카오 이동권 매니저와 고려대학교 김대원 교수가 쓴 논문 “Kakao Deep Reading Index: Consumption Time as a Key Factor in News Curation Algorithm”을 정리한 것입니다. http://www.itiis.org/digital-library/manuscript/2504

과거 루빅스 시스템은 클릭율(CTR)을 기초로 뉴스를 추천했죠. 노출당 클릭 비율입니다. 어떤 기사를 클릭하는지 추적하면서 선호를 분석하는 방식입니다. 이 논문에서 지적하고 있는 것처럼 CTR만 들여다 보면 얼마나 열심히 읽었는지 확인할 수 없기 때문에 클릭 바이트 기사를 인기 기사로 추천하게 되죠.

그래서 딥 리딩 인덱스(Deep Reading Index)라는 걸 도입했는데, 열독률 지표라고 할 수 있겠네요.

카카오가 뉴스 콘텐츠의 만족도를 측정하는 방법은 두 가지입니다. 첫째, 기사를 얼마나 읽었는가 스크롤 깊이(depth)를 측정하는 거죠. 끝까지 읽으면 100%, 절반만 읽으면 50%가 됩니다. 둘째, 체류 시간을 봐야 합니다. 오래 읽은 기사가 좋은 기사일 거라는 거죠. 물론 기사 분량도 감안해야 하고요. 좋은 기사라도 짧은 기사는 빨리 읽을 테니까요.

아래 그림에서 가로 축이 기사 길이고 세로 축은 기사를 읽는 시간입니다. 분량이 길면 확실히 더 오래 읽죠. 여기에 이미지나 동영상 등을 포함해야 하고요. 시사 기사는 엔터테인먼트 기사보다 더 오래 읽겠죠. 카테고리의 특성도 반영합니다. 이런 변수들을 감안해서 기사마다 예상 시간을 계산하고 이보다 더 오래 읽는가 더 짧게 읽는가를 기준으로 열독 정도를 추산하는 방식입니다. 30초 걸릴 거라고 예상한 기사인데 40초를 읽더라, 그럼 이 기사는 좋은 기사일 가능성이 크다는 거고요. 20초 걸릴 거라고 예상했는데 5초만에 빠져나가더라, 그럼 이 기사는 제목 낚시를 했을 가능성이 크다고 볼 수 있겠죠.

다음 그림은 기사 3만7652건의 소비 시간을 비교한 것입니다. 시사 기사는 분량이 짧아도 상대적으로 더 오래 읽고요. 분량이 긴 기사들 중에는 스포츠 기사가 읽는 시간이 상대적으로 더 깁니다.

아래 그림을 보면 단순히 페이지뷰가 많은 기사와 DRI가 높은 기사를 비교해 봤더니 PV 랭킹 기사의 평균 체류 시간은 60.1초, DRI 랭킹 기사는 96초로 차이가 컸습니다. 한 사람이 몇 건의 기사를 읽는지 살펴봤더니 PV 랭킹 기사는 1.224건, DRI 랭킹 기사는 1.255건이었습니다.

PV 랭킹 기사와 DRI 랭킹 기사는 성격도 달랐습니다. 발생 사건을 다루는 스트레이트 기사가 PV가 많지만 깊이 파고드는 심층 기사가 DRI가 높았고요. PV 랭킹의 절반 정도가 사회 기사였는데 DRI 랭킹은 여러 섹션이 골고루 섞여 있습니다.

그래서 카카오가 DRI+CTR 알고리즘을 도입한 이후 기사당 체류 시간이 6.6% 늘었고 1인당 체류시간은 4.5% 늘었다고 합니다.

카카오는 2017년에 루빅스 알고리즘의 원리를 소개하는 논문을 공개한 바 있습니다. 제가 간단히 소개한 적 있는데요.

슬롯 머신과 포털 뉴스의 공통점.

초창기 루빅스 시스템이 더 많이 읽고 더 오래 머물게 하는 게 목표였다면 이 개선된 알고리즘은 열독률 지표를 반영해서 효율을 높인 것입니다. 카카오가 루빅스 추천 시스템을 도입한 게 2015년 6월, 그리고 개선된 알고리즘을 적용한 게 2017년 9월부터군요. 지금은 또 어떻게 바뀌었을지 모르겠습니다.

leejeonghwan.com audio
Voiced by Amazon Polly

Related Articles

Related

우리는 기린을 잘 모른다.

우리는 기린을 잘 모른다.

1. 높은 곳에 있는 풀을 뜯어 먹기 위해 목이 길어졌다? = 이건 기린을 본 적 없는 초기 진화론자들이 만들어 낸 개념이다. 기린은 건기에 덤불이나 어깨 높이 보다 낮은 곳에 있는 잎을 뜯어 먹는다. 상대적으로 먹이가 풍부한 우기에 높은 곳에 있는 잎을 뜯어 먹는데, (진화론자들이 빡침.) = 그러니까 고개를 쳐들고 높은 곳에 있는 풀을 먹는 경우가 절반 정도라고. 딱히 높은 곳에 있는 풀을 뜯는 데 열심인 건 아니란 이야기. = 높은 곳이 아니면 굶어 죽을 상황이라 목이...

잔여백신 예약 노하우.

잔여백신 예약 노하우.

“나만 안 맞았어 백신(EVEM, Everybody Vaccinated. Except Me.)” 증후군에 시달리다가 오늘 작정하고 휴가부터 냈습니다. 10시부터 매복하다가 5분 만에 예약 성공해서 맞고 왔습니다. 위에 그림에서 보는 것처럼 터치를 네 번 해야 되는데, 이걸 1초 만에 끝내는 게 관건입니다. 별 건 아니지만 약간의 노하우가 있어서 정리해 봅니다. 0. 잔여 백신은 노쇼 백신과는 좀 다른 의미입니다. 일단 1병을 개봉해서 여러 명이 맞을 수 있는데 LDS(Low...

모니터 연결 없이 라즈베리파이 원격 제어하기.

모니터 연결 없이 라즈베리파이 원격 제어하기.

1. 일단 SD카드를 컴퓨터에 연결해서 라즈베리 OS를 설치해 줍니다. 2. 자동으로 와이파이를 잡아주기 위해 루트 디렉토리에 wpa_supplicant.conf 파일을 만들고 다음과 같이 적어줍니다. 터미널 프로그램으로 접속하면 됩니다. cd /Volumes/boot touch ssh vi wpa_supplicant.conf country=US ctrl_interface=DIR=/var/run/wpa_supplicant GROUP=netdev update_config=1...

더 나은 세상은 가능하다, 이정환닷컴!

Join

Subscribe For Updates.

이정환닷컴 뉴스레터를 구독하세요.