오늘도 알 수 없는 유튜브 알고리즘이 나를 ‘브레이브걸스’로 이끌었다

#유튜브 #알고리즘 #추천시스템 #브레이브걸스

브레이브걸스 역주행의 힘, 유튜브 알고리즘

유튜브 알고리즘

시간을 거스른 역주행의 힘은 과연 무엇일까?

유튜브 알고리즘

‘브레이브걸스’의 ‘롤린(Rollin)’, 들어보셨나요?

롤린은 무려 4년 전에 발매한 곡이라고 하는데요. 시간이 꽤나 지났음에도 불구하고 요즘 유튜브의 메인 화면은 온통 롤린입니다.
해체 직전까지 갔던 브레이브걸스를 음악방송 1위까지 끌어올린 역주행의 힘은 과연 무엇이었을까요? 단순히 ‘노래가 좋아서’였다면 왜 발매 당시에는 화재가 되지 못했을까요?

유튜브를 개미지옥으로 만드는 유튜브 알고리즘

‘알고리즘에 이끌려 왔다’는 말 들어보셨나요?

유튜브의 메인 화면을 채우고 있는 대부분의 콘텐츠는 사용자의 행동을 분석해 기존의 행동 기록에 맞춰 개인화된 콘텐츠를 추천해주는 ‘추천시스템 알고리즘’이 사용됩니다. 동물 영상을 자주 보는 사람에겐 동물 영상이, 영화 리뷰 영상을 자주 보는 사람에겐 영화 관련 영상이 끊임없이 추천되는 것이죠. 브레이브걸스의 역주행을 이끈 가장 큰 힘 또한 바로 유튜브의 이 ‘추천시스템 알고리즘’이 아닐까 합니다.

추천시스템이란 정보 필터링 기술의 일종으로, 사용자의 데이터를 분석해서 사용자가 관심을 가질 만한 정보를 추천하는 것입니다. 쉽게 말해 ‘너 이거 좋아하던데, 그럼 이건 어때?’라는 거죠.

추천시스템은 크게 ‘협업 필터링 방식(Collaborative Filtering)’과 ‘콘텐츠 기반 필터링 방식(Contents-based Filtering)’으로 구분됩니다.

1. 협업 필터링 방식 (Collaborative Filtering)

협업 필터링 방식은 사용자의 행동 정보를 분석해 해당 사용자와 비슷한 성향의 사용자들을 그룹으로 묶고, 그룹 내 사람들이 기존에 좋아했던 항목을 추천하는 기술입니다. 예를 들면, ‘롤린 무대영상’을 본 사람이 ‘브레이브걸스 인터뷰’를 본 경우가 많으면 ‘롤린 무대영상’을 본 사람에게 ‘브레이브걸스 인터뷰’를 추천하는 방식이죠. 협업 필터링의 핵심은 ‘많은 사용자’로부터 얻은 데이터입니다. 사용자의 데이터가 모이면 모일수록 추천의 정확도가 높아지기 때문입니다.
그런데 이 때문에 발생하는 협업 필터링 방식의 문제점이 있습니다. 바로 ‘콜드 스타트(Cold start)’라는 문제입니다. 협업 필터링 방식이 작용하려면 일정량 이상의 데이터가 필요한데 아무런 데이터가 없는 신규 사용자에게는 어떠한 추천도 할 수 없게 되는 겁니다.
이와 비슷하게 사용자들이 관심을 갖지 않는 콘텐츠의 경우, 데이터의 부족으로 추천되지 못하는 경우도 발생합니다. 따라서 자연스럽게 사람들이 좋아하는 소수의 인기 콘텐츠가 전체 추천 중 대다수를 차지하게 되는 비대칭 현상이 발생하게 되죠.
또 다른 문제는 사용자 수가 많은 경우 처리해야 할 데이터가 많기 때문에 계산에 많은 시간이 소요된다는 점입니다. 사용자가 많을수록 결과의 정확도는 높아지지만 시간이 많이 걸리게 된다는 효율성 저하 문제입니다.

2. 콘텐츠 기반 필터링 방식(Contents-based Filtering)

이러한 협업 필터링 방식의 한계 극복을 위해 나타난 것이 바로 콘텐츠 기반 필터링 방식입니다. 협업필터링 방식이 사용자의 행동 기록을 이용한다면, 콘텐츠 기반 필터링은 말 그대로 콘텐츠에 대한 분석을 기반으로 추천하는 방식입니다. 예를 들면, 음악을 추천하기 위해서 해당 음악의 작곡가, 가수, 분위기, 장르, 템포, 길이 등등 음악 자체를 분석하는 것입니다. 콘텐츠 기반 필터링은 콘텐츠 자체를 분석하여 데이터를 활용하기 때문에 많은 양의 사용자 행동 정보가 필요하지 않아 콜드 스타트가 발생하지 않는다는 장점이 있습니다.
하지만 콘텐츠 기반 필터링은 다양한 형식의 항목을 추천하기 어려운 단점이 있습니다. 계속해서 비슷한 콘텐츠만 추천하게 되기 때문이죠. 각각의 필터링 방식은 이러한 장단점이 있기에 기업에서는 다양한 필터링 방식을 융합한다던가 기본적인 필터링 방식을 고도화하는 형식으로 사용자 중심의 개인화를 이뤄나가고 있습니다.

유튜브 알고리즘, 어떤 방식일까?

그렇다면 브레이브걸스를 역주행하게 만든 추천시스템은 어떤 방식일까요?

아쉽게도 유튜브는 추천시스템의 알고리즘을 공개하지 않고 있습니다. 철저히 비공개로 운영하기에 정확한 알고리즘까지는 알 수가 없죠. 하지만 기본적인 추천시스템의 틀을 이해한다면 이 영상이 내게 뜬 이유를 어느정도는 이해할 수 있지 않을까 합니다. 나와 같은 혹은 비슷한 사람들이 브레이브걸스의 롤린을 듣고 만족했으며 그것이 수많은 대중의 마음을 흔들 만한 있는 콘텐츠였다는 것. 이보다 더욱 중요한 것은 추천시스템이 사라질 뻔한 아이돌을 살리고 사람들에게 즐거움을 주고 있다는 사실입니다.

추천시스템이 우리 일상에 미치는 영향

유튜브 알고리즘
유튜브 최고 상품 담당자(CPO) 닐 모한(Neal Mohan)에 따르면 유튜브 이용자들의 시청시간의 70%가 추천 알고리즘에 의한 결과이며, 알고리즘의 도입으로 총 비디오 시청시간이 20배 이상 증가했다고 합니다. 추천시스템으로 유명한 넷플릭스 또한 소비되는 콘텐츠 중 75%가 추천을 통해 일어난다고 하죠. 이 외에도 쿠팡, 알리바바, 아마존, 구글 등도 추천시스템을 활용하고 있습니다. 동영상 플랫폼부터 OTT서비스, e커머스와 검색엔진까지. 추천시스템은 이미 우리 일상에 깊이 침투해 많은 영향을 끼치고 있습니다.
고도의 추천시스템을 만들기 위해선 머신러닝과 딥러닝 개념이 필요하다고 하는데요. 알고리즘 성능이 실제 서비스의 사용자 수 증가와 매출 증대로 직결되는 중요한 기능이다 보니 한 순간에 쉽게 다가가기는 어려워보입니다. 하지만 어떤 비즈니스든 개인화가 중요해지는 요즘, 추천시스템의 중요성은 더욱 높아질 것으로 예상됩니다. 수많은 정보 속에서 혼란스러울 소비자의 선택을 도와줄 수 있기 때문이죠. 또한 추천시스템은 모든 비즈니스에 적용할 수 있고 성과 측정 또한 하루마다 가능하기 때문에 현업 데이터 사이언티스트 1/3 이상이 추천시스템을 배우길 강력히 추천하고 있습니다.

해결해야 할 문제

다만 짚어야 할 부분들이 있습니다. 추천시스템은 비즈니스마다 적용방식이 너무도 다르다는 점입니다. 때문에 기업에서 추천시스템을 적용하기 위해선 먼저 알고리즘에 대한 이해를 바탕으로 현재 운영 중인 비즈니스에 맞는 새로운 시스템을 적용해야만 합니다. 또한 상품이 적어도 1만개 이상 있어야만 추천시스템을 활용할 때 효율성이 나타난다고 하며 그 이하의 경우에는 판매자가 직접 추천해주는 방식이 효율이 더 높다고 합니다.
또 다른 문제점은 ‘필터버블(Filter Bubble)’이라는 현상입니다. 개인화, 초개인화에 따른 정보 제공으로 소비자의 혼란은 줄어들겠지만 좋아하는 것, 취향에 맞는 것만 보게 되면서 고정관념과 편견은 깊어지고 시야가 좁아질 수 있는 ‘정보 편식’이 나타날 수 있는 것입니다. 이런 ‘필터 버블’ 문제를 어떻게 해결할 수 있을까요? 개인화에 맞춰 다양성까지 존중할 수 있는 추천시스템의 개발이 가능할까요? 앞으로 추천시스템이 헤쳐가야 할 문제입니다.
비즈니스에 꼭 필요한 추천시스템이 궁금하시다면 아래 강의를 확인해보세요 🙂