추천 - 협업 필터링의 한계

2021. 9. 10. 12:36algorithm/Supervised Learning

협업 필터링이란 대규모의 기존 사용자 행동 정보를 분석하여 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이다. 가장 일반적인 예는 온라인 쇼핑 사이 트에서흔히볼수있는‘이상품을구매한사용자가구매한상품들’서비스이다.예를들어‘라면’ 을 구입한 사용자가 ‘생수’를 구입한 경우가 많으면 ‘라면’을 구입하는 구매자에게 ‘생수’를 추천하 는 경우이다.
이 알고리즘은 결과가 직관적이며 항목의 구체적인 내용을 분석할 필요가 없다는 장점이 있 다. 이 경우는 라면과 생수가 식품인지 아닌지, 서로 같이 사용되어야 하는 관계인지 분석할 필요 가 없다. 다만 사용자가 두 제품을 같이 구매했다는 기록을 바탕으로 새로운 사용자에게 추천한 다. 이러한 전략을 사용하는 경우, 비슷한 패턴을 가진 사용자나 항목을 추출하는 기술이 핵심적 이며 행렬분해(Matrix Factorization), k-최근접 이웃 알고리즘 (k-Nearest Neighbor algorithm; kNN) 등의 방법이 많이 사용된다.
위의 예에서 나타나듯, 협업 필터링을 위해서는 반드시 기존 자료를 활용해야 한다. 하지만 이러한 자료들을 사용자에게 직접 요구해야만 하는 것은 아니다. 협업 필터링은 사용자들이 자 연스럽게 사이트를 사용하면서 검색을 하고, 항목을 보고, 구매한 내역을 사용할 수 있는 장점이 있다.세계최대의온라인소매업체인아마존이이러한전략을사용한바있으며,유명한음악서 비스인 라스트에프엠(Last.fm)도 사용자의 음악 청취 행태를 바탕으로 음악을 추천하고 있다. 페 이스북이나 링크드인도 사용자와 친구들의 유사성을 바탕으로 새로운 친구나 그룹을 추천한다.
그러나 협업 필터링은 몇 가지 단점이 있다. 먼저 콜드 스타트(Cold Start)라고 일컬어지는 문 제이다. 협업 필터링은 기존의 자료가 필요한바, 기존에 없던 새로운 항목이 추가되는 경우는 추 천이곤란해진다.예를들어음악서비스의경우,신곡이발표되면이를추천할수있는정보가쌓 일 때까지 추천이 어려워지는 것이다. 콜드 스타트란 말 그대로 ‘새로 시작할 때 곤란함’을 의미한 다.협업필터링외에위키같은협업시스템에서초기정보부족의문제점을일컫기위해사용되기도 한다.

협업 필터링: 사용자 A와 사용자 B가 사과와 오렌지를 같이 구매했으므로, 사과를 산 사용자 C에게 오렌지를 추천한다.
BROADCASTING TREND & INSIGHT
방송 트렌드 & 인사이트 2016. 04+05 VOL. 05 20
SPECIAL ISSUE
두 번째, 협업 필터링은 계산량이 비교적 많은 알고리즘이므로 사용자 수가 많은 경우 효율 적으로 추천할 수 없는 단점이 있다. 앞서 간단하게 소개한 행렬분해의 경우, 사용자 수가 커짐에 따라 계산이 몇 시간에서 며칠까지 걸리는 경우가 종종 생긴다.
마지막으로 롱테일(Long tail) 문제이다. 시스템 항목이 많다 하더라도 사용자들은 소수의 인 기 있는 항목에만 관심을 보이기 마련이다. 따라서 사용자들의 관심이 적은 다수의 항목은 추천 을 위한 충분한 정보를 제공하지 못하는 경우가 많다. 이러한 비대칭적 쏠림 현상이 일반적이라 는 사실은 크리스 앤더슨(Chris Anderson)이나 클레이 셔키(Clay Shirky) 등이 일찍이 밝힌 바 있 다.다시말해추천시스템이관리하는항목이많은경우,협업필터링은한계가있을수있다.