基于內容的推薦算法 · 機器學習 / 推薦系統 / 神經網絡

[TOC] ## **1. 簡介** * **基于內容的推薦算法（Content-Based Recommendations，CB）** 非常古老，應該是最早被使用的推薦算法，雖是一個年代久遠的算法，但即便放在深度學習十分火熱的當下，基于內容的推薦算法依然被工業界廣泛使用，足以證明其具有不可替代的優勢，也經受了時間的檢驗。 * 基于內容的推薦算法最早主要是應用在信息檢索系統當中，所以很多信息檢索及信息過濾里的方法都能用于基于內容的推薦中。而用于個性化推薦領域的內容推薦，本質上就是一個包裝成推薦系統的信息檢索系統。 * 工業界中成熟的推薦系統往往是多個推薦算法策略的組合使用，因此基于內容的推薦很少會獨立支撐整個推薦系統，但通常一個復雜的推薦系統很可能是從基于內容推薦成長起來的，基于內容的推薦系統是一個推薦系統的孩童時代。 ## **2. 基本思路** * **根據用戶過去喜歡的物品，為用戶推薦和他過去喜歡的物品相似的物品。這個過程中最重要的是通過用戶的歷史行為來學習用戶的偏好，刻畫出用戶畫像，然后通過相似性度量找出與用戶偏好最接近的 N 個物品。** * 舉個簡單的例子：在京東上購物的小伙伴們應該都知道，每當你進入任何一個物品頁面的時候都會有一個 “猜你喜歡” 的欄目，這時候他就會根據你經常購買的物品給你推薦相似的物品。例如對我來說：我經常購買互聯網類書籍，所以它就會給我推薦類似的書籍（當然這里只是舉個例子，京東的推薦算法肯定不可能那么單一，但是可以肯定的是他一定會用到最基礎的內容推薦算法）。 ## **3. 架構流程** * 一個完整的基于內容的推薦系統架構如下圖所示： * ![UTOOLS1594975799626.png](http://yanxuan.nosdn.127.net/cf001b376339904715c255c767a07ab3.png) 主要流程說明： * **物品表示（Item Representation）**：為每個 item 抽取出一些特征（也就是 item 的 content 了）來表示此 item。 * **用戶偏好學習（Profile Learning）**：利用一個用戶過去喜歡（及不喜歡）的 item 的特征數據，來學習出此用戶的偏好特征（profile）； * **生成推薦列表（Recommendation Generation）**：通過比較上一步得到的用戶 profile 與候選 item 的特征，為此用戶推薦一組相關性最大的 item。舉個例子說明前面的三個步驟。隨著今日頭條的崛起，基于內容的文本推薦就盛行起來。在這種應用中一個 item 就是一篇文章。 * 1. 第一步，我們首先要從文章內容中抽取出代表它們的屬性。常用的方法就是利用出現在一篇文章中的詞來代表這篇文章，而每個詞對應的權重往往使用信息檢索中的 TF-IDF 來計算。利用這種方法，一篇抽象的文章就可以使用具體的一個向量來表示了。 * 2. 第二步，根據用戶過去喜歡什么文章來產生刻畫此用戶喜好的特征向量了，最簡單的方法可以把用戶所有喜歡的文章對應的向量的平均值作為此用戶的特征向量。比如用戶經常在今日頭條閱讀技術科技相關的文章，那么今日頭條的算法可能會把用戶偏好特征中的 “互聯網”、“大數據”、“[機器學習](http://lumingdong.cn/category/tech/ml "機器學習技術文章")”、“數據挖掘” 等關鍵詞的權重設置的比較大。 * 3. 第三步，當用戶登錄或刷新頭條客戶端的時候，推薦系統會根據用戶 ID 獲取到相應的用戶特征，然后利用內容推薦算法與未讀的較新文章進行相似度計算（相似度的衡量可以用余弦相似度），然后取相似度最大的前 N 個篇文章作為推薦結果返回給用戶的推薦列表中。 ## **4. 相關算法** 本小節，我們將詳細介紹各個流程的細節以及各個環節所涉及的相關算法。 ### **4.1 物品表示（Item Representation）** * 物品表示，用更形象的說法是**物品畫像（Item Profile）**的構建，是相對于**用戶畫像（User Profile）**來說的。不管是物品畫像的構建，還是用戶畫像的構建，有一個非常重要的步驟，那就是內容的挖掘和分析。 * 內容的挖掘和分析實際上是基于內容的推薦系統最關鍵的一個步驟，相當于機器學習任務中特征工程的環節，實際上，基于內容推薦算法中所謂的 “內容”，表現在結構化數據中，就是指想盡各種辦法提取出來的關鍵特征，在數據資源固定的情況下，特征提取的質量直接影響推薦效果的好壞。因此，**基于內容的推薦，最重要的不是推薦算法，而是內容挖掘和分析。** 內容挖掘越深入，哪怕早期推薦算法僅僅是非常硬的規則，也能取得不俗的效果。隨著內容分析的逐步深入，能抓住的用戶群體就越細致，推薦的轉化率就越高，用戶對產品的好感度也就增加了。舉個例子，比如短視頻的推薦，內容挖掘由淺至深可能有以下幾個過程，推薦效果也會更加精細化： * 1. 如果短視頻本身沒有任何結構化信息，如果不挖掘內容，那么除了強推或者隨機小流量，沒有別的合理曝光邏輯了； * * 2. 如果對視頻的文本描述，比如標題等能夠有內容分類，比如是娛樂類，那么對于喜歡娛樂的用戶來說就很合理； * * 3. 如果能夠進一步分析文本的主題，那么對于類似主題感興趣的用戶就可能得到展示； * 4. 如果還能識別出內容中主角是吳亦凡，那就更精準鎖定一部分用戶了； * 5. 如果再對內容本身做到嵌入分析，那么潛藏的語義信息也全部抓住，更能表達內容了。 * 既然是特征工程，那么前置預處理必不可少，因此要想物品特征做好，需要做好 “抓（豐富內容庫，提高推薦多樣性）、洗（洗掉垃圾內容，保留有用信息）、挖（挖掘有用信息）、算（計算相關性，確定篩選合理屬性特征）” 四門功課。 * **內容挖掘和分析過程中，挖掘側重于信息的探索和發現，分析側重于信息的提煉和轉化。** 在這里，**內容分析往往是指關鍵詞的提取，涉及非結構文本內容的結構化處理**。我們拿到的文本，常常是自然語言描述的，也就是 “非結構化” 的，為了便于計算機處理和計算，把對非結構化的文本內容的處理簡化為向量空間中的向量運算，這個過程常常伴隨著文本特征提取。向量化的表示方法也是最早來自于信息檢索系統，稱為向量空間模型（VSM：Vector Space Model）。 #### **4.1.1 文本內容的結構化算法** * 非結構文本內容的結構化處理以及文本特征提取，可用的算法和模型眾多，各有特點，大都屬于 NLP（自然語言處理）領域，因這部分內容相對獨立，我整理到了另一篇文章《[文本內容分析算法](https://lumingdong.cn/text-content-analysis-algorithms.html "文本內容分析算法")》，請移步參考。 * 最后我們說說物品畫像構建結束后的最終產物： * 結構化內容庫 * * 物品結構化的內容庫，最重要的用途是結合用戶反饋行為去學習用戶畫像（用戶對物品的偏好特征）。 * 內容分析模型 * * 在內容結構化處理過程中，可能會用到多種模型來實現，比如分類器模型、主題模型、實體識別模型、嵌入模型等，這些模型在之后的場景中依然可堪當大用，比如當新的物品剛剛進入時，需要實時地被推薦出去，這時候可用這些模型對新物品的內容信息進行實時分析，提取結構化內容，之后便可直接與舊物品一樣毫無差別地進入推薦候選列表，獲得了推薦和曝光機會，很好地解決了新物品的冷啟動問題。 ### **4.2 用戶偏好學習（Profile Learning）** * 相對于物品畫像的說法，這個過程實際上就是用戶畫像的構建（User Profile）了，用戶畫像這個詞相比物品畫像來說更加被廣為流傳，一些大廠內部也習慣把用戶畫像簡稱 UP。實際上個性化推薦系統中的用戶畫像，并不是單純的人口統計學信息構建的標簽云，還有一些特征可能是一些抽象的隱含語義，無法被人直觀理解，因為它不是給人看的，而是給機器看的。**用戶畫像并不是推薦系統的目的，而是在構建推薦系統的過程中產生的一個關鍵環節的副產品。** 一個推薦系統來到這個世界上，它只有一個使命，就是要在用戶（User）和物品（Item）之間建立連接。內容的挖掘和分析就是為了更好地識物斷人，從而更高效的完成用戶與物品之間的對接。而特征學習就是完成連接的關鍵步驟。 **用戶畫像由兩個部分構成，一部分是對用戶端內容挖掘分析后的用戶的屬性特征，另一部分是根據用戶行為數據統計或學習到的對物品端結構化屬性的偏好度量。** 用戶端的內容分析一般可以從人口統計學信息入手（如性別、年齡、婚姻狀況、職業等），還可以對用戶的個人簽名、發表的評論、動態、日記等內容進行分析提煉關鍵特征。 用戶對物品的偏好特征是基于內容推薦的重要一環，這個過程體現了基于內容推薦的核心思想，也就是通過用戶的歷史行為來了解用戶的興趣偏好。此時我們已經拿到了用戶喜歡的多個物品的向量化表示，那么，如何計算用戶的喜好特征呢？相關的算法有很多，主要分非機器學習算法和機器學習算法。 #### **4.2.1 平均法** * 這是最簡單的方法，基于統計直接把用戶所有喜歡的物品對應的向量的平均值作為此用戶的偏好特征向量。用公式表示為： ![UTOOLS1594977592942.png](http://yanxuan.nosdn.127.net/7f8ca89bb6a16d9659cff1f329d90a8f.png) #### **4.2.2 時間衰減** * 在某些推薦場景下，會考慮到時間效應，用戶的興趣遷移比較快，其中的某個興趣點可能會隨著時間變化不斷衰減，因此在計算用戶偏好特征的時候會增加時間因子，可用如下公式計算： ![UTOOLS1594977643047.png](http://yanxuan.nosdn.127.net/46de8c51ee7c15035d4e906c292bca23.png) #### **4.2.3 Rocchio算法** * Rocchio 算法是信息檢索中處理相關反饋（Relevance Feedback）的一個著名算法。比如你在搜索引擎里搜 “蘋果”，當你最開始搜這個詞時，搜索引擎不知道你到底是要能吃的水果，還是要不能吃的蘋果，所以它往往會盡量呈現給你各種結果。當你看到這些結果后，你會點一些你覺得相關的結果（這就是所謂的相關反饋了）。然后如果你翻頁查看第二頁的結果時，搜索引擎可以通過你剛才給的相關反饋，修改你的查詢向量取值，重新計算網頁得分，把跟你剛才點擊的結果相似的結果排前面。比如你最開始搜索 “蘋果” 時，對應的查詢向量是 {“蘋果” : 1}。而當你點擊了一些與 Mac、iPhone 相關的結果后，搜索引擎會把你的查詢向量修改為 {“蘋果” : 1, “Mac” : 0.8, “iPhone” : 0.7}，通過這個新的查詢向量，搜索引擎就能比較明確地知道你要找的是不能吃的蘋果了。Rocchio 算法的作用就是用來修改你的查詢向量的：{“蘋果” : 1} –> {“蘋果” : 1, “Mac” : 0.8, “iPhone” : 0.7}。 在內容推薦中，我們可以類似地使用 Rocchio 算法來獲得用戶的偏好特征： ![UTOOLS1594977759269.png](http://yanxuan.nosdn.127.net/f2db530d704280ae333f4921ab8ecc62.png) * 從上式可以看出，其實 Rocchio 算法和平均法很類似，只是多了負反饋的部分，并分別給了兩個調節權重實現靈活調節。另外，Rocchio 算法還有一個好處是，可以根據用戶的反饋實時更新，其更新代價很小，非常適合短期需求場景。 上述三種非機器學習方法，都是先通過歷史行為數據統計計算出用戶偏好特征，然后再與候選物品對應的屬性特征一一計算相似度，再按照相似度打分進行排序推薦。這種特征學習方法得到的是用戶的平均偏好特征，因此推薦精度可能沒那么好，不過好處也有，那就是算法簡單可快速實現、快速上線，還可以對用戶的偏好特征進行實時更新。 #### **4.2.4 機器學習算法** * 如果細心的話，你會發現非機器學習算法只用到用戶的偏好特征就能進行相似度計算，然后進行召回推薦了，而用戶畫像的另一部分即用戶本身的屬性特征，其實更多用在機器學習算法中，這樣可以提高推薦精度。 機器學習算法更加強調目標思維，通常會把推薦問題轉化為有監督的分類問題。 一種最典型的場景：提高某種行為的轉化率，如點擊、收藏、轉發等。那么標準的做法是：收集這類行為的日志數據，轉換成訓練樣本，訓練預估模型。 每一條樣本由兩部分構成：一部分是特征，包含用戶端的畫像內容，物品端的結構化內容，可選的還有日志記錄時一些上下文場景信息，如時間、地理位置、天氣、設備等等，另一部分就是用戶行為，作為標注信息，包含 “有反饋” 和 “無反饋” 兩類。 用這樣的樣本訓練一個二分類器，**常用模型是對數幾率回歸（Logistic Regression）和梯度提升樹（GBDT）或者兩者的結合。在推薦匹配時，預估用戶行為發生的概率，按照概率排序。這樣更合理更科學，而且這一條路可以一直迭代優化下去。** 關于 LR 和 GBDT，可參考我之前寫的文章《[Logistic 回歸](https://lumingdong.cn/logistic-regression.html)》和《[集成學習](https://lumingdong.cn/ensemble-learning.html)》。 需要注意的是，**采用機器學習思路訓練預估模型，必須得有大量的用戶行為數據做保證**。