引言 · ApacheCN 深度學習譯文集

# 引言推薦系統是針對消費者過度選擇的直觀防線。鑒于網絡上可用信息的爆炸性增長，用戶經常受到無數產品，電影或餐館的歡迎。因此，個性化是促進更好用戶體驗的基本策略。總而言之，這些系統在各種信息訪問系統中發揮著至關重要和不可或缺的作用，來促進業務和促進決策過程[69, 121]，并且在諸如電子商務和/或媒體網站等眾多網絡領域中普遍存在。通常，基于用戶偏好，項目特征，用戶-項目的過去交互以及諸如時間（例如，序列感知推薦器）和空間（例如，POI推薦器）數據的一些其他附加信息來生成推薦列表。推薦模型主要分為協同過濾，基于內容的推薦系統和基于輸入數據類型的混合推薦系統[1]。深度學習目前非常火。過去幾十年，深度學習（DL）在計算機視覺和語音識別等許多應用領域取得了巨大成功。學術界和工業界一直在競相將深度學習應用于更廣泛的領域，因為它能夠解決許多復雜的任務，同時提供最先進的結果[27]。最近，深度學習極大地改變了推薦架構，并為改進推薦器的性能帶來了更多機會。基于深度學習的推薦系統的最新進展，通過克服傳統模型的障礙和實現高推薦質量，獲得了顯著的關注。深度學習能夠有效地捕獲非線性和非平凡的用戶 - 項目關系，并且能夠將更復雜的抽象編碼為更高層中的數據表示。此外，它還從豐富的可訪問數據源（如上下文，文本和可視信息）中捕獲數據本身的錯綜復雜的關系。推薦系統中深度學習的普遍性。在行業中，推薦系統是增強用戶體驗和促進許多在線網站和移動應用的銷售/服務的關鍵工具[20, 27, 30, 43, 113]。例如，在Netflix上觀看的電影中有80% 來自推薦[43]，YouTube 的 60% 的視頻點擊來自主頁推薦[30]。最近，許多公司采用深度學習來進一步提高他們的推薦質量[20, 27, 113]。 Covington 等[27]提出了一種基于深度神經網絡的推薦算法，用于在YouTube上進行視頻推薦。 Cheng等 [20]提出了一個適用于Google Play的App推薦系統，具有廣而深的模型。 Shumpei等 [113]為雅虎新聞提供了基于RNN的新聞推薦系統。所有這些模型都經過了在線測試，并顯示出比傳統模型顯著的改進。因此，我們可以看到深度學習推動了工業推薦應用的顯著革命。近年來，基于深度學習的推薦方法的研究出版物數量呈指數級增長，為推薦系統研究中的深度學習的不可避免的普遍存在提供了有力證據。自2016年以來，前沿的推薦系統國際會議[RecSys](https://recsys.acm.org/) 開始定期組織用于推薦系統的[深度學習研討會](http://dlrs-workshop.org/) 。研討會旨在促進研究并鼓勵基于深度學習的推薦系統的應用。學術界和工業界的深度學習的成功，需要對成功的研究人員和從業人員進行全面的回顧和總結，以便更好地了解這些模型的優缺點和應用場景。本綜述與以前的綜述有何不同？在基于深度學習的推薦領域已經進行了大量研究。然而，據我們所知，很少有系統的回顧很好地描述了這個領域，并定位了現有的工作和當前的進展。雖然有些工作已經探索了建立在深度學習技術基礎上的推薦應用，并試圖將這一研究領域正式化，但很少有人試圖深入總結當前的努力或詳細說明該領域存在的開放性問題。本綜述旨在提供基于深度學習的推薦系統的當前研究的全面總結，來確定當前限制現實世界實施的開放性問題，并指出沿此維度的未來方向。在過去幾年中，已經發表了許多傳統推薦系統的綜述。例如，Su等 [138]提出了協同過濾技術的系統回顧；Burke 等 [8]提出了混合推薦系統的綜述；Fernandez-Tobias等 [40]和Khan等 [74]回顧了跨域推薦模型；以及其它。然而，基于深度學習的推薦系統缺乏廣泛的回顧。據我們所知，只有兩份相關的簡短綜述[7, 97]正式發表。 Betru等 [7]介紹了三種基于深度學習的推薦模型[123, 153, 159]，盡管這三部工作在這一研究領域具有影響力，但忽略了其他新興的高質量工作。 Liu 等 [97]回顧了13篇深度學習推薦的論文，并建議根據輸入（使用內容信息的方法和沒有內容信息的方法）和輸出（評級和排名）形式，對這些模型進行分類。然而，隨著新式研究工作的不斷出現，這種分類框架已不再適用，需要一個新的包容性框架來更好地理解這一研究領域。鑒于在推薦系統中應用深度學習的日益普及和潛力，系統綜述將具有很高的科學和實用價值。我們從不同的角度分析了這些工作，并對這一領域提出了一些新的見解。為此，超過100項研究入圍并列入本綜述。我們如何收集文件？在這次綜述中，我們收集了一百多篇相關論文。我們使用Google Scholar作為主要搜索引擎，我們還采用了數據庫Web of Science作為發現相關論文的重要工具。此外，我們篩選了大多數相關的頂級會議，如NIPS，ICML，ICLR，KDD，WWW，SIGIR，WSDM，RecSys等，以及其它，來了解最近的工作。我們使用的主要關鍵詞包括：推薦系統，推薦，深度學習，神經網絡，協同過濾，矩陣分解等。本綜述的貢獻。本綜述的目的是徹底回顧基于深度學習的推薦系統的進展的文獻。它提供了一個全景圖，讀者可以快速了解并深入了解基于深度學習的推薦領域。該綜述為推薦系統領域的創新奠定了基礎，并充分利用了該研究領域的豐富性。該綜述為對推薦系統感興趣的研究人員，從業人員和教育工作者提供服務，希望他們在選擇深層神經網絡來解決手頭的推薦任務時有一個粗略的指導方針。總之，本綜述的主要貢獻有三方面：（1）我們對基于深度學習技術的推薦模型進行了系統評價，并提出了一種分類方案來定位和組織當前的工作；（2）我們提供現有技術的概述和總結。（3）我們討論挑戰和開放性問題，確定本研究領域的新趨勢和未來方向，分享愿景，拓展基于深度學習的推薦系統研究的視野。本文的其余部分安排如下：第2節介紹了推薦系統和深度神經網絡的預備知識，我們還討論了基于深度神經網絡的推薦模型的優缺點。第3節首先介紹了我們的分類框架，然后詳細介紹了最新技術。第4節討論了挑戰和突出的開放研究問題。第5節總結了論文。 # 推薦系統和深度學習概述在我們深入本綜述的細節之前，我們先介紹一下推薦系統和深度學習技術相關的基本術語和概念。我們還討論了將深度神經網絡引入推薦系統的原因和動機。 ## 推薦系統推薦系統估計用戶對項目的偏好，并主動推薦用戶可能喜歡的項目[1, 121]。推薦模型通常分為三類[1, 69]：協同過濾，基于內容和混合推薦系統。協作過濾通過學習用戶和項目的歷史交互來做出推薦，無論是顯式（例如用戶的先前評級）還是隱式反饋（例如瀏覽歷史）。基于內容的推薦主要基于項目和用戶輔助信息的比較。可以考慮各種輔助信息，例如文本，圖像和視頻。混合模型是指整合了兩種或更多種推薦策略的推薦系統[8, 69]。假設我們有 ![](https://img.kancloud.cn/35/3e/353eb4dd01c6c90b42a68b1097547cf8_19x15.png) 個用戶和 ![](https://img.kancloud.cn/ed/09/ed09440d081d26c9f87783fc1a895732_16x15.png) 個物品，![](https://img.kancloud.cn/40/da/40da98fc126b3051b5647fb9316a2c1d_14x15.png) 表示交互矩陣和 ![](https://img.kancloud.cn/1c/ea/1cea0cdeeefc7e726228b130c170ebe5_14x19.png) 表示預測的交互矩陣。讓 ![](https://img.kancloud.cn/31/7a/317a9288960bf4735085d41c3c536a4c_22x18.png) 表示用戶 ![](https://img.kancloud.cn/5c/87/5c87b6660e8af1d54cf2cb5673748356_11x11.png) 對項目 ![](https://img.kancloud.cn/69/45/6945dae1f1cbaacf8725c629d0564d7f_7x15.png) 的偏好， ![](https://img.kancloud.cn/13/26/1326945d1c0265b78dae3631c257cc1e_22x27.png) 表示預測分數。同時，我們使用部分觀察到的向量（![](https://img.kancloud.cn/40/da/40da98fc126b3051b5647fb9316a2c1d_14x15.png) 的行） ![](https://img.kancloud.cn/0d/4a/0d4aa4c5c844d4275a4e32ef479ef2bf_141x34.png) 代表每個用戶 ![](https://img.kancloud.cn/5c/87/5c87b6660e8af1d54cf2cb5673748356_11x11.png) ，和部分觀察到的向量（![](https://img.kancloud.cn/40/da/40da98fc126b3051b5647fb9316a2c1d_14x15.png) 的列） ![](https://img.kancloud.cn/9c/15/9c15158d86d494026074705774409801_134x34.png) 代表每個項目 ![](https://img.kancloud.cn/69/45/6945dae1f1cbaacf8725c629d0564d7f_7x15.png) 。 ![](https://img.kancloud.cn/ed/cc/edcca5b761ea4999c6a1bec93d0379b3_15x16.png) 和 ![](https://img.kancloud.cn/91/93/9193320096566d223a0387b5b2101646_25x16.png) 表示觀察到的和未觀察到的交互集。我們用 ![](https://img.kancloud.cn/bc/ed/bced001806ef6b27976612523df088d6_78x32.png) 和 ![](https://img.kancloud.cn/06/6c/066c11a6eeac2c67b43db3cadabd47f0_76x32.png) 表示用戶和項目潛在因子。 ![](https://img.kancloud.cn/36/e2/36e20f9b065c78755ae376f20cd3cdc0_10x15.png) 是潛在因子的維度。此外，還可以考慮諸如時間戳之類的序列信息，來產生序列感知推薦。其他符號和表示將在相應章節中介紹。 ## 深度學習技巧深度學習通常被認為是機器學習的子領域。深度學習的典型定義的本質是它學習深層表示，即從數據中學習多層的表示和抽象。出于實際原因，我們將任何神經可微結構視為“深度學習” ，只要它使用隨機梯度下降（SGD）的變體優化可微目標函數。神經架構在監督和無監督學習任務中都取得了巨大的成功[31]。在本小節中，我們闡明了與此綜述密切相關的各種架構范式。 * 多層感知器（MLP）是前饋神經網絡，在輸入層和輸出層之間具有多個（一個或多個）隱層。這里，感知器可以采用任意激活函數，并不一定代表嚴格的二元分類器。 MLP可以被表示為非線性變換的堆疊層，學習分層特征表示。 MLP也被稱為通用近似器。 * 自編碼器（AE）是一種無監督的模型，試圖在輸出層重建其輸入數據。通常，瓶頸層（最中間層）用作輸入數據的顯著特征表示。有許多自編碼器變體，如去噪自編碼器，邊緣化去噪自編碼器，稀疏自編碼器，收縮自編碼器和變分自編碼器（VAE）[15, 45]。 * 卷積神經網絡（CNN）[45]是一種特殊的前饋神經網絡，具有卷積層和池化操作。它可以捕獲全局和局部特征，并顯著提高效率和準確性。它在處理具有網格狀拓撲的數據方面表現良好。 * 循環神經網絡（RNN）[45]適用于建模序列數據。與前饋神經網絡不同，RNN中存在循環和記憶，用于記住以前的計算。諸如長短期記憶（LSTM）和門控循環單元（GRU）網絡的變體通常在實踐中部署來克服消失的梯度問題。 * 受限玻爾茲曼機（RBM）是一個由可見層和隱層組成的雙層神經網絡。它可以很容易地堆疊為深度網絡。此處“受限”意味著可見層或隱層中沒有層內通信。 * 神經自回歸分布估計（NADE）[81, 152]是一種在自回歸模型和前饋神經網絡之上構建的無監督神經網絡。它是用于建模數據分布和密度的易處理且有效的估計器。 * 對抗網絡（AN）[46]是一個生成神經網絡，由鑒別器和生成器組成。通過在 minmax 游戲框架中相互競爭來同時訓練兩個神經網絡。 * 注意力模型（AM）是可微的神經架構，其基于輸入序列（或圖像）上的 soft content addressing 來操作。注意力機制通常無處不在，并且在計算機視覺和自然語言處理領域中被接受。然而，它也是深度推薦系統研究的新興趨勢。 * 深度強化學習（DRL）[106]。強化學習是在試錯法的范式下運作的。整個框架主要由以下組成部分組成：智能體，環境，狀態，行動和獎勵。深度神經網絡和強化學習之間的結合形成了DRL，它已經在諸如游戲和自動駕駛汽車等多個領域實現了人類水平的表現。深度神經網絡使智能體能夠從原始數據中獲取知識，并獲得有效的表示，而無需手工制作的特征和域的啟發式。請注意，每年都會出現許多先進的模型，這里我們只簡要列出一些重要的模型。對細節或更高級模型感興趣的讀者可以參考[45]。 ## 為何推薦深度神經網絡？在深入了解最新進展的細節之前，了解將深度學習技術應用于推薦系統的原因是有益的。很明顯，已經在短短幾年內提出了許多深度推薦系統。這個領域確實充滿了創新。在這一點上，很容易質疑這么多不同架構的需求，和/或甚至神經網絡對問題域的效用。沿著相同的切線，很容易提供一個明確的理由，說明每個架構為什么提出以及它最有利的場景。總而言之，這個問題與任務，域和推薦方案的問題高度相關。神經架構最吸引人的特性之一是它們（1）端到端可微和（2）提供適合輸入數據類型的合適的歸納偏差。因此，如果模型可以利用固有結構，那么深度神經網絡應該是有用的。例如，CNN和RNN長期利用視覺（和/或人類語言）中的內在結構。類似地，會話或點擊日志的順序結構非常適合于循環/卷積模型[56, 143, 175]提供的歸納偏差。此外，深層神經網絡也是復合的，因為多個神經積木可以組成一個（巨大的）可微函數并且端到端訓練。這里的關鍵優勢是處理基于內容的推薦。在對Web上的用戶/項目建模時，這是不可避免的，其中多模態數據是常見的。例如，當處理文本數據（評論[202]，推文[44]等），圖像數據（社交帖子，產品圖像），CNN / RNN成為不可或缺的神經積木。這里，傳統的替代方案（設計模態特定的特征等）變得明顯不那么有吸引力，因此，推薦系統不能利用聯合（端到端）表示學習。從某種意義上說，推薦系統領域的發展也與相關模式（如視覺或語言社區）的最新研究緊密結合。例如，為了處理評論，人們將不得不執行昂貴的預處理（例如，關鍵短語提取，主題建模等），而較新的基于深度學習的方法能夠端到端地提取所有文本信息[202]。總而言之，深度學習在這方面的能力可以被視為范式轉換，如果沒有這些最新進展，在統一的聯合框架[197]中表示圖像，文本和交互是不可能的。僅僅與交互設定（即矩陣補全或協作排序問題）有關，這里的關鍵思想是，當存在大量復雜性或存在大量訓練實例時，深度神經網絡是合理的。在[53]中，作者使用MLP來近似交互函數，并且比MF等傳統方法顯示出合理的性能提升。雖然這些神經模型表現更好，但我們還注意到，當使用基于動量的梯度下降，在僅有交互的數據[145]上訓練時，標準機器學習模型（如BPR，MF和CML）表現相當好。但是，我們也可以將這些模型視為神經架構，因為它們利用了最近的深度學習進展，例如Adam，Dropout 或 Batch Normalization [53, 195]。同樣很容易看出，傳統的推薦算法（矩陣分解，分解機等）也可以表示為神經/可微結構[53, 54]，并使用Tensorflow或Pytorch等框架進行有效訓練，在 GPU 上訓練并啟用自動微分。因此，在當今的研究環境（甚至是工業）中，完全沒有理由不使用基于深度學習的工具來開發任何推薦系統。概括地說，我們總結了基于深度學習的推薦模型的優勢，讀者在嘗試將它們用于實踐時可能會記住這些模型。 * 非線性變換。與線性模型相反，深度神經網絡能夠利用非線性激活（例如relu，sigmoid，tanh等）對數據中的非線性建模。此屬性使得捕獲用戶和項目的復雜交互模式成為可能。諸如矩陣分解，分解機，稀疏線性模型的常規方法基本上是線性模型。例如，矩陣分解通過線性組合用戶和項目的潛在因子來模擬用戶 - 項目交互[53]；分解機是多元線性族的一員[54]；顯然，SLIM是一個具有稀疏性約束的線性回歸模型。作為許多傳統推薦系統的基礎，線性假設過于簡單，并將極大地限制其建模表現力。眾所周知，神經網絡能夠通過改變激活選項和組合，來以任意精度近似任何連續函數[58, 59]。此屬性可以處理復雜的交互模式并精確反映用戶的偏好。 * 表示學習。在從輸入數據中學習潛在的解釋因素和有用的表示方面，深度神經網絡是有效的。通常，在實際應用中可以獲得項目和用戶的大量描述性信息。這些信息的利用提供了一種方法來促進我們對項目和用戶的理解，從而產生更好的推薦系統。因此，將深度神經網絡應用于推薦模型中的表示學習是一種自然的選擇。使用深度神經網絡來輔助表示學習的優點有兩方面：（1）它減少了手工特征設計的工作量。特征工程是一項勞動密集型工作，深度神經網絡能夠在無監督或監督的方法中自動從原始數據中學習特征；（2）它使推薦模型能夠包括異構內容信息，例如文本，圖像，音頻甚至視頻。深度學習網絡在多媒體數據處理方面取得了突破，并展示了來自各種來源的表示學習的潛力。 * 序列建模。深度神經網絡已經在許多序列建模任務上展示了充滿希望的結果，例如機器翻譯，自然語言理解，語音識別，聊天機器人等等。 RNN和CNN在這些任務中發揮著關鍵作用。 RNN使用內部存儲器狀態來實現這一點，而CNN使用隨時間滑動的過濾器來實現這一點。它們在序列結構的數據挖掘中具有廣泛的適用性和靈活性。序列信號建模是挖掘用戶行為和項目演變的時間動態的重要主題。例如，下個項目/籃子的預測和基于會話的推薦是典型的應用。因此，深度神經網絡完美契合這種序列模式挖掘任務。 * 靈活性。深度學習技術具有很高的靈活性，特別是隨著許多流行的深度學習框架的出現，如[Tensorflow](https://www.tensorflow.org/) ，[Keras](https://keras.io/) ，[Caffe](http://caffe.berkeleyvision.org/) ，[MXnet](https://mxnet.apache.org/) ，[DeepLearning4j](https://deeplearning4j.org/) ，[PyTorch](https://pytorch.org/) ，[Theano](http://deeplearning.net/software/theano/)等。這些工具大多以模塊化方式開發，并具有積極的社區和專業支持。良好的模塊化使開發和工程更加高效。例如，很容易將不同的神經結構組合起來，來形成強大的混合模型，或者用其他模塊替換一個模塊。因此，我們可以輕松地構建混合和復合推薦模型，來同時捕獲不同的特征和因素。 ## 論潛在的限制使用深度學習進行推薦是否有任何缺點和限制？在本節中，我們的目標是解決幾個常見的反對使用深度學習進行推薦系統研究的論點。 * 可解釋性。盡管取得了成功，但眾所周知深度學習表現為黑盒子，提供可解釋的預測似乎是一項非常具有挑戰性的任務。反對深度神經網絡的一個常見論點是，隱藏的權重和激活通常是不可解釋的，限制了可解釋性。然而，隨著神經注意力模型的出現，這種擔憂通常得到了緩解，并為深度神經模型鋪平了道路，這些神經模型具有更高的可解釋性[126, 146, 178]。雖然解釋單個神經元仍然對神經模型（不僅在推薦系統中）構成挑戰，但是現有的最先進模型已經能夠在一定程度上解釋，從而能夠提供可解釋的推薦。我們在公開問題部分更詳細地討論了這個問題。 * 數據要求。第二個可能的限制是，已知深度學習是數據饑餓的，因為它需要足夠的數據才能完全支持其豐富的參數。然而，與標記數據稀缺的其他領域（例如語言或視覺）相比，在推薦系統研究的背景下獲取大量數據相對容易。上億規模的數據集不僅在工業中很常見，而且作為學術數據集發布。 * 廣泛的超參數調整。反對深度學習的第三個成熟論點是需要進行廣泛的超參數調整。然而，我們注意到超參數調整不是深度學習的唯一問題，而是一般的機器學習（例如，正則化因子和學習率同樣必須針對傳統的矩陣分解等進行調整）。然而，在某些情況下，深度學習可能會引入額外的超參數。例如，最近的工作[145]，傳統度量學習算法[60]的注意力擴展僅引入了單個超參數。