你的朋友也在看！谷歌STUDY算法加持書單推薦系統，讓學生愛上閱讀

作者：新智元 2023-09-07 13:16:27

人工智能

Learning Ally是一家教育非營利組織，擁有一個針對學生的大型精選有聲讀物數字圖書館，非常適合構建社交推薦模型。這能使模型能夠從有關學生本地化社交群體的（如教室）實時信息中獲益。

開卷有益，是我們一直以來的認識。閱讀可以幫助人們提高自己的語言能力、學習到新的技能....

閱讀還能夠改善情緒，提高心理健康水平。經常閱讀的人有更豐富的常識以及對其他文化更深入的理解。

并且，有研究證實愉悅閱讀與學業成功相關。

但在信息爆炸的時代，線上與線下的閱讀資源都十分豐富。讀什么，就成為了一項艱巨的挑戰。

尤其是閱讀的內容既要匹配不同的年齡階段，又要引人入勝。

而推薦系統則是這個挑戰的解決方案。它能夠向讀者呈現相關的閱讀材料，并幫助他們保持閱讀的興趣。

推薦系統的核心是機器學習（Machine learning, ML），它被廣泛應用于構建各種類型的推薦系統中：從視頻到圖書，再到電商平臺等。

經過訓練的ML 模型可以根據用戶偏好、用戶參與度和推薦的項目單獨向每個用戶進行推薦，從而改善用戶體驗。

谷歌最新的研究提出了一種考慮到閱讀的社會性質（如教育環境）的有聲讀物內容推薦系統：STUDY算法。

由于一個人的同齡人目前正在閱讀的內容會對他們感興趣的閱讀內容有重大影響，因此，谷歌與Learning Ally進行了合作。

Learning Ally是一家教育非營利組織，擁有一個針對學生的大型精選有聲讀物數字圖書館，非常適合構建社交推薦模型。

這能使模型能夠從有關學生本地化社交群體的（如教室）實時信息中獲益。

STUDY算法

STUDY算法采用了將推薦內容問題建模為點擊率預測問題的方法。

其中模擬用戶與每個特定項目的交互概率取決于：

1）用戶和項目特征

2）該用戶的項目交互歷史序列。

之前的工作表明Transformer模型非常適合建模這個問題。

當單獨處理每個用戶時，模擬交互就成為了一個自回歸序列建模問題。

STUDY算法是通過這一概念框架對數據建模，然后對這個框架進行擴展的最終成品。

點擊率預測問題可以對個別用戶過去和未來的項目偏好之間的依賴關系進行建模，并且可以在訓練時學習用戶之間的相似性模式。

但有一個問題是，點擊率預測的方法無法對不同用戶之間的依賴關系進行建模。

為此，谷歌開發了STUDY模型，可以解決自回歸序列建模中無法對閱讀的社會性質進行建模的缺陷。

STUDY可以將多個學生在一個課堂上閱讀的書籍序列連接成一個序列，從而在一個模型中收集多個學生的數據。

但是，在用Transformer對這種數據表示進行建模時，需要仔細研究這種數據表征。

在Transformer中，注意力掩碼是控制哪些輸入可用于預測哪些輸出的矩陣。

在序列中使用所有先前的token來為輸出的預測提供信息的模式，會導致上三角形注意力矩陣，它一般會在因果解碼器中被發現。

然而，由于輸入進STUDY模型的序列不是按時間順序的，盡管它的每個組成子序列都是按時間順序，傳統的因果解碼器也不再適合這種序列。

在試圖預測每個token時,模型不允許注意力轉向序列中出現在它之前的每個token；其中一些token可能具有較晚的時間戳，并包含在部署時不可用的信息中。

圖片

因果解碼器中通常使用的注意力掩碼。每一列代表一個輸出，每一列代表一個輸出。矩陣條目在特定位置的值為1（顯示為藍色），表示模型在預測相應列的輸出時可以觀察到該行的輸入，而值為0（顯示為白色）則表示相反。

STUDY 模型以因果轉換器為基礎，將三角矩陣注意力掩碼替換為基于時間戳的靈活注意力掩碼，從而允許跨不同子序列的注意力。

與普通轉換器相比，STUDY 模型在一個序列中保持一個因果三角注意矩陣，并在不同序列中具有靈活的值，這些值取決于時間戳。

因此，序列中任何輸出點的預測都會參考相對于當前時間點過去發生的所有輸入點，無論它們是出現在序列中當前輸入點之前還是之后。

這一因果約束非常重要，因為如果在訓練時不執行這一約束，模型就有可能學會利用未來的信息進行預測，而這在現實世界的部署中是無法實現的。

圖片

(a)一個具有因果注意力的順序自回歸變換器，它可以單獨處理每個用戶；(b)一個等效的聯合前向傳遞，其計算結果與(a)相同；(c)通過在注意力掩碼中引入新的非零值（紫色顯示），允許信息在用戶間流動。為此，研究者允許預測以時間戳較早的所有交互為條件，而不論交互是否來自同一用戶

實驗

谷歌使用Learning Ally數據集來訓練STUDY模型，并使用多個基線進行比較。

團隊使用了自回歸點擊率轉換解碼器（稱之為「個人」）、k-近鄰基線（KNN）和可比較的社會基線——社會注意力記憶網絡（SAMN）。

他們使用第一學年的數據進行訓練，使用第二學年的數據進行驗證和測試。

團隊通過測量用戶實際交互的下一個項目，在模型的前n個建議中的時間百分比，來評估這些模型。

除了在整個測試集上對模型進行評估外，團隊還報告了模型在測試集的兩個子集上的得分，這兩個子集比整個數據集更具挑戰性。

可以觀察到，學生通常會與有聲讀物進行多次互動，因此，簡單地推薦用戶閱讀的最后一本書，就顯得微不足道。

因此，研究者將第一個測試子集稱為「非延續」，在這個子集中，我們只考察每個模型在學生與不同于前一次互動的書籍進行互動時的推薦性能。

另外，團隊還觀察到，學生們會重溫他們過去讀過的書，因此，將為每個學生推薦的書本限制在他們過去讀過的書本范圍內，就可以在測試集上取得很好的表現。

盡管向學生推薦他們過去最喜歡的書籍可能有一定的價值，但推薦系統的大部分價值還是來自于向用戶推薦新的、未知的內容。

為了衡量這一點，團隊在測試集的子集上對模型進行了評估，在這個子集上，學生們第一次與書目進行交互。我們將這個評估子集命名為「新子集」。

可以發現，「STUDY 」在幾乎所有評估中，都優于其他模型。

圖片

適當分組的重要性

STUDY算法的核心是將用戶分組，并在模型的單次前向傳遞中對同組的多個用戶進行聯合推斷。

研究人員通過一項消融研究，考察了實際分組對模型性能的重要性。

在提出的模型中，研究人員將同一年級和學校的所有學生進行分組。

然后試驗了由同一年級和同一學區的所有學生定義的分組，以及將所有學生歸入一個組中，并在每次前向傳遞時使用隨機子集的分組。

研究人員還將這些模型與「個人」模型進行了比較，以供參考。

研究發現，使用更本地化的小組更有效，即學校和年級分組優于學區和年級分組。

這支持了一個假設，即研究模式之所以成功，是因為閱讀等活動具有社會性：人們的閱讀選擇很可能與周圍人的閱讀選擇相關聯。

在不使用年級對學生進行分組的情況下，這兩種模式的表現都優于其他兩種模式（單一小組模式和個人模式）。

這表明，閱讀水平和興趣相似的用戶的數據有利于提高模型的性能。

最后，谷歌的這項研究是僅限于假定社交關系是同質的用戶群進行建模的。

參考資料：

https://ai.googleblog.com/2023/08/study-socially-aware-temporally-causal.html

責任編輯：武曉燕來源：新智元

推薦模型信息教育

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你的朋友也在看！谷歌STUDY算法加持書單推薦系統，讓學生愛上閱讀

STUDY算法

實驗

適當分組的重要性