雅虎面向研究人員發布大規模機器學習數據集
據外媒報道,日前,雅虎推出了一個全新的“雅虎新聞推薦(Yahoo News Recommendation)”數據集,它被稱為是有史以來對外公布***的機器學習數據集。雅虎表示,這套數據集主要針對學術研究社團推出,這樣他們在研究中再也不需要為無法獲得大規模數據集而發愁了。
據悉,公開的數據集包括了1100億個事件,其在未壓縮的狀態下總容量達13.5TB。
研究人員可以在數據集中找到匿名用戶新聞交互數據等數據,這些數據則都是在去年早幾個月從2000萬名用戶那里收集得到。
在Yahoo News Feed數據集中有來自用戶與雅虎多個不同版塊的互動數據,如雅虎電影、雅虎新聞、雅虎金融等。
另外,雅虎還在這套數據集中添加了一些人口分布數據,如性別、年齡及地理位置等。雅虎在一份聲明中說道:“我們的目標是在大規模機器學習和推薦系統中促進獨立研究的發展,并還要幫助在工業和學術研究之間創造一個公平競爭的環境。