這就是您在數據科學中獲得數據的方式
數據科學已經發展。 這2000萬個數據集就是證明。

(Er, wrong Data search tool.)
我最近最喜歡的Google搜索系列產品之一是數據集搜索。 是的,你聽到的是對的。 您可以像搜索圖像一樣搜索數據集!
您現在可以像搜索圖像一樣搜索數據集!

You can play with Dataset Search here.
數據集搜索如何評價公眾的數據素養
如果沒有人使用Google的垂直搜索引擎(如Google Images或Google Scholar),它們將不會持續很長時間,因此它們的種類告訴您人們傾向于在互聯網上尋找什么的一些信息。 圖片,視頻和新聞不足為奇。 但是數據集? 您的提示是,不僅要為遙遠的冰屋中的三位孤立的教授使用數據集。 好大 …而且越來越大。
有什么收獲? 沒有一個。 這實際上與使用Google圖片或Google學術搜索進行搜索相同,只是針對數據集。 當前已建立索引并可以使用超過2000萬(!)數據集……并且該索引正在快速增長。
今天,您可以輕松觸及2000萬個數據集……明天還會有更多。
現在您已經知道它的存在,您可以在這里試用它,也可以繼續討論"數據集搜索"的工作原理以及它對數據科學專業和整個人類的意義。

我最近的數據集搜索會話的屏幕截圖。 早在我讀研究生時,我就會毫無顧慮地尋找有關在何處乞求訪問此類數據的線索。 (從字面上看,這是我們要做的事情:寫一封長長的電子郵件,懇求其他實驗室回應,通常無濟于事。請耐心等待新方法的簡易性。)
加速分析的一場革命
Analytics(分析)是數據科學的一部分,旨在迅速激發靈感。 與統計或機器學習不同,分析的最高優點是速度。 (為安全起見,優秀的分析人員可避免在得出新數據之前就得出結論。)
更快地訪問數據可為您提供更強大的分析功能。
您知道容易找到數據集時會得到什么嗎? 更快的分析! 數據集搜索代表了您所有專業分析師和數據科學家的不可思議的速度提升。 (但是,如果您有認真對待靈感的危險,請務必謹慎地采用統計方法進行跟進。)
是的,但是真正的收獲是什么?
如果您是在一個數據集非常稀有,珍貴并且經常由教授或數據提供者策劃的世界中長大的,就像我們大多數人一樣! —您可能會出現一些無意識的偏見:您假設提供數據的人應對數據質量負責(并且可能在某處藏了一兩個博士學位)。 如果您主要是在學習或科學的背景下使用數據集,則可能會給人一種印象,即數據集在到達您之前就受到了精心的按摩。
現實生活中的數據科學是一個叢林,而不是您的教授策劃的神圣空間。
暫時擱置這一偏見,然后考慮另一種偏見:外行人之間數據崇拜的毒性作用。 任何傾向于用大寫" D"表示數據的人都可能會認為,以結構化形式打包的所有信息都是有用且真實的。 嘿,這不是魔術。 不要相信您閱讀的所有內容,也不要相信每個數據集。 在此處了解有關數據性質和數據崇拜的更多信息。
如果您過著大多數為您提供數據的人享有聲譽的生活,并且/或者被教導您崇拜數據和科學,那么您將感到震驚。 你猜怎么了! 數據集可能是一堆結構化的垃圾。 可能會壞掉。 它可以彌補, 可能是60億個零。 可能什么都沒有。 就像文字一樣!
"如果是寫在書上,那一定是真的……"
說到文字:"如果是寫在書上,那一定是真的……"對嗎? 錯誤! 更糟糕的是:"如果是在網上寫的,那一定是真的……"我看到你剛剛拉過的臉,我很喜歡。 好。 您對此表示懷疑。 你應該。 現在,"如果它寫在數據集中,那一定是真的……"

A book! It must be true.
那里有很多垃圾,因為任何人都可以寫他們想要的東西。 與其相信它, 相反,您需要花一點時間來考慮數據源。 很好,因為這種習慣也將使您在數據領域中保持安全。
如果您習慣于信任數據而不是書面數據,請當心。
您可能有這種習慣,而沒有意識到。 不要將數據視為大寫字母D的縮寫。 重新定向您的街頭網絡習慣,即您在搜索Google圖片或整個網絡時經常使用的習慣。 您知道,當您問得好時,Google不會擁有或編輯這些貓圖片或它提供的隱形藥水配方。 (您知道那些隱形藥水是行不通的,對嗎?)您知道質量會有所不同,并且要由您來認真考慮一下來源,然后再相信所有閱讀內容。 您知道互聯網上有各種各樣的東西,而且您已經很容易受到欺騙。 好吧,主要是。 即使是我們最好的人,也偶爾會點擊那些"一個怪誕的把戲"鏈接或古怪的新聞報道。
如果您將通常的街頭互聯網搜索懷疑度應用于數據集搜索,則不會有任何收獲。
像對待任何其他Internet搜索結果一樣對待Dataset Search結果。 該工具將幫助您大海撈針,但您需要仔細檢查貓所拖入物體的質量。
但是,如果要在質量各異的巨大可搜索的聚寶盆貓圖片和3張精美策劃的貓圖片的小相冊之間進行選擇,我會每天選擇前者。 (嗯,我實際上會選擇這兩個,因為我很貪婪……您也可以。這些搜索工具沒有一夫一妻制。)
互聯網主要是垃圾郵件
并非所有事物都對您有好處。 也就是說,Google會竭盡全力打擊垃圾郵件并優先考慮合法結果。 是的,人們會把垃圾數據集放到那里來吸引您的注意力,是的,我們將其排名以嘗試為您提供優質的服務。 就像常規搜索一樣。 但是您不應該期望這些東西是完美的。
要使您的數據集可搜索,只需將schema.org中的元數據添加到描述數據集的每個網頁上。
任何人都可以做到,就像任何人都可以寫博客文章一樣。 可能是垃圾(也許此博客文章是……呃,哦),所以請認真考慮來源。
如果您要使用自由數據,則需要保持智慧。 不要相信您閱讀的所有內容。
它是如何工作的,schema.org是什么?
schema.org的構想由一個財團于2011年提出:Google,Bing,Yandex,Microsoft和Yahoo。 他們厭倦了猜測已爬取網頁的內容,因此他們決定創建一個通用詞匯表,供提供者用來告訴他們什么。 該詞匯表已嵌入HTML中,以指示哪些位描述了事件,地址,配方等。 它是一個描述不同類型信息的小模式(因此得名!)。 當您選擇將schema.org添加到頁面并告訴它頁面包含數據集時,該數據集將有資格顯示在"數據集搜索"結果中。
數據提供商使用schema.org告訴我們他們的頁面上有一個數據集,并描述了一些有關它的元數據。
這不是Google特有的魔法; 這是任何人都可以貢獻的開放社區標準。 許多公司已經在后臺使用了多年。 Google專有的功能是您可以使用"數據集搜索"搜索這些數據集的新功能。 我們讓數據提供商使用schema.org告訴我們他們的頁面上有一個數據集,并描述一些有關它的元數據。 數據集搜索與常規搜索非常相似,但是結果僅限于聲稱擁有數據集的頁面。 簡單實用。
如何參與共享數據
當數據僅來自負責精心策劃每個人的少數大型提供商(例如政府和大學)時,較小的參與者就沒有共享它們的途徑。
想象一下這種情況:一群高中女生正在從事課外機器人項目。 他們正在收集大量數據,這些數據可能對具有相似愛好的人非常有用。 他們甚至愿意分享它(他們多么友好)。 他們已經在高中網站上添加了指向該網站的鏈接。 恰好它們的數據恰好是幫助您進行原型制作所需的。 現在怎么辦?
All-girls Afghan robotics team. Image: SOURCE.
如果他們的數據集不可搜索,那么您將永遠找不到。 如果必須由策展人(如政府)托管他們的數據以便訪問,則會被告知要排隊……而且他們可能永遠也不會出現在前列。 那些花費大量資源進行大量策展的提供者只有有限的時間和注意力集中在優先資源上。 結果如何? 您永遠不會知道錯過了什么。
這就是為什么我覺得整個數據集搜索范式非常漂亮的原因。 共享數據(無需中間人告訴您迷路)意味著即使人們有小眾口味,也可以找到并提供豐富的資源……或者使高中網站晦澀難懂。
參與共享可搜索數據:
- 您需要數據。
- 您需要通過schema.org指示您有數據。 (您可以自己執行此操作,也可以將其放入Zenodo這樣的存儲庫中,為您執行此操作。)
其他
希望同時滿足這兩個條件的意愿因地而異,這并不使您感到驚訝。 政府是率先索引其數據集的政府之一,因此,他們傾向于收集的數據集(天氣數據,有人嗎?)是您瘋狂進食的最佳人選,而稀疏收集的專有數據將很少出現。 也就是說,每天都在添加更多數據,搜索為免費和付費數據提供了方便。 (有點像Google圖片中帶有水印的專有圖片。)您可以根據自己的意愿選擇要經過的門,以及收費是否值得。
人類的大局
諸如數據集搜索之類的龐大用戶群,是人類在數據科學和數據素養方面的發展的象征。 我們正在成長為一個物種,并且正在擴展我們部署感官的方式,以及與信息進行交流的方式。
數據分析正在成為每個人的游戲。
過去,我們曾經在Internet上打開單個頁面的能力給人留下了深刻的印象,然后在瀏覽器中打開50個選項卡(每個數據點一個)的能力給人留下了深刻的印象。 現在我們渴望更多。 我們希望數據集可以使用為這項工作而構建的代碼工具(例如Python和R)快速定型和匯總。 精通數據的社區現在已達到臨界規模。 我們中足夠的人具有理解數據的技能,而我們不再滿足于圖片覆蓋的書面頁面。 (您現在正在凝視的那種。哈。)
Image: SOURCE.
素養的演變
要使用當前正在閱讀的資源(例如您正在閱讀的資源)中的信息,您需要特殊的讀寫能力。 您的思維需要能夠將自己包裹在文字周圍。 這是您理所當然的技能。 如果只有很少的人掌握這項技術,那么此博客文章將不存在。 Google可能也不存在。
同樣,數據集搜索代表著數據素養民主化的上升趨勢。 如果說山峰和猶豫不決的話,那么整個開發過程就是一種攀登頂峰的方式,"處理數據不再是一種完全利基的技能!"它不再局限于少數抄寫員將象形文字雕刻成粘土片。 (哦,等等,那是寫作。盡管是相同的想法。)
在線數據集提供了一種新的自我表達工具,它遵循了與互聯網其他部分相同的規則。
數據集搜索可幫助您在聊天中找到寶石。
數據集正在成為一種廣泛的交流形式-一種美麗的新語言,我們許多人都能說流利,而且每天都有很多人在學習。 對于那些從小就開始講數據的人來說,能夠以我們的語言獲得搜索結果真是令人欣慰。
這就是為什么我對數據集搜索的感受直截了當的原因。