成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Facebook科學家:別給算法模型喂垃圾數據了…

大數據 算法
在最近的一次談話中,Facebook人工智能研究科學家Moustapha Cissé告訴我,“你吃什么你就是什么,而我們正在給算法模型喂垃圾食品。”如果你不知道食物中有什么,你就很難合理飲食。同理,如果你不理解訓練數據的原理,就不能訓練出偏差更小的模型。

在最近的一次談話中,Facebook人工智能研究科學家Moustapha Cissé告訴我,“你吃什么你就是什么,而我們正在給算法模型喂垃圾食品。”

 

[[231256]]
(圖片來自于網絡)

如果你不知道食物中有什么,你就很難合理飲食。同理,如果你不理解訓練數據的原理,就不能訓練出偏差更小的模型。

這就是為什么最近的論文“給數據集創建數據手冊” https://arxiv.org/abs/1803.09010 如此有趣的原因。在這篇論文中,來自微軟研究的Timnit Gebru及其同事與來自其他學術研究機構的合著者們為數據集提出了相當于食物營養標簽的標準。

很多機器學習和深度學習模型,大多傾向于使用像ImageNet或COCO 這樣的公共數據集,或是私人創造的數據集,這些數據集能夠將訓練數據集的內容、偏差和其他相關素材傳輸給有興趣的用戶是非常重要的。

“數據手冊”這篇論文探討了使用標準化數據手冊,將這些信息傳遞給數據集、商業化API和預構建模型用戶的方案。除了能協助用戶交流數據偏差外,作者還指出這種數據手冊能夠提升信息的透明度,并為數據的可靠性背書。

除了潛在的倫理問題外,當使用第三方數據進行訓練的模型不能充分歸納到不同語境時,隱藏的數據偏差會造成部署系統的不可預測性,甚至失敗。當然,***的選擇是收集***方數據,并使用由該領域里具有專業知識和深刻見解的專家們構建和訓練的模型。

廣泛可用的公共數據集、更易上手的機器學習工具,能便捷訪問的人工智能API和預購建模型促進AI民主化,使得越來越多的開發人員將AI技術運用到他們的應用中。作者建議,為AI數據集和工具創建數據手冊可以為那些沒有專長領域的工程師提供基礎的信息,有助于減少由數據集誤用引發的問題。

信息安全公司Terbium實驗室的CTO Clare Gollnick,在與我們討論科學和人工智能中的再現性危機時,提出了類似觀點。她擔心開發人員往往把重心放在用更深層、更復雜的模型解決問題,而當這些模型被應用到生產中時,通常會遇到泛化的問題。相反地,她發現,當研究人員利用該領域里現有的專業知識和深刻見解去解決AI問題時,成果將更為穩健。

Gebru和合作者在論文中指出,AI尚未經受以往伴隨著新興行業(如汽車、醫藥和電氣行業)發展而逐步完善的安全法規的檢驗。文中提到:

當汽車***在美國出現時,沒有車速限制、停車標志、交通信號燈、駕駛員教育,與安全帶或醉酒駕駛有關的規定。因此,1900年代早期,碰撞、超速和魯莽駕駛造成了許多人員傷亡。

 

[[231257]]

幾十年來,汽車及其它行業都在不斷地修改完善旨在保護公共利益的法規,同時其自身的技術革新也沒有停滯。論文認為,是時候開始考慮為AI制定相關的法律法規了,特別是當我們開始將其用于健康和公共部門等高風險實踐中時。歐洲即將出臺的通用數據保護條例(GDPR)就將處理這些問題。

論文提出的“數據手冊”來源于電氣組件相關的概念。每一個售出的電子組件都附帶相應的“數據手冊”,上面列出了組件的功能、特性、運行電壓、物理細節等。當用戶需要在購買前了解某個零件的性能,以及誤操作情況下可能出現的反應時,這些數據手冊就能提供用戶所需的支持。

 


(示例圖片來自于網絡)

作者建議,數據集或API的提供方應該附帶一份“數據手冊”來解決一系列標準化問題,這份“數據手冊”應該包含以下主題:

  • 數據集創建的動機
  • 數據集的組成
  • 數據收集過程
  • 數據預處理
  • 數據的分布
  • 數據的維護
  • 法律和倫理方面的考慮

對于上面所列主題的具體詳解,可以參照該論文;它還包含了一系列補充細節,并為Wild數據集中的UMAS Labeled Faces 提供示例“數據手冊”。這是一個完整全面、易于使用,并將具有影響力的模型。

這樣的“數據手冊”允許用戶了解他們使用的數據的優點和局限性,并防止出現諸如偏差和過度擬合之類的問題。同時,“數據手冊”還能全方位的促使數據集的創作者和用戶對數據源進行不同角度的思考,并理解數據其實并非‘事實上’的存在,而是需要謹慎對待和維護的具有生命力的資源。

雖然我不是個電氣工程師,但是我非常欣賞這個有趣的想法。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2017-08-04 15:53:10

大數據真偽數據科學家

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數據科學家數據模型

2012-12-26 10:51:20

數據科學家

2012-12-27 09:50:36

Facebook

2020-03-09 17:05:54

機器學習工程師數據結構

2018-05-21 21:04:07

數據科學家算法統計模型

2016-09-22 14:28:33

數據科學家算法

2018-10-16 14:37:34

數據科學家數據分析數據科學

2012-06-12 09:33:59

2018-02-28 15:03:03

數據科學家數據分析職業

2023-05-23 09:34:16

科學家AI

2018-10-18 09:00:00

機器學習機器學習算法數據科學家

2018-03-27 11:02:55

2015-08-25 13:20:29

數據科學

2022-04-25 09:48:31

數據科學崗位離職

2016-04-11 14:15:06

數據科學數據挖掘工具

2016-08-02 17:00:12

Hadoop大數據系統

2015-08-28 09:22:07

數據科學

2020-04-09 15:32:20

數據科學AutoML代智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕不卡视频在线观看 | 亚洲精品久久久一区二区三区 | 91精品国产日韩91久久久久久 | av黄色在线 | 久久久久久综合 | 中文字幕一区二区三区在线观看 | 91黄色片免费看 | 久久免费看 | 久久久国产亚洲精品 | 国产精品久久久久久久久久 | 国产精品久久久久久久免费大片 | 青青草这里只有精品 | 欧美区日韩区 | 亚洲精品免费视频 | 中文字幕亚洲视频 | 一级毛片在线播放 | 日本午夜免费福利视频 | 久久中文字幕视频 | 一区二区三区视频在线观看 | 免费的日批视频 | 国产精品乱码一区二三区小蝌蚪 | 国产91黄色 | 欧美另类视频在线 | 成年人精品视频在线观看 | 国产精品a一区二区三区网址 | 亚洲精品一区二区三区丝袜 | 久草网在线视频 | 久久国际精品 | av在线免费观看网站 | 一区二区三区在线免费观看 | 亚洲精品乱码 | 青青久在线视频 | 国产一二三区在线 | 99精品99 | 一区二区三区四区在线视频 | 在线日韩 | 亚洲欧美在线视频 | 国内精品成人 | 国产精品伦一区二区三级视频 | 精品久久久久久国产 | 激情av|