成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

更新、挑錯、識別假新聞,MIT推出維基百科AI編輯系統

新聞 人工智能
該系統可精確定位并替換相關維基百科句子中的特定信息,同時使用類似于人類的書寫和編輯方式的語言。

 [[334141]]

維基百科作為任何人都可以編輯的在線百科全書,需要大量的志愿者編輯花費大量時間精力來讓每一個詞條保持最新。雖然志愿者編輯有很多,但要保障每天成千上萬的頁面及時更新,仍是一件極具挑戰的任務。

  不久前,麻省理工學院的研究人員推出了一種新的 AI 系統,該系統可用于自動更新在線百科全書中的任何不準確之處,從而為人類編輯們提供幫助。

  麻省理工學院計算機科學和 AI 實驗的博士生 Darsh Shah 說道,“維基百科的文章需要不斷更新,因此需要數百人來修改每篇文章,而 AI 可以自動完成修改,這極大提高了效率。”

  研究人員提出了一種文本系統,該系統可精確定位并替換相關維基百科句子中的特定信息,同時使用類似于人類的書寫和編輯方式的語言。

  當人們在界面輸入帶有更新信息的非結構化句子時,AI 會在維基百科中搜索正確的頁面和過時的信息,然后以類似于人類的語言風格呈現內容。

  此前也存在許多其他可以自動進行維基百科編輯的機器人,但 Shah 說道,“這些工具更多的是基于規則,將一些狹義的信息放入預定義的模版中,然而編輯的任務更多的是需要對兩個句子中相互矛盾的部分進行推理,然后生成連貫的文本句子。研究人員的模型解決了這個問題,通過輸入一條非結構化的信息,模型以人性化的方式自動修改句子。”

AI 識別矛盾信息

  識別兩個單獨的句子之間的矛盾信息,并將它們融合在一起,這對于人類而言是一項十分容易的任務,但對于機器學習而言卻是一項新穎的任務。

  例如原始的句子:“基金 A 認為活躍運營公司中的 42 種少數股權中有 28 種對集團特別重要”,而最新的信息則是:“基金 A 認為 43 個少數股權中有 23 個意義重大”。

  根據這兩個句子,系統將首先找到有關 “基金 A” 的相關維基百科文本,然而自動去除過時的數字 28 和 42,并用新的數字 23 和 43 替換它們。

更新、挑錯、識別假新聞,MIT 推出維基百科 AI 編輯系統

  一般來說,該系統在包含句子對的流行數據集上進行訓練,其中一個句子是聲明,另一個是相關的維基百科的句子。每對都用三種方式進行標記:同意,表示句子匹配;不同意,表示存在矛盾的信息;中性,表示沒有足夠的信息可用于任何一個標簽。

  系統的目標是修改所有過時的句子,達到相應的要求,也要使所有不一致的句子對都達到 “同意”。因此,這就需要使用單獨的模型來產生所需的輸出。

  該模型是事實檢查分類器,預先將每個句子對標記為 “同意”、“不同意” 或 “中立”,重點關注 “不同意” 的句子對。與分類器一起運行的是一個自定義的 “中性屏蔽器” 模塊,該模塊可識別過時句子中的哪些詞與聲明中的句子相矛盾。它在過時的句子上創建了一個二進制 “掩碼”,其中 0 放在最有可能需要刪除的單詞上,而 1 放在保留的單詞上。

  屏蔽之后,在過時的句子處使用兩個編碼器 - 解碼器框架,對需要刪除的單詞(用 0 覆蓋的單詞)結合不同的信息來融合填補。

  該模型與其他幾種傳統的文本生成方法相比,在更新事實信息時更加準確,其輸出與人類寫作更加相似。在一項測試中,研究人員根據模型的輸出句子包含事實更新和匹配人類語法的程度對該模型進行了評分(從 1 到 5),該模型的事實更新平均得到達到了 4,語法匹配得分為 3.85,高于了其他所有傳統方法。

  研究人員希望未來 AI 能夠自動完成整個過程,也就意味著它可以在網上搜索某個相關主題的最新新聞,并替換文本,自動化更新維基百科上過時的信息。

擴充數據集,消除誤差

  該研究還表明,當訓練 “假新聞” 的檢測器時,該系統可用于增強數據集,以消除偏見。

  “假新聞” 是一種包含虛假信息的宣傳方式,旨在博人眼球,誤導讀者或是引導公眾輿論。這些部分檢測器在同意 - 不同意對的數據集上進行訓練,匹配給定的證據來驗證真假新聞。在這些句子對中,聲明可將某些信息與維基百科上的支持 “證據” 相比較,模型經過訓練,通過反駁證據,將句子標記為 “假”,從而幫助識別假新聞。

  但數據集往往帶有意想不到的偏差。Shah 說道,“在訓練過程中,模型按照人類的書面語言要求將某些語言標記為假例,而不必過多依賴相應的證據語句。這會降低模型在評估實際示例中的準確性,因為它不執行事實檢查。”

  因此,研究人員使用了相同刪除和融合技術,來平衡數據集中的不同意對,并幫助減輕偏見,在某些 “不同意” 對中,他們使用修改后的句子中的虛假信息來重新生成偽造的 “證據” 支持句子,某些短句也同時存在于 “同意” 和 “不同意” 句子中,這將使得模型分析更多的特征,得到擴充的數據集。

  研究人員利用這一方法將一種流行的假新聞檢測器的錯誤率降低了 13%。

維基百科部署 AI 編輯

  早在 2015 年,維基百科就構建了一個人工智能引擎,旨在自動分析維基百科的更改。

  由于任何人都可以編輯維基百科,那么任何人都可以錯誤地添加虛假信息,破壞站點,所以最早的維基百科建立了嚴格的篩選制度,阻止了很多人加入維基百科的編輯行列。

  Halfaker 是維基百科的資深研究科學家,他建立了自己的 AI 引擎來識別這種破壞行為,以更友好的方式提高新手的參與度。同時他也承認,“這項服務無法捕獲所有破壞行為,但它可以捕獲最多的破壞。”

  Halfaker 的項目實際上是為了增加人們對維基百科的參與,而放到 5 年后的今天,新的文本系統的出現,可自動更新維基百科的信息,極大減少了志愿編輯者的工作,編輯者也朝著被淘汰的方向行走。

  機器越來越智能,機器自動化替代人類工作也越來越普遍,人類是否會被機器替代也是當下的熱點話題。有人預測 AI 和機器人技術將在未來 20 年內取代我們多達 47% 的工作,但同時也有人認為 AI 將創造大量新工作。

  未來的事誰都說不準,我們唯一能做的是把握當下。

 

 

責任編輯:張燕妮 來源: 鈦媒體
相關推薦

2013-10-30 16:54:46

維基百科維基百科的衰落

2024-03-04 13:13:57

AI人工智能

2010-07-06 09:06:54

維基百科數據中心斷電宕機

2021-08-03 14:01:53

Vue.js維基百科框架

2012-02-10 09:51:13

Java

2023-02-13 11:43:26

CHATGPT人工智能

2019-10-16 11:52:15

MIT機器學習

2013-04-25 09:53:52

MariaDB

2012-08-08 09:50:58

2019-04-02 09:57:29

阿里AI自然語言

2013-04-25 10:43:33

維基百科MySQLMariaDB

2013-09-17 09:49:38

大數據NoSQLMariaDB

2017-06-03 16:08:09

HTTPS互聯網維基

2013-11-29 14:11:25

開源開源軟件

2015-06-23 11:23:26

行業百科頻道

2009-11-19 09:22:08

互聯網10年10大重要

2017-10-26 14:29:50

互動百科

2016-12-06 14:43:00

互動百科
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品一二三 | 九九热在线观看 | 午夜免费视频 | 国产目拍亚洲精品99久久精品 | 国内毛片毛片毛片毛片 | 亚洲人成一区二区三区性色 | 国产激情福利 | 成人二区| 农村真人裸体丰满少妇毛片 | 中国免费黄色片 | caoporn视频 | 黑人巨大精品 | 三级黄色片在线播放 | 成人精品高清 | 日韩欧美国产一区二区三区 | 欧美一区二区小视频 | 亚洲人在线观看视频 | 亚洲国产精品美女 | 日韩高清国产一区在线 | xxx.在线观看 | 久久手机在线视频 | 亚洲 中文 欧美 | 九九久久这里只有精品 | 欧美电影免费观看高清 | 国产精品久久久久久一区二区三区 | 久久久久久亚洲精品 | a级免费观看视频 | 国产精品99久久久久久久久 | 午夜视频大全 | 亚洲欧美日韩在线 | 国产精品美女久久久久久久久久久 | 精品一区二区视频 | av男人的天堂在线 | 精品一区电影 | 在线国产一区二区三区 | 日韩免费高清视频 | 久久久久久久久99精品 | 91精品国产色综合久久 | 国产精品一区二区视频 | 人人澡视频 | 欧美一区二区在线观看视频 |