成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<samp id="drulv"><del id="drulv"><sup id="drulv"></sup></del></samp>

<label id="drulv"><dl id="drulv"></dl></label>

<label id="drulv"></label>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

研究：網絡充斥低質機翻內容，大語言模型訓練需警惕數據陷阱

作者：遠洋 2024-02-04 09:31:44

亞馬遜云計算人工智能實驗室的研究人員發現，網絡上大量內容來自機器翻譯 (MT) 生成，這些跨越多種語言的翻譯內容質量普遍較低。研究團隊強調，這凸顯了在訓練大型語言模型 (LLM) 時，數據質量和來源考量的重要性。

2 月 4 日消息，亞馬遜云計算人工智能實驗室的研究人員發現，網絡上大量內容來自機器翻譯 (MT) 生成，這些跨越多種語言的翻譯內容質量普遍較低。研究團隊強調，這凸顯了在訓練大型語言模型 (LLM) 時，數據質量和來源考量的重要性。

研究還發現，機器生成內容在資源較少語言的翻譯中很普遍，并占網絡內容的很大一部分。

IT之家注意到，研究團隊開發了名為多維 cc 矩陣 (MWccMatrix) 的龐大資源，以更好地理解機器翻譯內容的特征。該資源包含 90 種語言中 64 億個獨特的句子，并包括翻譯元組，即相互翻譯的一組句子。

這項研究發現大量網絡內容通常被翻譯成多種語言，主要通過機器翻譯完成。這種內容不僅在資源較少語言的翻譯中普遍存在，而且在這些語言的所有網絡內容中也占很大一部分。

研究人員還注意到，出于廣告收入等目的，被翻譯成多種語言的內容存在選擇性偏差。

論文的結論是：“機器翻譯技術在過去十年里取得了顯著進步，但仍達不到人類質量水平。多年來，使用當時可用的機器翻譯系統將機器翻譯內容添加到網絡上，因此網絡上大部分機器翻譯內容按照現代標準可能質量很低。這可能會導致 LLM 模型產生更多‘幻覺’ ，而選擇偏差表明即使不考慮機器翻譯錯誤，數據質量也可能較低。數據質量對于 LLM 訓練至關重要，其中高質量的語料庫，如書籍和維基百科文章，通常會進行多次向上采樣?！?/p>

責任編輯：龐桂玉來源： IT之家

大語言模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：网页av| 97av| 毛片在线免费 | 欧美视频中文字幕 | 99re6在线视频精品免费 | 日本免费视频在线观看 | 亚洲九九精品 | 国产激情在线 | 国产日韩欧美精品一区二区三区 | 日韩欧美一区二区三区免费观看 | 国产精品18hdxxxⅹ在线 | 国产成人精品一区二区三区四区 | 中文字幕亚洲欧美 | 好姑娘高清在线观看电影 | 亚洲视频在线免费观看 | 在线观看av网站永久 | 亚洲成人黄色 | 成人三级网址 | 国产成人综合久久 | 精品久久久久久久人人人人传媒 | 亚洲美女视频 | 午夜视频免费在线观看 | 精品久久久久久久久久久久久久 | 97国产一区二区精品久久呦 | 网站黄色在线免费观看 | 国产欧美日韩久久久 | 天堂免费 | 黄网站免费入口 | 美女激情av | 中文字幕亚洲精品 | 久久中文视频 | 亚洲精品一区中文字幕乱码 | 成人网视频 | 亚洲图片视频一区 | 国产亚洲精品久久yy50 | 97超碰在线免费 | 久久精品性视频 | 亚洲一二视频 | 欧美日韩国产一区二区三区 | 久久久精品视频一区二区三区 | 亚洲欧美在线一区 |

<var id="wxnsf"></var>

<ol id="wxnsf"></ol>