成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源丨首個(gè)AI翻譯實(shí)戰(zhàn)榜單出爐!GPT-4o穩(wěn)坐天花板,文化方面Qwen系列一馬當(dāng)先

人工智能 新聞
它由阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室 、北京語言大學(xué)共同發(fā)布。

AI替咱打工搞翻譯,到底誰家最好用?

終于,有人來統(tǒng)一翻譯江湖的標(biāo)準(zhǔn)了:首個(gè)應(yīng)用型AI翻譯測評榜單TransBench在OpenCompass上線

它由阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)共同發(fā)布。

圖片

與傳統(tǒng)的翻譯測評體系相比,TransBench增加了幻覺率、文化禁忌詞、敬語規(guī)范等指標(biāo),專門針對大模型翻譯最容易出錯(cuò)的關(guān)鍵問題進(jìn)行實(shí)戰(zhàn)考核。

比如:

  • 翻得挺溜但張口就編,這就得算“幻覺”;
  • 翻得準(zhǔn)確卻冒犯了當(dāng)?shù)匚幕且彩恰胺g事故”;
  • 甚至你在客服場景里少說一句“please”,都可能讓用戶不爽。

這是首次針對行業(yè)的細(xì)分領(lǐng)域構(gòu)建評測數(shù)據(jù)和評測方法。這些指標(biāo)均來自真實(shí)場景的使用反饋,由此來測評大模型是否符合大規(guī)模應(yīng)用的標(biāo)準(zhǔn)。

目前,TransBench評測方法與數(shù)據(jù)集已全面開源,也已發(fā)布了首期測評結(jié)果。

歡迎各個(gè)AI翻譯機(jī)構(gòu)去打榜,一較高下~

GPT-4o穩(wěn)坐“翻譯AI天花板”

官網(wǎng)表示,TransBench數(shù)據(jù)集中涵蓋中、英、法、日、韓、西班牙等多種語言。

此外,還在不斷持續(xù)更新海量小語種。

TransBench評測體系中的數(shù)據(jù)集,根據(jù)“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”三個(gè)大類,整理了不同的數(shù)據(jù)集。

圖片

目前,TransBench多語言翻譯評測榜單首期已經(jīng)出爐。

評測榜單從“綜合得分”“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”四個(gè)維度來給每個(gè)模型的翻譯能力打分。

其中,綜合得分是模型在評測數(shù)據(jù)集的三大維度的綜合平均得分。為了保證數(shù)值可被平均,榜單對不同得分進(jìn)行了數(shù)值縮放。

我們查看并整理了“英語翻譯為其它語言”和“中文翻譯為其它語言”兩個(gè)榜單的模型能力。

英語翻譯為其他語言

這個(gè)條件下,綜合得分通用標(biāo)準(zhǔn)的得分前三,都分別是:

  • 第一:GPT-4o
  • 第二:DeepL Translate
  • 第三:GPT-4-Turbo

其中比較特別的是DeepL Translate,上個(gè)月底剛剛發(fā)布。

和前三名的另外兩位不同,這是一個(gè)專門的機(jī)器翻譯(MT,Machine Translation)模型,而不是通用大語言模型。

圖片

電商行業(yè),DeepSeek-R1的翻譯能力殺入榜單前三:

圖片

而在文化特性方面,Qwen系列一馬當(dāng)先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二,同時(shí)第三名花落EuroLLM-1.7B-Instruct。

大家可能對EuroLLM-1.7B-Instruct相對陌生,它是由多個(gè)歐洲研究機(jī)構(gòu)聯(lián)合開發(fā)的開源多語言大模型,涵蓋35種語言,旨在支持所有歐盟官方語言以及其他主要語言。

圖片

中文翻譯為其他語言

同樣,在中文翻譯為其他語言這條賽道上,綜合得分通用標(biāo)準(zhǔn)的排名相同:

  • 第一:GPT-4o
  • 第二:DeepSeek-V3
  • 第三:Claude-3.5-Sonnet

圖片

電商行業(yè),拿下第一的是均值得分4.420的DeepSeek-V3。

緊隨其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

圖片

最后一項(xiàng)文化特性,Qwen系列的表現(xiàn)同樣出色。

榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

圖片

三大維度打造翻譯大模型實(shí)戰(zhàn)考卷

隨著AI大模型加速落地,翻譯模型也進(jìn)入“比誰更好用”的時(shí)代

相應(yīng)的,業(yè)內(nèi)也對大模型翻譯效果有了更高的要求,比如要符合不同地區(qū)的文化特性、能體現(xiàn)不同行業(yè)的語言特色等。

但問題來了——怎么判斷一個(gè)AI翻譯模型到底好不好用?

傳統(tǒng)的翻譯測評維度,主要關(guān)注通用質(zhì)量(如BLEU、COMET),難以反映真實(shí)使用場景中對語義準(zhǔn)確性、文化合規(guī)性、用戶體驗(yàn)的高要求。

并且,大模型時(shí)代的AI翻譯往往面臨幻覺等更多問題。

也就是說,傳統(tǒng)的翻譯測評維度在今天已經(jīng)不適用了

為此,阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)一起,構(gòu)建了更全面、最新的評測標(biāo)準(zhǔn)和規(guī)范TransBench。

它從三大維度,重新定義翻譯測評:

第一,全面的通用標(biāo)準(zhǔn)

不僅包括通用質(zhì)量,還新增幻覺率和魯棒性評測。

第二,行業(yè)垂直標(biāo)準(zhǔn)

這是首次針對行業(yè)的細(xì)分領(lǐng)域構(gòu)建評測數(shù)據(jù)和評測方法,數(shù)據(jù)均來自行業(yè)細(xì)分領(lǐng)域真實(shí)數(shù)據(jù),并利用語言專家在應(yīng)用中的標(biāo)注數(shù)據(jù)訓(xùn)練面向行業(yè)的打分模型。

第三,跨文化特性標(biāo)準(zhǔn)

首次提出文化禁忌和敬語規(guī)范的評測數(shù)據(jù)和評測方法。

舉個(gè)例子!

電商場景下的用戶投訴,通常與敬語、禁忌語等相關(guān)。

這些翻譯結(jié)果從字面意思看無誤,但會(huì)直接影響到對話人的體驗(yàn),應(yīng)該被納入到測評的范圍中。

從阿里國際自研翻譯大模型真實(shí)用戶反饋中總結(jié)提煉

其實(shí),早在去年10月,阿里國際的AI Business團(tuán)隊(duì)就發(fā)布了首個(gè)大規(guī)模商用的翻譯大模型Marco MT,其效果趕超Google、DeepL等頭部AI翻譯工具。

截至目前,Marco MT的日均調(diào)用量為6億次,是電商領(lǐng)域使用量最大的翻譯大模型。

TransBench的測評體系,正是基于Marco MT在全球真實(shí)用戶反饋中總結(jié)提煉而來

因此,構(gòu)建TransBench這件事中有阿里國際的身影就很好理解了。

當(dāng)然,除了有業(yè)界認(rèn)可的領(lǐng)先技術(shù)外,業(yè)務(wù)需求也是其中原因之一。

阿里國際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業(yè)務(wù),覆蓋全球200多個(gè)國家和地區(qū),多語言翻譯是助力業(yè)務(wù)發(fā)展的重要一環(huán)。

根據(jù)公開信息,2023年3月,阿里國際成立了AI Business,基于全球化電商場景探索AI技術(shù)。

現(xiàn)在,阿里國際的所有電商平臺(tái)均已廣泛應(yīng)用AI能力,已服務(wù)了超50萬賣家,形成了以服務(wù)中小企業(yè)出海為核心,覆蓋全球多元市場、多種電商模式的規(guī)模級AI應(yīng)用。

目前,TransBench的測評方法進(jìn)行了開源,評測結(jié)果也將持續(xù)更新。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2013-08-20 11:19:54

閃存IBMFlashSystem

2015-05-18 18:17:50

2015-08-19 10:49:02

2015-05-25 14:45:20

未來網(wǎng)絡(luò)暨SDN技術(shù)大華三

2014-02-10 14:47:53

移動(dòng)設(shè)備

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2024-12-26 07:10:00

2018-01-03 00:32:51

物聯(lián)網(wǎng)NB-IoT5G

2020-04-15 09:12:48

聯(lián)想智能云桌面

2024-05-21 12:23:17

2024-11-28 15:51:19

GPT-4o微軟

2025-04-08 02:26:00

2025-05-26 09:05:00

2025-01-02 14:03:04

2024-08-14 14:30:00

AI訓(xùn)練

2021-12-20 07:03:54

秒殺系統(tǒng)擴(kuò)容

2014-04-16 14:00:23

IaaSAWS

2025-05-22 13:42:28

大模型AIGPT-4o

2024-06-05 08:29:35

2024-09-24 11:13:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩欧美精品在线播放 | 精品久久电影 | 午夜天堂精品久久久久 | 国产目拍亚洲精品99久久精品 | 成人在线免费av | 亚洲成人黄色 | 久草在线在线精品观看 | 亚州精品成人 | 91在线影院 | 欧美video| 色偷偷人人澡人人爽人人模 | 看特级黄色片 | 日本高清不卡视频 | 欧美久久一区二区三区 | 亚洲欧美日韩久久 | 五月婷婷 六月丁香 | 毛片视频免费观看 | 亚洲精品一区二三区不卡 | 国产一区二区三区不卡av | 亚洲精品视频一区 | 亚洲黄色视屏 | 国产高清一区二区三区 | 黄色片免费在线观看 | 99热这里| 日韩精品一区二区三区视频播放 | 四虎影院免费在线播放 | 91在线电影| 久草网址 | 国产精品视频久久久 | 久久国产精品免费一区二区三区 | 特级毛片爽www免费版 | 欧美aⅴ| 国产成人免费视频 | 精品国产免费一区二区三区演员表 | www国产成人 | 一区二区精品在线 | 国产午夜在线 | 91视频久久 | 91视频免费在观看 | 亚洲免费视频播放 | 一区二区精品视频 |