開源丨首個(gè)AI翻譯實(shí)戰(zhàn)榜單出爐！GPT-4o穩(wěn)坐天花板，文化方面Qwen系列一馬當(dāng)先

2025-05-23 09:20:55

人工智能新聞

它由阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)共同發(fā)布。

AI替咱打工搞翻譯，到底誰家最好用？

終于，有人來統(tǒng)一翻譯江湖的標(biāo)準(zhǔn)了：首個(gè)應(yīng)用型AI翻譯測評榜單TransBench在OpenCompass上線。

它由阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)共同發(fā)布。

與傳統(tǒng)的翻譯測評體系相比，TransBench增加了幻覺率、文化禁忌詞、敬語規(guī)范等指標(biāo)，專門針對大模型翻譯最容易出錯(cuò)的關(guān)鍵問題進(jìn)行實(shí)戰(zhàn)考核。

比如：

翻得挺溜但張口就編，這就得算“幻覺”；
翻得準(zhǔn)確卻冒犯了當(dāng)?shù)匚幕且彩恰胺g事故”；
甚至你在客服場景里少說一句“please”，都可能讓用戶不爽。

這是首次針對行業(yè)的細(xì)分領(lǐng)域構(gòu)建評測數(shù)據(jù)和評測方法。這些指標(biāo)均來自真實(shí)場景的使用反饋，由此來測評大模型是否符合大規(guī)模應(yīng)用的標(biāo)準(zhǔn)。

目前，TransBench評測方法與數(shù)據(jù)集已全面開源，也已發(fā)布了首期測評結(jié)果。

歡迎各個(gè)AI翻譯機(jī)構(gòu)去打榜，一較高下～

GPT-4o穩(wěn)坐“翻譯AI天花板”

官網(wǎng)表示，TransBench數(shù)據(jù)集中涵蓋中、英、法、日、韓、西班牙等多種語言。

此外，還在不斷持續(xù)更新海量小語種。

TransBench評測體系中的數(shù)據(jù)集，根據(jù)“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”三個(gè)大類，整理了不同的數(shù)據(jù)集。

目前，TransBench多語言翻譯評測榜單首期已經(jīng)出爐。

評測榜單從“綜合得分”“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”四個(gè)維度來給每個(gè)模型的翻譯能力打分。

其中，綜合得分是模型在評測數(shù)據(jù)集的三大維度的綜合平均得分。為了保證數(shù)值可被平均，榜單對不同得分進(jìn)行了數(shù)值縮放。

我們查看并整理了“英語翻譯為其它語言”和“中文翻譯為其它語言”兩個(gè)榜單的模型能力。

英語翻譯為其他語言

這個(gè)條件下，綜合得分和通用標(biāo)準(zhǔn)的得分前三，都分別是：

第一：GPT-4o
第二：DeepL Translate
第三：GPT-4-Turbo

其中比較特別的是DeepL Translate，上個(gè)月底剛剛發(fā)布。

和前三名的另外兩位不同，這是一個(gè)專門的機(jī)器翻譯（MT，Machine Translation）模型，而不是通用大語言模型。

在電商行業(yè)，DeepSeek-R1的翻譯能力殺入榜單前三：

而在文化特性方面，Qwen系列一馬當(dāng)先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二，同時(shí)第三名花落EuroLLM-1.7B-Instruct。

大家可能對EuroLLM-1.7B-Instruct相對陌生，它是由多個(gè)歐洲研究機(jī)構(gòu)聯(lián)合開發(fā)的開源多語言大模型，涵蓋35種語言，旨在支持所有歐盟官方語言以及其他主要語言。

中文翻譯為其他語言

同樣，在中文翻譯為其他語言這條賽道上，綜合得分和通用標(biāo)準(zhǔn)的排名相同：

第一：GPT-4o
第二：DeepSeek-V3
第三：Claude-3.5-Sonnet

在電商行業(yè)，拿下第一的是均值得分4.420的DeepSeek-V3。

緊隨其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

最后一項(xiàng)文化特性，Qwen系列的表現(xiàn)同樣出色。

榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

三大維度打造翻譯大模型實(shí)戰(zhàn)考卷

隨著AI大模型加速落地，翻譯模型也進(jìn)入“比誰更好用”的時(shí)代。

相應(yīng)的，業(yè)內(nèi)也對大模型翻譯效果有了更高的要求，比如要符合不同地區(qū)的文化特性、能體現(xiàn)不同行業(yè)的語言特色等。

但問題來了——怎么判斷一個(gè)AI翻譯模型到底好不好用？

傳統(tǒng)的翻譯測評維度，主要關(guān)注通用質(zhì)量（如BLEU、COMET），難以反映真實(shí)使用場景中對語義準(zhǔn)確性、文化合規(guī)性、用戶體驗(yàn)的高要求。

并且，大模型時(shí)代的AI翻譯往往面臨幻覺等更多問題。

也就是說，傳統(tǒng)的翻譯測評維度在今天已經(jīng)不適用了。

為此，阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)一起，構(gòu)建了更全面、最新的評測標(biāo)準(zhǔn)和規(guī)范TransBench。

它從三大維度，重新定義翻譯測評：

第一，全面的通用標(biāo)準(zhǔn)。

不僅包括通用質(zhì)量，還新增幻覺率和魯棒性評測。

第二，行業(yè)垂直標(biāo)準(zhǔn)。

這是首次針對行業(yè)的細(xì)分領(lǐng)域構(gòu)建評測數(shù)據(jù)和評測方法，數(shù)據(jù)均來自行業(yè)細(xì)分領(lǐng)域真實(shí)數(shù)據(jù)，并利用語言專家在應(yīng)用中的標(biāo)注數(shù)據(jù)訓(xùn)練面向行業(yè)的打分模型。

第三，跨文化特性標(biāo)準(zhǔn)。

首次提出文化禁忌和敬語規(guī)范的評測數(shù)據(jù)和評測方法。

舉個(gè)例子！

電商場景下的用戶投訴，通常與敬語、禁忌語等相關(guān)。

這些翻譯結(jié)果從字面意思看無誤，但會(huì)直接影響到對話人的體驗(yàn)，應(yīng)該被納入到測評的范圍中。

從阿里國際自研翻譯大模型真實(shí)用戶反饋中總結(jié)提煉

其實(shí)，早在去年10月，阿里國際的AI Business團(tuán)隊(duì)就發(fā)布了首個(gè)大規(guī)模商用的翻譯大模型Marco MT，其效果趕超Google、DeepL等頭部AI翻譯工具。

截至目前，Marco MT的日均調(diào)用量為6億次，是電商領(lǐng)域使用量最大的翻譯大模型。

而TransBench的測評體系，正是基于Marco MT在全球真實(shí)用戶反饋中總結(jié)提煉而來。

因此，構(gòu)建TransBench這件事中有阿里國際的身影就很好理解了。

當(dāng)然，除了有業(yè)界認(rèn)可的領(lǐng)先技術(shù)外，業(yè)務(wù)需求也是其中原因之一。

阿里國際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業(yè)務(wù)，覆蓋全球200多個(gè)國家和地區(qū)，多語言翻譯是助力業(yè)務(wù)發(fā)展的重要一環(huán)。

根據(jù)公開信息，2023年3月，阿里國際成立了AI Business，基于全球化電商場景探索AI技術(shù)。

現(xiàn)在，阿里國際的所有電商平臺(tái)均已廣泛應(yīng)用AI能力，已服務(wù)了超50萬賣家，形成了以服務(wù)中小企業(yè)出海為核心，覆蓋全球多元市場、多種電商模式的規(guī)模級AI應(yīng)用。

目前，TransBench的測評方法進(jìn)行了開源，評測結(jié)果也將持續(xù)更新。

責(zé)任編輯：張燕妮來源：量子位

AI 翻譯模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看