開源丨首個(gè)AI翻譯實(shí)戰(zhàn)榜單出爐!GPT-4o穩(wěn)坐天花板,文化方面Qwen系列一馬當(dāng)先
AI替咱打工搞翻譯,到底誰家最好用?
終于,有人來統(tǒng)一翻譯江湖的標(biāo)準(zhǔn)了:首個(gè)應(yīng)用型AI翻譯測評榜單TransBench在OpenCompass上線。
它由阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)共同發(fā)布。
與傳統(tǒng)的翻譯測評體系相比,TransBench增加了幻覺率、文化禁忌詞、敬語規(guī)范等指標(biāo),專門針對大模型翻譯最容易出錯(cuò)的關(guān)鍵問題進(jìn)行實(shí)戰(zhàn)考核。
比如:
- 翻得挺溜但張口就編,這就得算“幻覺”;
- 翻得準(zhǔn)確卻冒犯了當(dāng)?shù)匚幕且彩恰胺g事故”;
- 甚至你在客服場景里少說一句“please”,都可能讓用戶不爽。
這是首次針對行業(yè)的細(xì)分領(lǐng)域構(gòu)建評測數(shù)據(jù)和評測方法。這些指標(biāo)均來自真實(shí)場景的使用反饋,由此來測評大模型是否符合大規(guī)模應(yīng)用的標(biāo)準(zhǔn)。
目前,TransBench評測方法與數(shù)據(jù)集已全面開源,也已發(fā)布了首期測評結(jié)果。
歡迎各個(gè)AI翻譯機(jī)構(gòu)去打榜,一較高下~
GPT-4o穩(wěn)坐“翻譯AI天花板”
官網(wǎng)表示,TransBench數(shù)據(jù)集中涵蓋中、英、法、日、韓、西班牙等多種語言。
此外,還在不斷持續(xù)更新海量小語種。
TransBench評測體系中的數(shù)據(jù)集,根據(jù)“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”三個(gè)大類,整理了不同的數(shù)據(jù)集。
目前,TransBench多語言翻譯評測榜單首期已經(jīng)出爐。
評測榜單從“綜合得分”“通用標(biāo)準(zhǔn)”“電商文化”“文化特性”四個(gè)維度來給每個(gè)模型的翻譯能力打分。
其中,綜合得分是模型在評測數(shù)據(jù)集的三大維度的綜合平均得分。為了保證數(shù)值可被平均,榜單對不同得分進(jìn)行了數(shù)值縮放。
我們查看并整理了“英語翻譯為其它語言”和“中文翻譯為其它語言”兩個(gè)榜單的模型能力。
英語翻譯為其他語言
這個(gè)條件下,綜合得分和通用標(biāo)準(zhǔn)的得分前三,都分別是:
- 第一:GPT-4o
- 第二:DeepL Translate
- 第三:GPT-4-Turbo
其中比較特別的是DeepL Translate,上個(gè)月底剛剛發(fā)布。
和前三名的另外兩位不同,這是一個(gè)專門的機(jī)器翻譯(MT,Machine Translation)模型,而不是通用大語言模型。
在電商行業(yè),DeepSeek-R1的翻譯能力殺入榜單前三:
而在文化特性方面,Qwen系列一馬當(dāng)先。
Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二,同時(shí)第三名花落EuroLLM-1.7B-Instruct。
大家可能對EuroLLM-1.7B-Instruct相對陌生,它是由多個(gè)歐洲研究機(jī)構(gòu)聯(lián)合開發(fā)的開源多語言大模型,涵蓋35種語言,旨在支持所有歐盟官方語言以及其他主要語言。
中文翻譯為其他語言
同樣,在中文翻譯為其他語言這條賽道上,綜合得分和通用標(biāo)準(zhǔn)的排名相同:
- 第一:GPT-4o
- 第二:DeepSeek-V3
- 第三:Claude-3.5-Sonnet
在電商行業(yè),拿下第一的是均值得分4.420的DeepSeek-V3。
緊隨其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。
最后一項(xiàng)文化特性,Qwen系列的表現(xiàn)同樣出色。
榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。
三大維度打造翻譯大模型實(shí)戰(zhàn)考卷
隨著AI大模型加速落地,翻譯模型也進(jìn)入“比誰更好用”的時(shí)代。
相應(yīng)的,業(yè)內(nèi)也對大模型翻譯效果有了更高的要求,比如要符合不同地區(qū)的文化特性、能體現(xiàn)不同行業(yè)的語言特色等。
但問題來了——怎么判斷一個(gè)AI翻譯模型到底好不好用?
傳統(tǒng)的翻譯測評維度,主要關(guān)注通用質(zhì)量(如BLEU、COMET),難以反映真實(shí)使用場景中對語義準(zhǔn)確性、文化合規(guī)性、用戶體驗(yàn)的高要求。
并且,大模型時(shí)代的AI翻譯往往面臨幻覺等更多問題。
也就是說,傳統(tǒng)的翻譯測評維度在今天已經(jīng)不適用了。
為此,阿里國際AI Business團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、北京語言大學(xué)一起,構(gòu)建了更全面、最新的評測標(biāo)準(zhǔn)和規(guī)范TransBench。
它從三大維度,重新定義翻譯測評:
第一,全面的通用標(biāo)準(zhǔn)。
不僅包括通用質(zhì)量,還新增幻覺率和魯棒性評測。
第二,行業(yè)垂直標(biāo)準(zhǔn)。
這是首次針對行業(yè)的細(xì)分領(lǐng)域構(gòu)建評測數(shù)據(jù)和評測方法,數(shù)據(jù)均來自行業(yè)細(xì)分領(lǐng)域真實(shí)數(shù)據(jù),并利用語言專家在應(yīng)用中的標(biāo)注數(shù)據(jù)訓(xùn)練面向行業(yè)的打分模型。
第三,跨文化特性標(biāo)準(zhǔn)。
首次提出文化禁忌和敬語規(guī)范的評測數(shù)據(jù)和評測方法。
舉個(gè)例子!
電商場景下的用戶投訴,通常與敬語、禁忌語等相關(guān)。
這些翻譯結(jié)果從字面意思看無誤,但會(huì)直接影響到對話人的體驗(yàn),應(yīng)該被納入到測評的范圍中。
從阿里國際自研翻譯大模型真實(shí)用戶反饋中總結(jié)提煉
其實(shí),早在去年10月,阿里國際的AI Business團(tuán)隊(duì)就發(fā)布了首個(gè)大規(guī)模商用的翻譯大模型Marco MT,其效果趕超Google、DeepL等頭部AI翻譯工具。
截至目前,Marco MT的日均調(diào)用量為6億次,是電商領(lǐng)域使用量最大的翻譯大模型。
而TransBench的測評體系,正是基于Marco MT在全球真實(shí)用戶反饋中總結(jié)提煉而來。
因此,構(gòu)建TransBench這件事中有阿里國際的身影就很好理解了。
當(dāng)然,除了有業(yè)界認(rèn)可的領(lǐng)先技術(shù)外,業(yè)務(wù)需求也是其中原因之一。
阿里國際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業(yè)務(wù),覆蓋全球200多個(gè)國家和地區(qū),多語言翻譯是助力業(yè)務(wù)發(fā)展的重要一環(huán)。
根據(jù)公開信息,2023年3月,阿里國際成立了AI Business,基于全球化電商場景探索AI技術(shù)。
現(xiàn)在,阿里國際的所有電商平臺(tái)均已廣泛應(yīng)用AI能力,已服務(wù)了超50萬賣家,形成了以服務(wù)中小企業(yè)出海為核心,覆蓋全球多元市場、多種電商模式的規(guī)模級AI應(yīng)用。
目前,TransBench的測評方法進(jìn)行了開源,評測結(jié)果也將持續(xù)更新。