編輯 | 星璇
在AI調用量最高的場景之一——機器翻譯,阿里國際的AI團隊有了新進展。
10月16日,阿里國際副總裁、AI負責人張凱夫在接受彭博社專訪時表示,阿里國際最新研發的Marco翻譯大模型,支持中、英、日、韓、西、法等15種全球主流語種。目前已在阿里國際AI官網Aidge上發布,面向全球用戶開放使用。
基于目前廣泛使用的開源評測數據集Flores,Marco翻譯大模型在BLEU自動評測指標上,領先于市面上的標桿翻譯產品,如Google翻譯、DeepL、GPT-4等。這意味著,Marco的AI翻譯能力總體已經超越全球競爭對手,成為行業第一。
Marco的主要優勢就是由大語言模型驅動,能夠基于語境進行精準翻譯,而不是根據字面意思,造成哭笑不得的歧義。“你的寶貝正在路上”,不會再被翻譯成“Your baby is on the way”。以“尊嘟喜歡”這一網絡用語為例,一些AI翻譯產品會將這句話翻譯為“Zundu likes it”,而在Marco大模型中,這句話非常地道地翻譯為“I really like it”。
如何實現這一效果呢?據介紹,Marco翻譯大模型通過面向多語言的數據篩選技術,如多語種混合語料甄別、多維度數據質量評估,獲得高質量、大規模的多語言數據,再結合多語言的混合專家、參數擴張方法,從而保證主導語言(如中、英)性能不下降的情況下,提升其他語種的質量。同時,通過模型量化和加速、多模型規約等優化策略,大幅降低大模型的服務成本,甚至與傳統小模型相比,成本也具有優勢。
這自然與阿里在該領域的多年積累密不可分:
其一,數十億規模的高質量電商預料數據,讓團隊在跨境電商領域很快就建起了起極為顯著的數據優勢;
其二,作為服務于全球市場的電商平臺,讓團隊對不同國家和地區的文化、語言以及商業法規有了深入的了解
因此一經發布,Marco翻譯大模型就在BLEU、COMET,以及人工評測指標上上,一舉超越市場上的頭部翻譯產品。
圖片
基于Flores公開榜單數據的評測結果
將其它語言譯為英語的測試中,它的所有結果均已超越行業標桿企業的產品,比如谷歌、ChatGPT、DeepL。
而將英語譯成其他語言方面,也有一半語言的測試結果超過了谷歌、ChatGPT。
目前,Marco翻譯大模型已實現大規模商用,收費價格也誠意滿滿,100萬個字符僅需12美元。
得益于阿里國際在跨境電商領域多年的積累,Marco在跨境電商領域的表現尤為亮眼。對于個人用戶來說,Marco能夠根據上下文提供高質量的翻譯和良好的可讀性,甚至支持不同的翻譯風格,滿足多樣化的翻譯需求。
根據公開報道,阿里國際在去年成立了AI團隊,過去一年在40多個場景里測試了AI能力,幫助50萬中小商家、對1億款商品進行優化。商家的AI需求也不斷增長,近半年的數據顯示,平均每兩個月,商家對于AI的調用量就翻1倍,AI的調用量已經突破日均1億次。