全球頂級AI科學家許主洪加盟阿里！IEEE Fellow，五萬被引論文數，曾任Salesforce集團副總裁

作者：量子位 2025-02-08 08:40:00

人工智能新聞

AI不是移動互聯網，但用戶需求和產品體驗的價值線，大道至簡，一以貫之，未曾改變。

AI的新進展頻頻，人才動態也愈加重磅。

新年第一則大牛人事動向，引發業內關注。

許主洪，IEEE Fellow，新加坡管理大學終身教授，被曝加盟阿里。

許主洪是誰？1998級清華計算機系本科，碩博畢業于港中文，谷歌學術五萬引大佬。

多篇關于多模態預訓練論文，深刻影響了業內大模型研發，阿里Qwen、谷歌RT-2都曾引用過其研究成果。

產業界，他曾擔任全球最大企業軟件廠商Salesforce集團副總裁、亞洲研究院創始院長，從0到1搭建了Salesforce亞洲人工智能研究體系。

現在，阿里方面已經證實。他將出任阿里集團副總裁，向阿里AI To C業務負責人吳嘉匯報，專注于AI To C業務的多模態基礎模型及Agents相關基礎研究與應用解決方案。

誰是許主洪？

在加盟阿里之前，他曾在工業界和學術界均擁有超20年經驗，曾在新加坡南洋理工大學、新加坡管理大學擔任教授。

研究方向包括機器學習的基礎研究和人工智能多個領域的應用研究，包括多媒體信息檢索、計算機視覺、大數據分析、社交媒體、智能網絡安全、計算金融和智慧城市等。

谷歌學術顯示，其發表300余篇人工智能頂級學術論文，被引五萬余次，2020年至今被引近四萬次。

2019年當選為IEEE Fellow，同一年當選的還有知名大佬、CMU教授邢波。

時間回到1998年，他來到清華大學計算機系讀書，本科畢業前往港中文攻讀碩博。

2007年他來到了新加坡南洋理工大學。期間他負責開源了一個機器學習庫LIBOL，里面有一大批經典和先進的在線學習算法，用于解決大規模機器學習任務，滿足各種新興大數據挖掘應用的需求。

能夠看到的是，從那時候開始，他就已經在深入思考連接技術到應用之間這一橋梁。

隨后他去到新加坡管理大學，2020年獲終身教職。

轉折點在2019年，他正式選擇踏入工業界，將自身技術積累真正融入進產業應用當中去。

他的實戰場是全球最大企業軟件廠商Salesforce，幫助他們補齊AI基礎研究與應用這一板塊。

他主導開創了多個行業先河的人工智能項目和產品，包括不限于多模態系列模型BLIP、代碼生成神器CodeGen、通用CRM助手Einstein GPT。

（CRM是客戶關系管理軟件系統。Einstein GPT支持包括 Slack、銷售、服務、營銷、商務和應用程序構建器）

另一個實戰場是2023年，乘著大模型的技術熱潮，他創辦了AI初創公司HyperGAI。

期間發布了多款多模態基礎模型，特點是在不增加計算成本的情況下，實現當前世界頂尖模型的水平。

在GPT-4V和Gemini Pro等大語言模型都在專注于文本的當下，他們在多模態理解和生成上面取得了不少突破，并且有很強的應用屬性在里面。

比如像HPT 1.5 端側多模態模型，只有4B大小，性能卻優于當時微軟新推出的Phi-3-Vision（4B）多模態模型，并在多項基準測試中達到了GPT-4V的性能。

除了一些評測之外，模型還展示了移動端上的使用效果，能夠識別圖中的關鍵信息。

同時它也具備強大的推理能力，可以理解并解答幾何題。

學術領域，他憑借深厚的專業素養和杰出的研究能力，發表了眾多頂級學術論文，研究成果備受行業矚目。

而在產業界，他將前沿技術與實際應用緊密結合，成功推動了AI多個領域的突破與落地，成為連接學術與產業之間的橋梁。

深刻影響多模態大模型研發

問題是有了這位頂尖AI科學家的加盟，對于阿里來說意味著什么？

在許主洪的專業擅長中，不難找到線索和答案。

在他諸多論文中，有兩篇BLIP系列論文最為矚目，累計引用過萬，其中BLIP-2始終高居引用榜首。

更早之前還有技術博主專門研讀了他的成果，表示GPT-4V現在還像個黑匣子，而BLIP系列研究不僅在各種視覺任務中表現出SOTA的性能，也可能是打破黑匣子的有效解決方案。

2023年，各種大語言模型剛剛興起的時候，業內就已經在思考LLM涌現的通用性和泛化能力，是否也能在視覺領域中實現。

一個統一的視覺與語言的框架，以及一個能將它們與LLM結合起來的框架，成為自然而然的技術需求。

在眾多創新方法中，BLIP脫穎而出，它統一了視覺語言任務的理解與生成能力，并通過引入Captioner-Filter機制減少了監督文本的噪聲，從而提高模型的訓練質量。

模型核心在于獨特的編碼器-解碼器混合架構（MED），該架構由視覺編碼器、文本編碼器和多模態編碼器三部分組成。

每個模塊都有相關的預訓練目標，所有三個模塊都根據這些預訓練目標進行聯合訓練。

這系列論文所在的語言視覺智能一站式庫LAVIS，GitHub超過萬顆星，足以見其在業內的影響力。在這個庫里還有各種BLIP的衍生，比如X-InstructBLIP、BLIP-Diffusion等等。

而將時間拉回現在，隨著大模型發展的深入，多模態能力作為核心屬性，正在重塑著AI的應用范式。

總結來說，多模態讓大模型從“單一功能工具”轉變為“全知全能的Agent”，其應用場景將不斷地深入與拓寬。

核心體現在兩個方面：

其一，突破單模態局限，實現更全面的認知與交互。多模態大模型通過融合文本、圖像、音頻、視頻等異構數據，能夠構建更接近人類認知、近乎人類水平的模型。

這種跨模態的語義對齊能力，使AI能理解復雜場景中的隱含關聯，比如識別圖像中的隱喻或情感表達。像夸克、通義APP這種軟件，在其智能工具、ChatBot屬性之上，集成更多多模態功能之后，就能實現更多精細化功能，成為日常的AI全能助手。

更多樣化更復雜的任務需求也將得到滿足，多維之間的感知交互，能夠實現AI在更多終端和硬件的落地，比如AI眼鏡——據稱是已經明確的阿里AI to C業務未來探索方向。當然這些還只是單點功能或產品形態，多模態能力還在于更多應用場景的賦能。

所以第二個方面就是：拓展更多應用場景，釋放行業生產力。

比如醫療場景，多模態模型融合醫學影像、基因數據和臨床文本，支持個性化診療方案生成。教育場景，結合圖文、視頻和語音的多模態教學助手，可動態適配學生學習風格，提供沉浸式學習體驗。

但上述場景對阿里來說不是計劃，而是已經部署落地的實踐，并且還展現出“干中學”的技術迭代潛力。

在夸克落地的業務中，其“靈知”學習大模型在考研數學題上的正確率和得分率已經比肩OpenAI最新發布的o1模型，且遠超國內其他模型。

所以了解了多模態能力與阿里AI to C業務布局的關系，或許也就看懂了許主洪的加盟。

這一次他要連接的是AI多模態能力在C端產品、應用上的端對端閉環能力。

做面向用戶的AI技術創新

大模型的發展路線，目前可以總結為兩條，一個是面向大模型更高級智能水平的技術演進，一個是面向應用和用戶價值/體驗的AI技術創新。阿里AI To C業務尤其是夸克呈現出后者的特點。

于阿里而言，許主洪是人工智能學術界的領路人，在產業界同樣擁有豐富的應用研發和產品創新經驗——尤其他不僅搭建了Salesforce亞洲人工智能研究體系，還將研究成果轉化為實際應用——主導的多個AI創新項目，將學術成果轉化為商業應用，推動了AI技術產業化進程。

這種學術與產業的雙重背景，使得許主洪不僅具備深厚的學術研究功底，還擁有將技術轉化為實際產品的豐富經驗。這種能力就是阿里AI To C業務所需要的。

而以夸克為代表的阿里AI To C業務，在大模型能力上也一直注重實用性，強調以應用產品驅動大模型的研發、升級方向。

產品追求的不是“顛覆”，而是拳拳到肉，解決用戶的核心需求。夸克大模型的典型特點就是不卷參數和打榜，而是依據使用場景提供專業技術能力，衍生出通識、醫療、教育等垂類模型。

這種對用戶價值的核心追求，也是AI驅動之下，夸克迅猛崛起，成為國內增長最快、勢頭最猛、用戶使用最多的AI全能助手——沒有之一。

量子位智庫統計，在APP端，前10個月國內AI APP三日留存數據顯示，夸克是唯一突破40%的產品，也是唯一突破兩億累計下載量的。

△圖源：量子位智庫

如果說一年前還相對低調，高速增長下的夸克現在也攤牌了，夸克已經完成了品牌升級——2億人的AI全能助手。

當然，這也是技術、產品、場景等全方位要素驅動之下的結果，天時地利皆具備，現在阿里整個AI To C業務要發力，就是時候在“人和”——人才上點燃東風。

許主洪的加盟可能還只是開始的開始。有消息稱，阿里AI To C業務正在組建頂級AI算法研究和工程團隊，吸引大量業內頂級人才加盟。

而頂級科學家+頂尖團隊，再加上高速前進的AI業務和場景，夸克也好，阿里AI To C業務布局也好，有機會把AI創新帶入中國最熟悉的范式之下——技術驅動產品，產品反哺技術，并且在規模最大的用戶市場迭代之下，實現綜合實力的超車。

AI不是移動互聯網，但用戶需求和產品體驗的價值線，大道至簡，一以貫之，未曾改變。

責任編輯：張燕妮來源：量子位

AI 視覺模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球頂級AI科學家許主洪加盟阿里！IEEE Fellow，五萬被引論文數，曾任Salesforce集團副總裁

誰是許主洪？

深刻影響多模態大模型研發

做面向用戶的AI技術創新