全球頂級AI科學家許主洪加盟阿里!IEEE Fellow,五萬被引論文數,曾任Salesforce集團副總裁
AI的新進展頻頻,人才動態也愈加重磅。
新年第一則大牛人事動向,引發業內關注。
許主洪,IEEE Fellow,新加坡管理大學終身教授,被曝加盟阿里。
許主洪是誰?1998級清華計算機系本科,碩博畢業于港中文,谷歌學術五萬引大佬。
多篇關于多模態預訓練論文,深刻影響了業內大模型研發,阿里Qwen、谷歌RT-2都曾引用過其研究成果。
產業界,他曾擔任全球最大企業軟件廠商Salesforce集團副總裁、亞洲研究院創始院長,從0到1搭建了Salesforce亞洲人工智能研究體系。
現在,阿里方面已經證實。他將出任阿里集團副總裁,向阿里AI To C業務負責人吳嘉匯報,專注于AI To C業務的多模態基礎模型及Agents相關基礎研究與應用解決方案。
誰是許主洪?
在加盟阿里之前,他曾在工業界和學術界均擁有超20年經驗,曾在新加坡南洋理工大學、新加坡管理大學擔任教授。
研究方向包括機器學習的基礎研究和人工智能多個領域的應用研究,包括多媒體信息檢索、計算機視覺、大數據分析、社交媒體、智能網絡安全、計算金融和智慧城市等。
谷歌學術顯示,其發表300余篇人工智能頂級學術論文,被引五萬余次,2020年至今被引近四萬次。
2019年當選為IEEE Fellow,同一年當選的還有知名大佬、CMU教授邢波。
時間回到1998年,他來到清華大學計算機系讀書,本科畢業前往港中文攻讀碩博。
2007年他來到了新加坡南洋理工大學。期間他負責開源了一個機器學習庫LIBOL,里面有一大批經典和先進的在線學習算法,用于解決大規模機器學習任務,滿足各種新興大數據挖掘應用的需求。
能夠看到的是,從那時候開始,他就已經在深入思考連接技術到應用之間這一橋梁。
隨后他去到新加坡管理大學,2020年獲終身教職。
轉折點在2019年,他正式選擇踏入工業界,將自身技術積累真正融入進產業應用當中去。
他的實戰場是全球最大企業軟件廠商Salesforce,幫助他們補齊AI基礎研究與應用這一板塊。
他主導開創了多個行業先河的人工智能項目和產品,包括不限于多模態系列模型BLIP、代碼生成神器CodeGen、通用CRM助手Einstein GPT。
(CRM是客戶關系管理軟件系統。Einstein GPT支持包括 Slack、銷售、服務、營銷、商務和應用程序構建器)
另一個實戰場是2023年,乘著大模型的技術熱潮,他創辦了AI初創公司HyperGAI。
期間發布了多款多模態基礎模型,特點是在不增加計算成本的情況下,實現當前世界頂尖模型的水平。
在GPT-4V和Gemini Pro等大語言模型都在專注于文本的當下,他們在多模態理解和生成上面取得了不少突破,并且有很強的應用屬性在里面。
比如像HPT 1.5 端側多模態模型,只有4B大小,性能卻優于當時微軟新推出的Phi-3-Vision(4B)多模態模型,并在多項基準測試中達到了GPT-4V的性能。
除了一些評測之外,模型還展示了移動端上的使用效果,能夠識別圖中的關鍵信息。
同時它也具備強大的推理能力,可以理解并解答幾何題。
學術領域,他憑借深厚的專業素養和杰出的研究能力,發表了眾多頂級學術論文,研究成果備受行業矚目。
而在產業界,他將前沿技術與實際應用緊密結合,成功推動了AI多個領域的突破與落地,成為連接學術與產業之間的橋梁。
深刻影響多模態大模型研發
問題是有了這位頂尖AI科學家的加盟,對于阿里來說意味著什么?
在許主洪的專業擅長中,不難找到線索和答案。
在他諸多論文中,有兩篇BLIP系列論文最為矚目,累計引用過萬,其中BLIP-2始終高居引用榜首。
更早之前還有技術博主專門研讀了他的成果,表示GPT-4V現在還像個黑匣子,而BLIP系列研究不僅在各種視覺任務中表現出SOTA的性能,也可能是打破黑匣子的有效解決方案。
2023年,各種大語言模型剛剛興起的時候,業內就已經在思考LLM涌現的通用性和泛化能力,是否也能在視覺領域中實現。
一個統一的視覺與語言的框架,以及一個能將它們與LLM結合起來的框架,成為自然而然的技術需求。
在眾多創新方法中,BLIP脫穎而出,它統一了視覺語言任務的理解與生成能力,并通過引入Captioner-Filter機制減少了監督文本的噪聲,從而提高模型的訓練質量。
模型核心在于獨特的編碼器-解碼器混合架構(MED),該架構由視覺編碼器、文本編碼器和多模態編碼器三部分組成。
每個模塊都有相關的預訓練目標,所有三個模塊都根據這些預訓練目標進行聯合訓練。
這系列論文所在的語言視覺智能一站式庫LAVIS,GitHub超過萬顆星,足以見其在業內的影響力。在這個庫里還有各種BLIP的衍生,比如X-InstructBLIP、BLIP-Diffusion等等。
而將時間拉回現在,隨著大模型發展的深入,多模態能力作為核心屬性,正在重塑著AI的應用范式。
總結來說,多模態讓大模型從“單一功能工具”轉變為“全知全能的Agent”,其應用場景將不斷地深入與拓寬。
核心體現在兩個方面:
其一,突破單模態局限,實現更全面的認知與交互。多模態大模型通過融合文本、圖像、音頻、視頻等異構數據,能夠構建更接近人類認知、近乎人類水平的模型。
這種跨模態的語義對齊能力,使AI能理解復雜場景中的隱含關聯,比如識別圖像中的隱喻或情感表達。像夸克、通義APP這種軟件,在其智能工具、ChatBot屬性之上,集成更多多模態功能之后,就能實現更多精細化功能,成為日常的AI全能助手。
更多樣化更復雜的任務需求也將得到滿足,多維之間的感知交互,能夠實現AI在更多終端和硬件的落地,比如AI眼鏡——據稱是已經明確的阿里AI to C業務未來探索方向。當然這些還只是單點功能或產品形態,多模態能力還在于更多應用場景的賦能。
所以第二個方面就是:拓展更多應用場景,釋放行業生產力。
比如醫療場景,多模態模型融合醫學影像、基因數據和臨床文本,支持個性化診療方案生成。教育場景,結合圖文、視頻和語音的多模態教學助手,可動態適配學生學習風格,提供沉浸式學習體驗。
但上述場景對阿里來說不是計劃,而是已經部署落地的實踐,并且還展現出“干中學”的技術迭代潛力。
在夸克落地的業務中,其“靈知”學習大模型在考研數學題上的正確率和得分率已經比肩OpenAI最新發布的o1模型,且遠超國內其他模型。
所以了解了多模態能力與阿里AI to C業務布局的關系,或許也就看懂了許主洪的加盟。
這一次他要連接的是AI多模態能力在C端產品、應用上的端對端閉環能力。
做面向用戶的AI技術創新
大模型的發展路線,目前可以總結為兩條,一個是面向大模型更高級智能水平的技術演進,一個是面向應用和用戶價值/體驗的AI技術創新。阿里AI To C業務尤其是夸克呈現出后者的特點。
于阿里而言,許主洪是人工智能學術界的領路人,在產業界同樣擁有豐富的應用研發和產品創新經驗——尤其他不僅搭建了Salesforce亞洲人工智能研究體系,還將研究成果轉化為實際應用——主導的多個AI創新項目,將學術成果轉化為商業應用,推動了AI技術產業化進程。
這種學術與產業的雙重背景,使得許主洪不僅具備深厚的學術研究功底,還擁有將技術轉化為實際產品的豐富經驗。這種能力就是阿里AI To C業務所需要的。
而以夸克為代表的阿里AI To C業務,在大模型能力上也一直注重實用性,強調以應用產品驅動大模型的研發、升級方向。
產品追求的不是“顛覆”,而是拳拳到肉,解決用戶的核心需求。夸克大模型的典型特點就是不卷參數和打榜,而是依據使用場景提供專業技術能力,衍生出通識、醫療、教育等垂類模型。
這種對用戶價值的核心追求,也是AI驅動之下,夸克迅猛崛起,成為國內增長最快、勢頭最猛、用戶使用最多的AI全能助手——沒有之一。
量子位智庫統計,在APP端,前10個月國內AI APP三日留存數據顯示,夸克是唯一突破40%的產品,也是唯一突破兩億累計下載量的。
△圖源:量子位智庫
如果說一年前還相對低調,高速增長下的夸克現在也攤牌了,夸克已經完成了品牌升級——2億人的AI全能助手。
當然,這也是技術、產品、場景等全方位要素驅動之下的結果,天時地利皆具備,現在阿里整個AI To C業務要發力,就是時候在“人和”——人才上點燃東風。
許主洪的加盟可能還只是開始的開始。有消息稱,阿里AI To C業務正在組建頂級AI算法研究和工程團隊,吸引大量業內頂級人才加盟。
而頂級科學家+頂尖團隊,再加上高速前進的AI業務和場景,夸克也好,阿里AI To C業務布局也好,有機會把AI創新帶入中國最熟悉的范式之下——技術驅動產品,產品反哺技術,并且在規模最大的用戶市場迭代之下,實現綜合實力的超車。
AI不是移動互聯網,但用戶需求和產品體驗的價值線,大道至簡,一以貫之,未曾改變。