獨家采訪微信團隊:誰在用人工智能武裝微信?
微信 5.0“掃一掃”發布的時候,被討論得最多的是它所承載的商業化重任。
被忽視的,是背后的技術,及技術蘊藏的趨勢。
同樣地,這個版本亮相的微信自主研發語音識別技術,也為外界所震驚和質疑。“騰訊能夠一夜之間自研成功語音識別技術?”類似質疑遍地都是。
在獨家采訪微信“模式識別中心”團隊后,我們發現兩個產品功能并不是孤立地存在的,而是人工智能技術武裝微信的兩個投射。微信走向智能化,不是從這兩個功能起步,也顯然不以其為終點。
本文揭秘了微信產品背后的故事,介紹“模式識別技術”的未來形態,以及科研與產品開發的關系。而我們更關心的,是微信乃至整個移動互聯網正在發生的變化:越來越智能化。這是由移動設備和移動產品豐富的連接性引發的變革。正是得益于如此豐富的連接性,人工智能基礎技術得以從多方面滲透進來,燃起穿戴設備的熱潮,掀起電視、汽車、家居、醫療各產業的變革,真正拉開科技改變生活的序幕。
1/3 博士,2/3 碩士的高學歷團隊
“模式識別”是人工智能的一個分支,在上個世紀 60 年代成為一門學科。所謂模式識別(pattern recognition)是指對表征事物或現象的各種形式信息進行處理和分析,以實現對事物或現象進行描述、辨認、分類和解釋的過程。模式識別對象包括文字、語音、圖像、生物傳感器、心電圖、腦電圖、地震波等等。對應到 IT 領域,主要是指文字、語音、圖像、與 IT 相關的傳感器等,如 iPhone 5s 新增的指紋識別功能,將來也會屬于“模式識別”研究的對象。
微信的模式識別中心也是一個研發中心。據團隊負責人陳波介紹,他們隸屬于微信北京研發中心,研究方向包含語音識別、圖像識別、語音合成、音頻指紋、語義理解、數據挖掘等等。不過由于這個研究型團隊轄屬于微信,他們不只負責理論研究,還對接產品功能開發。
模式識別中心原先不屬于微信,其前身是騰訊研究院下屬模式識別小組,2010 年 9 月成立。這個小組面向整個騰訊公司提供基礎研究成果的服務。比如誕生之初就為 QQ 輸入法提供手寫識別功能。2011 年騰訊內部創新熱潮起來后,這個團隊拓展研究領域,擴展到人臉識別、圖像檢索、文字識別等,集多種圖像技術于一身“QQ 慧眼”就是這個團隊研發的。2012 年 9 月,該團隊正式劃歸微信管轄,隨他們一同到微信的是當月發布的微信 4.3 版本中的通訊錄語音搜索功能。
為什么基礎研究團隊要整合到微信團隊?陳波給出的答案是:“一方面微信是引領移動互聯網潮流的產品,對視覺、聽覺延伸的東西需求很大;一方面技術成熟,到了基礎領域研究落地階段,微信是一個比較合適的平臺”。
目前微信模式識別團隊有 40 多名成員,都是高學歷多能人才。據陳波介紹,40 多名同事中,有 1/3 是博士,2/3 是碩士。還有一個類似比例是:整個團隊 1/3 從事前沿技術研究,2/3 從事現有技術研究和產品對接。
關于團隊的研究方向,陳波介紹主要分為語音和圖像兩個小組,語音研究對應的是手機上的麥克風,由博士生盧鯉帶領 12 個人負責;圖像對應的是手機攝像頭,由博士生劉海龍帶領 13 個人負責。“小組是比較成熟的方向。除了小組之外,我們也有其他研究方向”,陳波說,“包括文字識別、人臉識別、語義理解、視覺搜索、音頻指紋檢索等”。除了科學研究團隊,模式識別中心還有一個工程團隊與微信產品團隊進行對接。
據陳波介紹,她的團隊不是純粹搞研究,不只會寫 paper,還有很好的開發能力。他們沒有專門的手機開發人員,都是自己搞 iPhone 開發,把 demo 秀出來;遇到產品問題,也要與產品團隊共同解決。在招聘人才方面,模式識別中心也是把關嚴格,要求研究與工程能力兼備,所以團隊過即使加入微信后也沒有膨脹發展:團隊成立之初是 2、3 個人,去年加入微信大家庭的時候是 30 人左右;加入微信后,現在團隊是 40 人出頭。相對于競爭對手,這仍然是一個精干的團隊。
“兩盒煙,三個月”,一諾千金
微信 5.0 加入自主研發語音識別技術,引起震動。很多人不相信騰訊能在一夜之間靠自己研發出這種高門檻、長周期、重積累的技術。行業龍頭老大科大訊飛創業 10 多年還在不斷完善這種技術——當然,訊飛在語義識別、云平臺服務、串聯產業鏈方面扎得更深。
但是,世界上沒有奇跡,也沒有“一夜之間”的傳奇故事。
騰訊模式識別團隊成立于 2010 年 9 月,前期圖像技術成熟,較早落地。但它的語音識別技術起步晚,2011 年底才正式啟動語音識別自研項目。顯然,這個項目的啟動受到了當年蘋果發布 Siri 語音助手的影響,后者引發語音產業熱潮——科大訊飛的股票迄今已經翻番。
到今年 8 月,語音識別自研項目歷時一年半,模式識別中心終于攻克語音識別技術難題,并在微信 5.0 產品中正式亮相(“語音輸入”功能)。由于模式識別團隊屬于研究型隊伍,在前期主要集中于積累基礎技術,加上騰訊的低調作風,才給外界造成“一夜之間冒出來”的感覺。
事實上,在此之前模式識別團隊曾為微信開發多項人工智能技術。比如 2012 年 9 月發布的 4.3 版本中的通訊錄語音搜索功能,2013 年 2 月發布的 4.5 版本中的語音提醒和“搖一搖”搜歌。但微信 4.5 版本中的“語音提醒”功能才引起外界對其語音技術的關注,一方面與微信受到的關注度相關——微信 1 月剛剛中旬宣布達到 3 億用戶,成為一個龐大的移動 IM 平臺;另一方面“語音提醒”功能非常顯眼,不像“搖一搖”搜歌或“掃一掃”那么隱蔽或難于理解。
關于微信 4.5 版本的“語音提醒”功能,外界所不知道的是,它差點無法在該版本中發布。最終順利發布,這后面有一個“兩盒煙,三個月”的故事。
去年 10 月 8 日,國慶長假剛剛結束,模式識別中心語音組組長盧鯉與團隊負責人陳波到廣州與張小龍交流工作。“張小龍希望語音提醒在 4.5 版本上,我說技術不成熟,做這個事情沒把握。我說了半個小時,小龍一言不發,最后說‘那你們覺得需要多長?’我咬咬牙說起碼得 6 個月。小龍又一言不發,走開了”,盧鯉回憶到,“他回來后,手里拿了 4 包煙,開會的人有 4 個人抽煙,一人一包,包括他自己。這煙我沒抽過,我看了煙,又咬咬牙,說‘要不 3 個月’,他聽了之后,把他手里那包煙也留給了我。”
(微信模式識別中心語音組負責人盧鯉)
從 10 月中旬到 2 月初,除去春節假期,產品上線差不多就是 3 個月(期間進行一次封閉開發),盧鯉順利完成了任務。煙為什么對盧鯉有這么大的吸引力?答案在這個對話里:
ifanr:平時通過什么方式來放松?
盧鯉:我的方式是抽煙。
微信 4.5 版本發布的“語音提醒”功能,使用到較復雜的語義識別技術。比如“早上 7 點半起床坐 718 路公交車上班”,需要把“7 點半”理解為時間,把“起床坐 718 路公交上班”理解為事件。這在語音識別中反而是較復雜的。今年 2 月該功能發布后,它對語義的理解能力做得不錯,但會有一些錯別字,說明語音識別還不太完善。微信 5.0 發布的“語音輸入”功能,識別率很準確,甚至在人名、地名、專有名詞識別方面給人以驚喜。說明通過一年半時間的努力,模式識別團隊在語音識別領域趕上了行業水平。
技術與產品,誰驅動誰?
上個月在日本 NTT Docomo 總部采訪的時候,我們了解到 NTT Docomo 由于對 3G 技術做了非常深入的研究(它是全球第一家商用 WCDMA 3G 網絡的運營商),忽略了配套產業的建設,反而制約了 3G 業務的發展。Docomo 提給中國運營商的建議就是要與終端廠商做好溝通,與產業協同發展。
相反的一個例子是,我們今年 5 月在上海采訪來自 Kickstarter 的創業團隊 SmartWallit,他們很早就想利用藍牙技術做防丟設備,但由于藍牙 4.0 技術(更省電)一直沒有大范圍商用(2010 年 7 月公布技術規范),一直拖到 iPhone 去年 9 月真正支持藍牙 4.0,及 Galaxy S3、Note 2 機型出現,他們才覺得時機到了。
這類技術與產品誰主導的矛盾經常存在。那么對于隸屬于微信的一個科學基礎研究團隊來說,是技術驅動產品,還是產品驅動技術?
陳波的答案是:更多情況是技術驅動產品。“產品在定需求的時候,往往不知道一種技術能做到什么程度,需要通過足夠的時間預研、探索才能知曉”,陳波說,“預研成熟后,產品的主導會比較多。比如技術本身有很多弱點,那么產品上就要想如何去揚長避短”。
據陳波介紹,騰訊做產品比較講究敏捷開發,但他們搞基礎研究并不完全倡導敏捷開發,要以技術的成熟為前提。“不過一旦技術差不多 OK 了,可以面向用戶,接下來就走迭代路線。我們讓研究跟著產品走,怎么做優化、怎么做評測、發展到什么程度才能上線,都跟著產品的節奏來”,陳波說,“差不多一半時間預研技術,一半時間跟著產品節奏走”。
我問陳波前期做技術預研會不會參考其他產品的現有技術。比如微信“搖一搖”搜歌和 QQ 音樂的“聽音辨曲”跟海外 App 產品 Shazam 功能很相似。陳波說很多技術都有相關可參考的學術論文發表在國際期刊上,Shazam 有這樣的論文,Google 也有論文。她的團隊經常研究過去做到了什么階段。“做基礎研究,大量的文獻閱讀是必要的”,陳波說。
(微信模式識別中心總監陳波)
做研究與做產品有很多不同。最大的不同是,基礎研究更講究“謀定而后動”,要沉下心去想,臨門一腳揣不出靈光來。在我所認識的產品團隊中,“封閉開發”一般是指把團隊拉到郊區,吃喝拉撒睡全在一起,不與外界接觸,甚至與家人朋友也鮮有電話聯系,幾乎是與世隔絕的狀態,這樣才能保持極其高效的開發效率。陳波說他們的封閉開發不是這種封閉形式,“封閉開發是更像是一個口號,態度上要更認真,時間上要更緊迫”,她說,“基礎研究不是逼出來的,它要有一個認真思考的環境,要沉下心去想。如果催促著要上線,它是做不出東西來的”。
目前陳波的團隊進行過兩次封閉開發,一次是“兩盒煙,三個月”承諾之后,一次是為了保證微信 5.0 的語音功能上線。每次“封閉開發”周期為兩個月,封閉開發期間,下班會比較比較晚。“我們會把節奏盯得更緊,快速地達到目標,按產品的節奏去做研究。”
“基礎研究沒有‘失敗’,只有時機”
模式識別團隊從 2012 年 9 月加入微信團隊,至今一共開發了五個大功能:通訊錄語音搜索(v4.3),語音提醒(v4.5),搖一搖搜歌(v4.5),增強版“掃一掃”(v5.0)和“語音輸入”功能(v5.0)。我問陳波有沒有失敗的項目,她的回答很有意思:
很多東西我們不認為是失敗。有些技術目前沒有發布,不代表將來不需要;可能只是這個階段沒有,在未來一定會有。比如我們做的很多增強現實(AR)的東西,現在無線帶寬不允許,因而沒有發布;但 2、3 年后網絡不再是問題了,技術就能夠落地。我們不會 care“你做的東西沒有用”或“短期沒有用處”,我們不以這個作為技術衡量的標準。
她以 4G 網絡的發展舉例。“增強現實和移動視覺搜索技術,現在費了很大精力去做流量限制(比如“掃一掃”掃描封面/CD/海報會有前端后端做各種判斷以減少流量,最終控制在幾 KB)”,陳波說,“但是以后在 4G 時代,流量更寬裕了,可以做很多事情,比如展現更酷炫的效果,把增強現實帶到前端來”。本月初我的同事何宗丞在美國參加高通 Uplinq 大會的時候就看到了高通這方面的技術研究成果。不過據愛范兒了解,國內 4G 牌照要到 11 月才會發放,至少一年后 4G 才能迎來蓬勃發展,意味著受網絡條件的制約,各類創新技術要在國內掀起熱潮仍有待時日。
回到微信的話題,“現階段沒有”的一個功能是“名片識別”。在 8 月 5 日微信 5.0 發布前,我們曾聽說微信可能發布名片識別功能,對名片全能王這類產品將形成沖擊;但這個版本發布后,名片識別功能不見蹤影,他們又松了一口氣。據陳波告訴愛范兒,名片識別功能確實將會發布,但目前還在提高準確率,“有了良好的用戶體驗后才會考慮發布”。
除了名片識別外,據說 4.5 版本的“搖一搖”搜歌發布前陳波也經歷煎熬。“當時該功能在 4.5 版本中是一個不確定發布的功能,但大家積極性很高,經常周末過來加班,當時甚至想干脆不發了。不過最終還是做出來了,而且做得很不錯”,陳波說加入微信后,感觸最深的是微信團隊的執行力,“微信團隊的最大優勢是超強的執行力,大家都帶著夢想做事。比如‘打飛機’游戲就是一個人兩個星期開發出來的,人臉識別也是 1 個人做出來的”。
我讓陳波用三個詞來形容自己的團隊,她使用的是“精益求精”、“興趣愛好”、“踏實”。并作出解釋:
精益求精:對于基礎技術研究來說,精益求精很重要。從測試級、訓練級到評測,準確率能做到 99% 一定不做 98%。這從產品上可能沒什么概念,但從技術上來講,它意味著讓用戶失敗了很多次。
興趣愛好:很多創新是由興趣驅動的,對這一行不熱愛、不喜歡,是創造不出好東西來的。比如我們在招人過程中,不會為了擴張而擴張,而是每個人都要有他的價值,是否熱愛人工智能技術。
踏實:搞基礎研究,一個小的方向,由 1、2 個人做,從頭到尾做很多事情,包括 demo、實驗、效果總結,需要踏實的心態去做。我們做研究,做到了 90%,如何把剩下的 10% 做好,就要耐得住寂寞,要有好的態度,持續的追求。
目前陳波的團隊除了研究新功能外,日程表上排在前面的還有各種優化工作,包括掃一掃中封面、條碼的識別率,語音識別的精度,本身庫的搭建等等。她說團隊也在考慮如何做開放平臺,把他們的自研技術開放出來,供大家使用。“更多人來使用,才能更好了解用戶需求,才能更容易看清未來趨勢”。
模式識別技術下一步怎么走?
出乎意料地,陳波說團隊面臨的最大困難竟是”用戶對人工智能(模式識別)的期待“。
“很多功能都很好,用戶會問為什么不能實現”,陳波說到,“我們做的事情是模仿人的大腦,但人腦神經網絡非常復雜,目前的人工智能遠不能匹敵,用戶對它的期望很高,需要做引導,讓用戶理解”。盧鯉舉語音轉文字(5.0 的“語音輸入”)的例子,“這相當于一個初中生腦袋能干的事情,現在要讓機器去完成,是比較有難度的”。
陳波認為雖然短期內麥克風、攝像頭和其他傳感器可能沒有大的爆發點,但長期來看,它們一定會非常重要。“攝像頭、麥克風的應用僅僅剛開始,看起來很火,但與大腦相比,差得好遠”,陳波充滿信心,“比如穿戴設備,由于沒有很好的傳感器,還沒有被引爆。但是科技潮流的發展方向是不可逆的,它一定會在某個時間點爆發”。
拿眼下的麥克風和攝像頭這類“入口”來說,在移動互聯網之前,它們是安防領域的標配,到了移動互聯網就成為移動設備的標配。“標配是干嗎的?還不是讓人的生活更方便嘛。標配就有可能成為入口。”不過陳波認為語音識別或圖像識別領域都還處于發展初期,無法成為替代性的東西;她說將來也不可能完全替代現有交互方式,只是所占比例會越來越多,比如 Google 就已有超過 10% 的搜索就來自語音搜索。
模式識別中心圖像組組長劉海龍舉了一個例子,拿圖像識別領域的視覺搜索來說,除了完善現有的 5 個“掃一掃”功能的庫容量外,將來也可以掃描三維剛性物體,或由商家自定義用戶想找到的東西——類似于 Google Glass。這是微信的重要產品理念:所見即所得。在劉海龍看來,攝像頭應該是視覺的延伸,“它就是我們的一雙眼睛”。
(微信模式識別中心圖像組負責人劉海龍)
我問陳波微信加入各種功能,包括模式識別技術領域的功能,會不會變得越來越臃腫?她說微信的基本格局一直沒有變,只是在各種入口之下,承載了更多東西。“不是臃腫,而是添加了更多創新的東西,很多用戶喜歡。”她舉的例子是搖一搖搜歌,“一開始的時候我們還沒有信心,這個功能也做得很隱蔽,但是后來增長曲線很健康,認可度和好評度都很高”。陳波說這個功能每天的服務次數在千萬次級別,大約有 10% 的人搜到歌曲后會去分享。這是一個不錯的分享比例。
至于人工智能可能的發展方向,比如 20 年后會是什么樣子?陳波笑稱把想象空間留給好萊塢的科幻電影。“鋼鐵俠、碟中碟 4 中有大量語音、圖像識別技術,對未來產品形態作了某種詮釋”,陳波會帶著團隊集體去看這類科幻電影,“期待有一天真的達到那個效果”。
“小龍看得很遠”
外界能看到,張小龍頂著“產品大拿”的光環,產品能力、交互設計能力很強。
“外界所看不到的,是張小龍對未來看得非常清楚”,陳波說,“為什么他會重視我們這塊?哪些東西要做儲備,哪些東西未來很重要,他會給我們很多建議。他不僅僅是告訴別人怎么做交互,他會看得更遠,他看得非常遠。我們每次跟他交流都是一個學習的過程”。張小龍會在陳波的團隊涉及到某項技術研究方向的時候給予優先級建議。不過她并沒有指具體哪類技術。
模式識別團隊每月會去廣州和張小龍交流,有時駐扎在那邊做 2、3 個星期聯調。除了交流日常工作外,張小龍也會跟他們談未來的趨勢。比如穿戴式設備、身體健康相關、脈搏分析、人臉識別、Google Glass、物體檢索方面。不過在被問到微信將來是不是與穿戴式設備聯系越來越緊密時,陳波馬上予以否定,“更多是小龍個人的愛好”。
據愛范兒從 HTC 方面人士了解,張小龍確實對硬件領域確實非常感興趣,雙方時有探討未來的硬件形態。而在本月初三星發布 Galaxy Gear 智能手表后,張小龍在朋友圈暗示微信可能入駐智能手表平臺。微信內部還有一個前沿的硬件實驗室,現已著手從 NFC 貼條、汽車中控臺等不同方向研究微信在物聯網平臺的應用。此前,友寶自動售貨機及印美圖這些基于微信平臺的硬件交互創新也得到關注和支持。
我們稍后問到張小龍和微信團隊具體關注哪些趨勢。陳波表示張小龍更關注微信帶來的交互變革及所依托的移動互聯網對行業產生的影響。“隨著硬件傳感器豐富以后,可以帶來人與機器交互的革命性改變。”她講到兩個方面,一是硬件與軟件結合,兩者結合帶來的變革會更透徹;二是隨著語音、光學等傳感器的發展,機器人研究會取得進步。“機器人長時間發展不起來,因為每個傳感器都很貴。將來科學家、極客都去研究,傳感器本身就會發展很快,帶動人工智能技術的發展”,陳波說。
她拿無人駕駛汽車舉例,“無人汽車擁有大量傳感器,很多人都崇尚這個東西,將來到了一定階段,無人駕駛汽車會因傳感器的普及而得到更廣泛使用”。不過她否定微信會涉足傳感器硬件的研究——iPhone 5s 搭載指紋識別功能,陳波說團隊可能會基于 iPhone 的技術做研究,但不會自己去做指紋識別硬件——而是要保持團隊接地氣的氣質,跟著產品戰略走。“我們用小團隊(約 1/3 人力)去研究很牛的產品,這是我們的理想”,陳波說到。
這也是張小龍和微信團隊的理想。一年前,我們曾探討微信之于物聯網的意義:
也許,在所有人都在探索的移動互聯網領域,微信還有可能重新定義被說爛的物聯網、LBS、O2O。它所呈現的互聯形態,不是復制超鏈接(hyperlink),而是去創造連接真實關系,連接所有物件,成為人機交互界面的微鏈(weilink)。
張小龍曾響應這個觀點,并在今年 7 月騰訊合作伙伴大會微信論壇上提出“解決人與企業、人與設備的通信問題”:
最終,物聯網會到來,微信不光連接人,還可以連接能上網的機器,每個機器都有個二維碼作為設備 ID,在微信里可以和設備對話來控制設備。
可以預見,隨著基礎研究和平臺相結合,特別是微信這種大型平臺強化人與物的智能連接,會帶來更多變革的可能。與傳統互聯網所不同的是,移動互聯網因為具備更豐富的連接性,基礎技術得以從各方面滲透進來改變這個行業。這甚至是一種自下而上翻天覆地的變革,目標只有一個——更智能的人類生活。
如今,微信已起跑,Facebook 已起跑,福特已起跑,蘋果已起跑,百度也以“深度學習”起跑,Google 則跑得比較遠……這條跑道,也許沒有終點,但無疑會有越來越多身影。