【WOT2018】實踐才能出真知,人工智能在行業業務應用中的探索實踐
原創【51CTO.com原創稿件】2018年11月30日-12月1日,由51CTO主辦的WOT2018全球人工智能技術峰會在北京粵財JW萬豪酒店召開。本屆峰會從人工智能技術賦能行業升級的角度出發,緊跟技術潮流,緊抓時事熱點,覆蓋人工智能平臺工具、算法模型、語音視覺等技術主題內容,帶來了一場AI前沿理論與尖端技術激烈碰撞的知識盛宴!
本屆WOT峰會的《業務實踐》分論壇上,來自蘑菇街的圖像搜索技術負責人宋宏亮,貝殼找房租賃平臺的數據策略負責人嚴言,金山辦公的AI領域專家、高級工程師黃鴻波,分別從各自行業業務場景出發,分享了人工智能的業務實踐案例,與到場的聽眾一起探索人工智能在不同行業中的業務應用。
視覺搜索技術系統與業務應用
隨著移動應用和內容業務的發展,視覺搜索技術日益成為用戶增長和應用體驗提升的關鍵因素。蘑菇街圖像搜索技術負責人宋宏亮在《視覺搜索技術系統與業務應用》的演講中,首先分析了圖像檢索的兩種方式,然后結合蘑菇街的海量圖片/商品數據和互聯網業務場景,介紹了蘑菇街在視覺搜索方向上的技術探索和業務實踐演進歷程,并通過具體的業務案例,解讀了視覺搜索技術的落地應用之路。
蘑菇街的圖像搜索技術負責人宋宏亮
據宋宏亮介紹,圖像檢索是計算機視覺方向出現較早并廣泛研究的領域,按照描述圖像內容方式的不同可以分為兩類,一類是基于文本的圖像檢索,另一類是基于內容的圖像檢索。隨著圖像數據快速增長,基于文本的圖像檢索方法的問題日益凸現,后來業界達成共識,認為索引圖像信息的最有效方式應該是基于圖像內容自身的。
基于內容的圖像檢索技術將圖像內容的表達和相似性度量交給計算機進行自動的處理,克服了采用文本進行圖像檢索所面臨的缺陷,并且充分發揮了計算機擅于計算的優勢,大大提高了檢索的效率,從而為海量圖像庫的檢索開啟了新的大門。當然,這種方式也存在缺點,主要表現為特征描述與高層語義之間存在著難以填補的語義鴻溝,并且這種語義鴻溝是不可消除的。
目前,基于內容的圖像檢索技術已經深入到了許許多多的領域,為人們的生活生產提供了極大的便利。基于內容的圖像檢索技術在電子商務、版權保護、醫療診斷、公共安全、街景地圖等工業領域具有廣闊的應用前景。其中,在電子商務方面,谷歌的Goggles、 阿里巴巴的拍立淘等閃拍購物應用,允許用戶抓拍上傳至服務器端,在服務器端運行圖片檢索應用從而為用戶找到相同或相似的衣服并提供購買店鋪的鏈接。
典型的基于內容的圖像檢索基本框架
電商場景的數據來源主要包含賣家和用戶兩個部分。其中,賣家分為普通商家和直播主播,普通賣家上傳商品圖,包括商品主圖、附圖、SKU圖和詳情圖等,主播生產直播內容,也包含了商品的截圖和視頻。而用戶分為普通用戶和達人用戶,普通用戶對應的內容是UGC、買家秀等,達人用戶則是PGC內容。基于以上數據源,就可以構建后臺的圖像數據庫,對圖像數據處理,包括款式屬性識別、OCR文字識別、圖像特征檢索等。
宋宏亮表示,電商中的圖像數據集具有三個主要特征:圖像數據量大、特征維度高以及要求響應時間短。對于一般圖像檢索,在檢索相同的物體或目標時,易受拍攝環境的影響,比如光照變化、尺度變化、視角變化、遮擋以及背景的雜亂等都會對檢索結果造成較大的影響;對于非剛性的物體,在進行檢索時,物體的形變也會對檢索結果造成很大的影響。
而電商場景下的視覺檢索還有很多其他的難題。比如:電商平臺上每天都有頻繁的商品上架和下架,對整體的索引構建造成很大挑戰;數據規模是把雙刃劍,雖然有足夠的數據可以進行模型訓練,但是龐大的數據給搜索帶來了壓力;因商家上傳低質量的買家需求圖片或者放錯類目等原因,導致數據的質量不能得到保障。
面對以上挑戰,蘑菇街視覺搜索技術團隊進行了很多技術研發,最終構建了如下圖所示的視覺搜索技術架構。從圖中我們可以看到,接收到用戶搜索查詢,先進行類目預測,再進行目標檢測,檢測出所需要的內容;接下來,通過特征提取器,提取圖像的特征的表達;然后,基于ANN檢索得到一些充分的檢索結果;最后,通過ReRank的方式得到最終結果。
蘑菇街視覺搜索技術架構
緊接著,宋宏亮為大家解讀了其中的一些重點技術。
類目預測:主要針對圖像質量評估、同圖過濾、類目分類三個方向展開。
圖像質量評估:需要基于不同的類別進行分析,例如,較多自然景色和人肖像不同。有12個評價標準:BalancingElement,ColorHarmony,Content,DoF,Light,MotionBlur,Object,Repetition,RuleOfThirds,Symmetry,VividColor,Score。
同圖過濾:采用phash(全稱是感知哈希算法,Perceptual hash algorithm),使用該方法可以對每個圖片生成一個哈希值,任意兩個圖分別轉為二進制表示,然后計算他們的hamming distance,兩張圖片的距離越相近, 說明兩張圖片就越相似。
類目分類:建立類目樹,分為了十個大類和504個四級類目,縮小檢索數據量,提升檢索精度。
圖像特征學習:作為遷移學習的一種,finetune能夠將general的特征轉變為special的特征,從而使得轉移后的特征能夠更好的適應目標任務,而圖像檢索最根本的問題,仍在于如何在目標任務上獲得更好的特征表達(共性與可區分性)。一種很自然的方式便是在特定的檢索任務上,我們對imageNet學得的general的特征通過finetune的方式,使得表達的特征能夠更好的適應我們的檢索任務。通過基本的classification loss的finetune的方式,能夠較大幅度的提高檢索的mAP。
那么在具體的業務中,視覺搜索技術是怎么應用的呢?這里我們舉個例子,在電商基礎業務中,需要對商家上傳的商品圖片進行同款審核,并對審核后的結果做在線巡查,基于視覺搜索技術上線了同款識別系統進行同款商品判斷,系統識別準確率為99.06%,漏檢率為3%。
貝殼租房的真房源模型與信用體系建設
當前,在房屋租賃領域,仍存在著諸如房源信息不真實,信任體系缺失,以及信息匹配效率偏低等痛點。貝殼找房租賃平臺數據策略部負責人嚴言從貝殼租房自身的實踐經驗出發,介紹了貝殼租房通過大數據與機器學習的方法管控房源真實性,同時建立完善的租賃信用體系,不斷提升商家提供的服務品質,提高行業信息匹配效率。
貝殼找房租賃平臺數據策略部負責人嚴言
針對上圖中所示的諸多市場痛點,貝殼找房是怎樣解決的呢?貝殼找房的真房源模型設計和解決方案是怎樣的呢?
嚴言表示,首先我們要清楚真實房源的標準是什么。根據目前的非真實房源情況,貝殼找房定義了四個標準:第一,真實存在。房子要真實存在,不能是出租根本不存在的一套房子;第二,真實在租。房子需要是真實在租狀態,不是剛剛租出去了,而要去看別的房源;第三,真實感知。提供的信息需要與房屋真實情況一樣,比如圖片與出租房屋一致。第四,真實價格。
其次,要清楚在住的領域與租賃領域正在面臨的問題有什么不一樣。具體差別,我們可以從下圖中了解:
基于以上考慮,貝殼找房技術團體設計了如下圖所示的房源品質控制整體框架:
框架圖中左邊是數據源、平臺對接、數據流轉、基于品控的產品或服務四部分內容,右邊是品控系統,主要包括真房源模型與信用體系的建設。在真房源模型中,真房源的統計方法主要是抽樣統計,延遲統計(記錄每天鏡像),樂觀性統計(只查驗全部疑似問題房源)。
在上面圖中我們可以看到,之前提到的四真標準。對此,嚴言表示,針對每一個真的標準,都需要建立獨立的模型。以“真實在租”這個標準為例,需要用房態模型去判斷房子的當前狀態,比如通過語音識別,用戶與經紀人在聯系的過程中,經紀人有沒有出現違禁。最終針對四個標準點下所有的模型,綜合出一個真實度排序,從而實現真房源的門限和問題房源門限能夠不斷地接近和同時下降。
也就是說,在高于N1這個門限,可以認為不需要人工接入,系統判定95%以上的置信度,就是一個真房源,省去人工介入。如果判定在N3以下,系統判定置信度95%是一個問題房源,也不需要人工介入。但是,不可能完全拋棄人工,有些內容是系統無法界定的,就被稱為疑似房源,需要線上和線下的綜合判斷。
首先,需要讓N1和N3盡量接近,實現疑似房源量總量下降。其次,讓N1和N3盡量接近之后,再讓其下降,讓真房源的比例越來越高,最終實現優化。從量化上來看,希望達到三個目的:固定與量化優秀服務者的行業經驗,兼顧真房源門限與問題房源門限,降低線下審核人力,提高作業效率。
最后談及加盟平臺下的信用體系建設,嚴言認為,疏導才是治本。怎樣疏導呢?就是讓為真房源做貢獻的商家獲得利益。完善的信用體系是保證租賃市場良好運轉的基石;通過商家信用分,服務者信用檔案以及租客信用分的建設,正向引導,賦能行業;有了商家信用分,就可以區分出信用良好的商家,在商機和運營活動上給予激勵,樹立標桿作用。
知識圖譜在企業中的落地
金山辦公AI領域專家、高級工程師黃鴻波在分享中指出,在面向對象的時代里,我們常說萬物皆對象,之前我們只是來分析對象的個體,隨著互聯網和社交網絡的發展,對象與對象之間的聯系變得越來越緊密,我們把一個對象稱之為一個實體,我們現在對于實體之間關系的分析變得尤為重要,我們可以使用知識圖譜相關技術,來挖掘實體之間的關系,從而找到其中的商業價值,打造自己的知識圖譜應用。
金山辦公AI領域專家、高級工程師黃鴻波
黃鴻波認為,數據量的龐大,非結構化的保存以及歷史數據的積累,導致我們的信息知識體或者各種各樣的實體越來越膨脹,我們需要將各種各樣的知識連接起來,形成知識圖譜。
知識圖譜一般用在哪里?黃鴻波介紹說,以金山辦公為例,做知識圖譜主要是用來找人與人之間的關系,用戶與用戶之間的關系,這是很多公司中比較常用的一種應用。另外,還有實體與實體之間的關系,比如知識與知識之間的關系,企業與企業之間的關系。
黃鴻波認為,可以把實體理解為以前面向對象中的對象。任何一個事物都可以是一個對象,放在知識圖譜里,可以說任何一個對象都可以成為一個實體,這就是知識圖譜的一個核心概念。
知識圖譜在農業中的應用
以知識圖譜在農業中的應用為例,氮素缺乏會導致哪些病癥,氮素過量會有哪些病癥,對這些病癥應該作何處理,有什么防治方法。在研究知識圖譜的時候就是尋找關系,從而建立各個實體之間的關系。
提到知識圖譜中的圖數據庫選型。黃鴻波表示,在做知識圖譜或者知識圖譜的選型中,最常見的問題就是圖數據庫的選擇問題。任何一家公司做知識圖譜的目的都是落地。Neo4j和Cayley是知識圖譜中比較常用的兩個圖數據庫,最終金山辦公技術團隊選擇了Cayley。
為什么選擇Cayley?首先考慮數據體量問題,所選用的數據庫是否能夠支持大體量的數據。Neo4j的缺點:一是不開源,開源版沒有核心內容,一旦出現問題后期難以處理;二是不支持分布式,無法做分布式存儲、集群。此外,黃鴻波強調,在選擇圖數據庫的時候,除了分析圖數據庫的體量是否能夠滿足自身的數據庫,還要看是否能夠支持單機的運算速度以及性能,考慮實際的應用場景需求。
最后,黃鴻波表示,知識圖譜的落地主要有六個方面:知識的建模、知識的獲取、知識的融合、知識的存儲、知識的計算、知識的應用。
以上內容是51CTO記者根據WOT2018全球人工智能技術峰會的《業務實踐》分論壇演講內容整理,更多關于WOT的內容請關注51cto.com。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】