我被“非結構化數據包圍了”,請求支援!
阿里妹導讀:非結構化數據的內容占據了當前數據海洋的80%。換句話來說,就是我們都被“非結構化數據”包圍了。由于非結構化數據的信息量和信息的重要程度很難被界定,因此對非結構化數據的使用成為了難點。如果說結構化數據用詳實的方式記錄了企業的生產交易活動,那么非結構化數據則是掌握企業命脈的關鍵內容,所反映的信息蘊含著諸多企業效益提高的機會。而對大部分組織而言,掌握先進的非結構化數據分析能力仍是從“大數據”中獲得價值的重大挑戰。
當前,數據技術及產品部對結構化數據處理和應用已經具備了成熟的技術以及產品方案。為了應對日益增長的非結構化數據訴求,非結構化數據體系通過覆蓋非結構化數據規范、數據設計、算法能力、服務能力等來解決這一問題,該體系是對OneData體系的非結構化數據的補充和完善。已經賦能了集團內很多業務取得了非常好的效果,而這只是剛剛開始。
非結構化數據概述
“非結構化數據”是什么?相較于記錄了生產、業務、交易和客戶信息等的結構化數據,非結構化的信息涵蓋了更為廣泛的內容。非結構化數據指的是:數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、XML、 HTML、各類報表、圖像和音頻/視頻信息等。
相對于結構化數據,非結構化數據具有以下特點:數據存儲占比高、數據格式多樣、結構不標準且復雜、信息量豐富、處理門檻高。
當前行業公認:非結構化數據占數據總量的80%以上。結構化數據僅占到全部數據量的20%,其余80%都是以文件形式存在的非結構化和半結構化數據,非結構化數據包含各種辦公文檔、圖片、視頻、音頻、設計文檔、日志文件、機器數據等。
非結構化數據沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現。 下面對比一下結構化數據和非結構化數據的區別:
結構化數據,是指由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理。
結構化數據格式形式如圖下:
非結構化數據,是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等等。
非結構化數據-圖片格式如下圖所示:
非結構化數據包含的信息量豐富。非結構化數據與結構化數據最大的區別在于蘊含信息量非常豐富,同樣以圖片為例,請看下圖:
你看到了多少信息?不妨我們一起看一看:
- 人物:女人,短發,佩戴項鏈,做了美甲,......
- 衣服:女裝,黑色T恤,長袖,低領,白色褲子,薄款,緊身
- 文字:秋定制,流金詩意,2折包郵,custom
這是一些顯性信息,可以看出一張圖片里面的顯性信息就已經很多了,當然還有很多隱形信息。比如:
- 衣服材質:純棉
- 特點:時尚的版型,貼身,顯身材......
由此可以看出非結構化數據隱含的信息量非常豐富。 非結構化數據一般不能直接使用,需要通過算法等手段進行處理。但因非結構化數據本身的特點,處理難度大。比如:對評論文本信息的情感分析。為了實現情感分析,需要使用算法進行復雜的處理,通過大量的數據訓練才能完成。以商品評論數據來看,對于結構化的評論如下表:
可以直觀看出用戶感情是負向的。
同一個買家的非結構化評論:我在這家買了,缺少螺絲,商品還有劃痕直接不管。
根據以上的評論內容,如果要確定買家的情感,就沒那么簡單了。需要使用NLP算法,并經過算法效果評估等一系列過程。
因此,當前非結構化數據的處理門檻還是很高,處理難度還比較大。
非結構化數據的價值及應用
非結構化數據因其包含豐富的內容、多樣化的形態以及廣闊的想象空間,必將引爆將來的市場,無論是娛樂、教育、醫療、生活等,都將產生更豐富的非結構化數據場景、使用更智能的數據處理方式。接下來,我們就針對當前的一些場景簡單了解一下非結構化數據的價值。
ImageNet:改變AI和世界的圖片[1]
2006 年,李飛飛開始反復思考一個問題。
當時的李飛飛才剛剛在伊利諾伊大學香檳分校(UIUC)任教,她看到整個學界和工業界普遍流行一種想法,都在致力于打造更好的算法,認為更好的算法將帶來更好的決策,不論數據如何。
但李飛飛意識到了這樣做的局限——即使是最好的算法,如果沒有好的、能夠反映真實世界的訓練數據,也沒辦法用。
李飛飛的解決方案是:構建一個更好的數據集。
“我們要詳細描繪出整個世界的物體。”李飛飛說。由此生成的數據集名叫 ImageNet。
相關論文發表于 2009 年,最初作為一篇研究海報在邁阿密海灘會議中心的角落展示出來。但沒過多久,這個數據集就迅速發展成為一項年度競賽,衡量哪些算法可以以最低的錯誤率識別數據集圖像中的物體。許多人都認為 ImageNet 競賽是如今席卷全球 AI 浪潮的催化劑。
盡管經歷了很多艱辛,但是最終 ImageNet改變了人們認識數據和算法的方式。“ImageNet 思維所帶來的范式轉變是,盡管很多人都在注意模型,但我們要關心數據,”李飛飛說:“數據將重新定義我們對模型的看法。”
自 2010 年以來,谷歌、微軟和 CIFAR 推出了其他一些數據集,因為事實表明深度學習需要像ImageNet 這樣的大數據。
“圖片,很多很多的圖片”,作為非結構化數據的一種,ImageNet向我們展示了圖片的巨大威力,而我們相信,這只是剛剛開始。
店小蜜:智能客服的養成之道[2]
2016年3月,一個名叫“我的小蜜”的人工智能客服就出現在了手機淘寶和手機天貓的APP中,它可以說是店小蜜的前身,當時,它的主要工作是擔當平臺客服,為用戶解決催發貨、退貨退款、投訴和售后保障等問題。“我們開發‘我的小蜜’,是為了讓用戶能以最快的方式找到解決問題的途徑。” 小蜜的產品經理南山回憶起團隊初創時的往事,這樣說道。
整個淘寶天貓電商平臺的用戶有好幾億,如果讓每個用戶都能用快速客服通道來聯系客服,顯然會對淘寶客服團隊造成巨大壓力。怎么辦呢?人力不能解決的問題,就靠技術來解決??头藛T忙不過來,就請智能客服來幫忙。阿里每天大量的真實交易互動,讓用戶的問題都以數據的形式沉淀下來。通過這些數據,開發團隊可以得知哪些問題最高頻。而這些數據也讓小蜜不斷地進行強化學習,變得越來越“聰明”,應答準確度越來越高。
客服系統產生的文本、語音成了豐富的寶藏,通過對這些文本、語音的智能化處理,店小蜜逐漸成為了“最懂電商的客服機器人”。
“知識,各行各業的知識”,店小蜜的成功從一個角度證明了對文本、語音的運用,可以釋放出來的巨大能力。我們相信,這只是剛剛開始。
智能安保:智能化辦案[3]
2018年11月5日到10日,首屆中國國際進口博覽會在上海成功舉辦。本次進博會有一個大的亮點:智能安保。
在本次安?;顒又?,上海公安局“智慧公安”產品“智能警務中臺”成功亮相,通過對轄區1.5萬攝像頭的全量接入,實時解析,實現民警的智能化辦案?;谌W全視頻數據結構化的提取,實現人、車多維特征布控,觸網自動告警,融合視頻結構化信息、MAC、IMEI、RFID等進行多維研判,對目標嫌疑人進行行為軌跡跟蹤。
“視頻,流動的視頻”,首屆中國國際進口博覽會上智能安保的成功應用,使我們相信了對視頻監控智能化處理的巨大。我們仍然相信,這只是剛剛開始。
狂奔的應用:被“慣壞”的應用
隨著網絡的加速和人工智能的興起,仿佛一夜之間信息流、短視頻、網紅直播這些新的娛樂方式涌現在人們面前,躁動的人們攪動著躁動的市場,躁動的市場攪動著躁動的應用。頭條、抖音、斗魚、小紅書、淘寶直播等等新的娛樂或電商模式噴薄而出,網紅經濟、內容電商、信息流等新興的詞匯也如雨后春筍般涌現出來。正如蘋果廣告Think different里面描述的那樣:“你可以贊美他們,引用他們,反對他們,質疑他們,頌揚或是詆毀他們,但唯獨不能漠視他們。”也許你跟我一樣,對某些產品不以為然甚至嗤之以鼻,但是新的娛樂形態畢竟擋無可擋,每個人都不能置身事外。
仔細分析,其實不難發現,當我們經歷了互聯網時代的洗禮,對信息的渴望被極大的喚起,常規的結構化數據交互已經不能滿足人們的欲望,而伴隨著技術成熟而來的非結構化數據:圖片、視頻、語音,正式登上舞臺,催生著一個接一個的應用一路狂奔。
非結構化數據的問題和挑戰
非結構化數據雖然具有很大的價值,但是當前對非結構化數據的處理和管理卻存在很多問題和挑戰,下面結合我們的理解對這些問題和挑戰進行一個初步整理。
實體和關系分離
非結構化數據因為其自身不具有規整的形式,因此不能像結構化數據一樣按照二維表的形式存儲。因此其實體和關系是分離的。
舉個簡單例子:對于淘寶商品的圖片,其商品的信息是通過二維表的形式存儲的,但是主圖的圖片卻存在在OSS中,需要通過cdn映射才能訪問圖片內容。
這種情況出現在大部分的非結構化數據的身上,實體和關系的分離,造成了場景分析的困難。如果我們單獨看一張圖片(可參考圖:圖片蘊含的信息),其蘊含的豐富的信息如果全部靠算法去處理,不僅耗費巨大的資源,而且無法追溯其來源、曝光、使用場景等,會造成大量精準信息的缺失。如果我們從結構化數據去看,卻無法直接使用圖片本身所包含的信息(圖片的特點、圖片包含的文字、圖片包含的促銷信息)等。實體和關系的分離,造成了非結構化數據使用的困難,降低了數據的完整性。
數據分散,未形成合力
無論是從ImageNet的例子還是從集團數據的角度去看,當前非結構化數據普遍存在數據分散的現象。而實際的生活中,數據不應該是分散的,而應該形成聯動,更充分的發揮價值,便利我們的生活。
處理復雜,開發門檻高
現在對于非結構化數據的處理,離不開算法,依托于集團人工智能實驗室、各個部門的算法團隊,集團內智能化場景遍地開花,欣欣向榮。
但是,這并沒有解決非結構化數據處理復雜,開發門檻高的問題。算法的高門檻和業務的高要求,制約了非結構化數據能力的釋放。
隨著5G時代的到來,各種新的應用產生的巨量非結構化數據,僅僅依托人工的合作形態,恐怕不足以很好的實現非結構化數據的使用。工具化、平臺化、規?;瘜蔀閷淼闹攸c。
非結構化數據的思考
經過前文的描述和分析,我們對非結構化數據進行了深入的思考。
構建完整的非結構化數據資產意義重大
“單絲不成線,孤木不成林”,構建非結構化數據資產意義重大。當我們將分散的非結構化數據匯集在一起,會形成完整的用戶、商品、內容、品牌等的數據集,會形成完整的資產視圖和商業視圖。數據匯集后,各個BU看數據的視角不再是孤立的,不再是受限的。從廣度上來講,能夠從整個集團甚至整個市場的層面去查看業務的全貌;從深度上來講,能夠深入行業,形成行業專業化的知識,將業務深耕進去。
集成通用及專用的算法能力至關重要
當非結構化數據遇到MIT、PAI等集團強大算法平臺或工具后,將會充分降低算法的使用門檻,充分發揮數據的價值。屆時,80%的非結構化數據不再是放在倉庫中積灰的礦石,而是可以被加工成閃閃發光的金子;算法不再是針對具體業務去賦能的途徑,而是可以被規?;褂玫睦鳌?/p>
提供標準化、快速的非結構化數據服務前景可觀
當前無論是AWS、Azure還是阿里云,對于非結構化處理主要提供工具、算法,并沒有針對數據本身提供解決方案,不同的行業數據應該如何組織、如何訓練、如何形成行業知識庫。所謂,提供了“器”,卻沒有提供“術”。而市場上很多數據公司,則專注于某個領域的數據,如公安、電商、咨詢等行業,提供行業性的解決方案,并且取得了可觀的成果。如果我們能夠與業務深度結合,提供標準化、快速的非結構化服務,前景將會非??捎^,小到BU,大到集團乃至外部市場,具備極大的想象空間。
非結構化數據的價值還遠未充分挖掘,未來:廣闊天地,大有可為。
非結構化數據作為一種數據量大、類型豐富、與人工智能可以深度結合的數據類型,將會發揮越來越大的價值。然而如何管理、使用、快速價值化非結構化數據,當前并沒有很好的解決方案,我們團隊在綜合分析市場上的產品和深度思考后結合DT強大的數據能力,提出了“非結構化數據體系”的設想和解決方案。