96年美女拿下了劉強東的豬臉識別冠軍,30萬獎金到手!
記者鴿子
剛剛,JDD—2017 京東金融全球數據探索者大賽決賽冠軍出爐,獲得算法組 4 組冠軍分別為:
-
登陸行為識別冠軍:啦啦隊
-
店鋪銷量預測冠軍: 小麻貓
-
信貸需求預測冠軍:小虎隊
-
豬臉識別冠軍:百變豬豬俠
商業組的冠亞季軍為:
-
冠軍進擊的巨豬
-
亞軍翔創科技
-
季軍熵商科技
其中,商業組的冠軍進擊的巨豬,里面的美女竟是個 96 小姑娘。真是集美貌與智慧于一身~~
據京東金融副總裁、技術研發部總經理曹鵬透露,此次 JDD 大賽算法組的四個冠軍團隊,將分別獲得 30 萬元獎金;而商業組的冠亞季軍、以及***網絡人氣獎,也將分別獲得將近 30 萬元、20 萬元、10 萬元、5 萬元的獎金。
同時,針對算法組,所有的冠軍團隊都會收到京東金融的 Offer。
此外,商業組的冠軍選手如果想要創業,有機會直接獲得投資,投資來自京東金融與合作伙伴設立的千億投資基金。
據悉,大賽共有全球范圍內的 4624 支團隊報名,其中算法組報名有 3783 支隊伍,商業組有 841 支隊伍。團隊的背景分別來自哥倫比亞大學、卡耐基梅隆大學,有的來自清華大學、北京大學,中科院計算所,微軟、IBM、騰訊等,也有來自藍翔技校。
其中進入決賽的共有 36 組選手,算法組有 20 組團隊,商業組 16 組團隊。
36 支團隊在京東總部進行 48 小時的封閉線下決賽,***決出算法組四個賽題冠軍。但商業組還有現場答辯環節。
據官方透露,此次進入總決賽也有來自新加坡、香港、臺灣的選手,平均年齡 25 周歲。(牛逼哄哄的小鮮肉們,可憐的營長已奔四...)
在此次比賽中,營長***時間采訪到獲得冠軍的百變豬豬俠,來看看他們到底牛在哪里?
豬臉識別冠軍選手:百變豬豬俠
在 JDD 大賽算法組“豬臉識別”賽題決賽參賽團隊中,“百變豬豬俠”的成員均來自某世界*** IT 公司的亞洲研究院,同時他們也是來自中山大學和中國科技大學的在讀學生。
對于參加這次比賽,他們表示,這完全是被一篇標題黨的微信文章還有“豬臉識別”這個新奇有趣的賽題所吸引的原因。當時團隊中的一位博士生小伙伴,在看到了一篇微信文章《冠軍獎 30 萬!劉強東搞了個“豬臉識別”比賽,中美兩地同時啟動(附比賽詳細日程及賽題說明)》(哎呀呀,這不就是營長之前所寫的文章嘛,還不點擊閱讀),從事視覺識別領域研究的他一下就來了興趣,當看到 JDD 大賽的 30 萬元獎金金額和包括國際人工智能聯合會理事會主席楊強等在內的強大的導師團隊后,就拉來了同在研究院實習的另外兩位小伙伴組成了團隊參賽。
談及最終參賽理由,因為三個人本身就是從事視覺識別領域研究的,之前做過不少相關的學術探索,同時目前人臉識別技術已經相對成熟,而豬臉識別技術其實比人臉識別更具難度,因為豬無法像人一樣配合的去面對鏡頭,因此需要識別的可能不僅僅是面部還有身體的全部和局部特征,對團隊而言也是一個新的挑戰,同時他們覺得,如果豬臉識別技術能夠成熟化,那之后將這個技術平移到牛臉、馬臉上也會很容易,因此具有很廣闊的技術前景,是一個很有價值的探索。
對于參賽過程,團隊表示,目前利用 AI 技術實現視覺識別的原理基本都是一致的,即利用計算機神經網絡的深度學習,學到每一頭豬的特征,然后利用深度學習的模型 ,針對測試數據集,得到每一頭豬的概率,***來判別哪頭豬是哪頭豬。他們的主要工作就是編寫模型代碼,然后讓模型跑測試集數據得出成績,雖然跑模型已經是比較套路化的工作內容,但由于參賽隊伍的水平都很高競爭,因此也很激烈,有時候睡一覺醒來,就會發現其他參賽對手的模型運算結果就已經領先了自己很多,所以在整個參賽過程中,不斷的根據模型運算結果,去調整模型的參數,調整多個模型融合為一個模型之間各部分的比重,成為決定勝負的關鍵因素。而本次大賽中各個團隊成績的實時榜單,也成為了促成各個團隊間互相競爭、一決高下的比擂臺,“百變豬豬俠”團隊覺得非常好。
對于參加比賽收獲“百變豬豬俠”團隊表示,這次***的收獲在于,這次比賽做出的成果,完全出乎了團隊之前的預料,拿到數據集的時候,連團隊成員自己都很難分辨哪頭豬是哪頭,當他們用模型跑完數據之后,發現***的效果比模型跑人臉識別達到的效果還要好,這次比賽驗證了一個事情,就是視覺識別技術不僅僅能識別人臉,也能識別其他動物的臉。這讓團隊成員也不由得期待大賽前期傳播中所描繪的技術前景,豬臉識別技術很可能在不遠的未來真的能幫農戶老張解決很多問題。另一個很大的收獲在于,本次比賽讓他們經歷了一個在限定時間內解決問題的挑戰,讓自己獲得了代碼編程,模型運用等能力上的增長,例如參賽前他們不知道幾個模型間孰優孰劣,但是通過這次比賽,我們就會有經驗直接選擇***的那個模型直接使用,這是在以前的學術研究中很難收獲的成長。
同時京東金融提供的數據集,也讓“百變豬豬俠”團隊眼前一亮,AI 學術研究工作相比其他科學研究不同,對數據,尤其是大量級、多維度、優質、真實的數據依賴程度高,沒有這些數據就沒法實驗與改進模型,而這次京東金融 JDD 大賽為參賽選手提供的數據,不論是維度的豐富上,還是量級的數量大上,都是同類比賽中少有的。同時本次大賽數據集的一大特點便是真實,以前他們參加的比賽中,數據集很多都是“清洗過的”即清晰、標準、易于識別的圖像素材,但真實應用場景下所獲取的素材往往沒有那么理想化,而京東金融 JDD 大賽所提供的數據集,則更加真實,這不僅僅對于他們從事學術研究的團隊而言,對于任何一個 AI 開發團隊,都是極其寶貴與難得的。
“百變豬豬俠”團隊表示,為了參加 JDD 大賽,他們在公司的時候,總是在電腦上露出豬的照片,不知情的同事路過時看到,往往會表示十分詫異,向他們投來異樣的眼光。由于團隊中的三個成員都是專注于技術研究的,對技術在商業上認知還比較幼稚,其實也是十分期待決賽現場商業界大佬的想法和觀點的,希望了解到商業大佬的想法和自己的想法有什么不同,例如他們現在能想的就是在農場里面裝一個攝像頭,讓農戶知道哪頭豬是哪頭豬,至于商業應用上的前景與價值,他們希望能聽聽商業大佬怎么說。
導師采訪
據悉,本次大賽,根據賽題的四個方向,總共有四位導師:
-
豬臉識別導師:國際人工智能聯合會理事會主席、香港科技大學計算機科學與工程學系主任楊強
-
店鋪銷量預測導師:紅杉資本中國基金專家合伙人車品覺
-
登陸行為識別導師:TalkingData ***執行官崔曉波
-
信貸需求預測導師:微軟亞洲研究院城市計算領域負責人,美國計算機學會杰出科學家鄭宇
針對此次大賽一些重要信息,AI 科技大本營***時間采訪到導師,希望其中的信息對你有所幫助。
AI 科技大本營:對這次 JDD 大賽有什么比較深的感受可以分享一下?
崔曉波:總體來看,京東金融這次的比賽最重要的是開放了很大程度的高質量數據,這是吸引選手的最重要原因。
數據和算法之間的關聯,一個是血液,一個是心臟。
AI 科技大本營:如果是學生,參加 JDD 這樣的活動,具體有什么意義?
鄭宇:這次算法組有很多是學生,他們平時在學校做訓練,是給定一些數據和基準,用算法做出結果后,跟基準進行對比,對準確率進行排名,完全不用考慮商業化是什么樣子。
但是這次比賽,真實的數據,商業化的場景,讓選手來做落地,挑戰完全是不一樣的。
因為,對學生來說,以前只是在課本上做的算法程序,現在用到真實的數據,他們會發現跟以往完全不一樣,真實的場景里面會碰到各種問題。
有的學生覺得我的學習成績好,會喝多算法,其實真的不是這樣的,到了場景里面碰到各種現實的問題,才是對學生***的磨礪和幫助。
我覺得未來,在對 AI 人才的教育中,也不應該只是在學校里關起門來培養。要到真實的場景去做真實的數據推演,這樣培養出來的人才才會有真正對社會有用。
車品覺:其實對企業來說,贏得一個重要的比賽,我們會對他評價很高。
在今天的行業里面,***的培訓就是參加比賽,不斷在比賽里面優化自己的想法算法,必須去比賽里面發現最現實的情況。
AI 科技大本營:楊強教授,您一直專注在遷移學習方面,您覺得在金融行業有沒有比較好的特殊的案例?包括互聯網銀行。
楊強:舉個例子金融行業最熟悉的就是貸款,貸款的話有不同的受眾,比如說小微貸的話就是大規模的受眾,甚至更多上千萬,這種的相對容易一些。但是有一種像 VIP 客戶,有大額的貸款,在銀行是低頻的現象,對于這種客戶建模,你像深度學習或者很多學習的方法都需要大數據支持。
現在有一個方面就是通過遷移學習,利用大數據的小額貸款遷移到小數據的大額貸款,我們也做了一些嘗試,比方說給上次公司做了一些嘗試,就取得了提高。
但是還有一個更有意思的案例,金融行業的案例往往都是一次性提高的,這個數據往往由于監管各方面的原因,怎么樣對這個數據建模,有一個辦法就是通過遷移,比如你在另外一個場景建好了模型,你把這個模型給遷移到私密場景去,讓它在本地做自適應,這個我們現在在做一種新的嘗試發現它可以同時解決效率的問題,效果提高提升的問題,同時更重要的是隱私的問題。
AI 科技大本營:通過本次大賽,能看出,選手需要加強的地方有哪些?商業化的項目到底需要什么樣的人才?
鄭宇:一個是既懂科學又懂場景結合的應用型人才,一個場景做完能應用到另外一個場景的人才,這類人才還比較少。
還有一個普遍的感覺是,選手們很年輕很有激情很有想法活力,但在表達方面,還需要更加精簡。實際上,講得越多,別人越記不住。
楊強:我非常同意。在跟人溝通方面,以及聚焦的能力方面,學生隊特別容易聚焦 10 個方向,20 個問題,而商業隊就比較容易聚焦到一個方向,這個能力還是需要實踐獲得的。我們說起人工智能和大數據現在可能最關鍵的話題是落地,但如何落地跟聚焦的能力是相關的。
車品覺:實際上,任何一個產品,必須明白誰買單,服務誰。你需要把所有的功能收到一個點,收到剛好有人愿意付錢。
崔曉波:***個是產業發展的問題,我覺得首先還是數據流動的問題,因為前幾年我們都說是不是可以通過交易和交換的方法讓整個的數據流動起來,現在我覺得從商業時間來看是比較失敗的,擁有真正高質量數據的企業是不愿意開放出來的,比如說交易數據,從來沒見他們交易數據,第二個其實政府的數據資源沒有被開發出來,這個和美國有差距,那邊的數據整理得非常好,質量也非常高。
此外因為各地也在建數據交易所,但是沒有實際的商業基礎,原因是什么呢?
因為數據是不能被用來交易的,所以在美國已經過渡到了大家覺得數據不能被交易,但是算法和模型是可以做商業化的,現在基本上是在一個過程中。
說到人才方面,因為我們公司也有很多專門這個領域的人員,我們也是給他們劃分了幾個職業賽道,就像楊強老師說的數據師,所以我看到,***個會越來越細分,以前我們說把產品經理統稱為產品經理,但是現在來看我們的商業實踐里面已經出現了專門的數據產品經理,就是專門不把數據轉化成產品,并且轉化到專業的場景應用的人,他要非常的懂商業,又知道哪些場景可以用數據,建立模型,去評估,用在哪些商業場景可以落地,這樣的人是非常少的。
第二個,中國的工程非常差,以前做軟件的有軟件工程,但現在做數據工程和數據治理這部分缺東西也缺方法,這個是整體一部分。去年也聊過這個問題,因為效率不高,90% 的數據不能應用于商業運用的模型,因為 80% 是做數據加工,但是這在我們商業里面是最有價值的一部分,把數據加工成一個可以去做模型做工程這樣的數據,這部分我覺得會有很大的一個空白去填補。
AI 科技大本營:您如何來辨別大數據公司的數據是真實有效的,因為數據的真實性驗證是比較痛苦的,誰也不能評判一個數據的好與壞或者優與劣,或者真與假。
崔曉波:就像車老師說的有一些基礎的驗證的方法,包括我們說的基礎的樣本匹配,以及選取部分的樣品判斷,這在我們公司就是質量控制部分,進我們公司所有的數據會要經過質量檢驗,我會拿三個事情去考驗,你這批數據首先會有質量的指標。
第二個從商業的指標來看,因為我必須在一個商業場景里面會先做一個測量,要測量你這個數據模型在這個商業場景里面到底是給商業的 CPI、LOY 提升了多少,我們要特別清晰的商業指標。就拿預測的舉例子,在雙十一的時候就幫助一個客戶做了銷量預測的模型,因為去年銷量預測不準,直接損失了大概 3 個多億,通過這樣的模型我們今年大概做了 3 個月,用了各種各樣的數據特征,所以數據模型對商業是有價值的。
楊強:這個是大家現在還在探討的問題,這種監管這種條例剛出來,大家也看到了各種的猜測,我個人的解讀是這樣的,一個是國家要求金融機構具有更強的科技能力,然后***這個能力是自己具有的,這樣就保證了金融機構能不斷的創新。
第二個是金融機構的金融能力不能第三方去做,所以一定要更多的自己去做,也不排除金融服務,在國外已經有很長的歷史了,像京東金融是具有特別的獨特的優勢就是它自己還具有數據,有高頻的數據,而且這種數據和網絡商業場景緊密相關的,這種結合我覺得是一個開放性的考慮,所以我們現在大家的解讀都不一樣,但是我覺得怎么樣在安全的前提下能夠做金融創新,這對國家、對廣大的金融用戶,都是好事。
科普一下大賽的背景資料
據悉,本次大賽在中美兩地同步進行,共有四大賽題,包括登錄行為識別、店鋪銷量預測、信貸需求預測和豬臉識別,每道賽題均設有算法組和商業組。
值得一提的是豬臉識別,其在知乎上的瀏覽量超過 35 萬。
在這道題中,通過豬臉識別,幫助養豬戶識別每一頭豬的身份,從而分別記錄不同的豬在養殖過程中的各種活動,判斷這頭豬是不是活躍,它是不是散養的,它是否生過病。從而在食品安全、養殖管理,甚至是為養殖戶提供信貸、保險等金融服務。
有意思的是的一個小插曲是,為了提供最真實、最全面的豬的照片,京東金融 20 多個 AI 工程師在養豬場呆了 2 天,分三組為 105 頭豬采集照片,僅一頭豬的照片就需要拍完三張卡的數量。
而登錄行為識別這道賽題,主要要求選手通過競賽模擬數據中用戶的登錄行為信息,來預測交易是否有風險,從而構建針對登錄行為識別的、有業務可解釋性的模型,對賬戶的登錄行為進行評判。
據京東金融副總裁、技術研發部總經理曹鵬稱,在這道賽題中,算法組的團隊表現,已經很接近京東金融目前正在使用的同類模型的技術水平。
附 JDD—2017 京東金融全球數據探索者大賽決賽算法組 4 組冠軍以及商業組的冠亞季軍: