成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中文自動轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

新聞 人工智能
首屆中文NL2SQL挑戰(zhàn)賽上,又一項(xiàng)超越國外水平的NLP研究成果誕生了。在NL2SQL這項(xiàng)任務(wù)上,比賽中的最佳成績達(dá)到了92.19%的準(zhǔn)確率,超過英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽上,又一項(xiàng)超越國外水平的NLP研究成果誕生了。

在NL2SQL這項(xiàng)任務(wù)上,比賽中的最佳成績達(dá)到了92.19%的準(zhǔn)確率,超過英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績。

達(dá)成這一成績的隊(duì)伍的名字很有野心,名叫“不上90不改名字”,團(tuán)隊(duì)成員包括來自國防科技大學(xué)的博士張嘯宇、碩士賽斌,來自昂鈦客AI的王蘇宏,他們拿下了本屆比賽的冠軍,抱走了8萬獎金。

[[279191]]

冠軍團(tuán)隊(duì)從來自CMU、北大、清華、上交、南大、中科大等多所高校和移動、平安、搜狗等公司的1457支參賽隊(duì)伍中脫穎而出,超過92%的成績,讓比賽評委、復(fù)旦大學(xué)教授肖仰華驚喜的說:“結(jié)果完全超出預(yù)期”。

而另一位評委、比賽主辦方追一科技的CTO劉云峰說,該任務(wù)的準(zhǔn)確率從比賽初期最好成績60%多提升到超過92.19%的水平,提升幅度超出了他們原本的想象。

而且由于本次比賽用到的中文數(shù)據(jù)集難度比WikiSQL英文數(shù)據(jù)集要高,證明在同樣設(shè)定下,冠軍團(tuán)隊(duì)的方案已經(jīng)超過了國外機(jī)構(gòu)最佳算法(state-of-the-art)在中文任務(wù)上的表現(xiàn)。

NL2SQL最佳方法揭秘

NL2SQL,也就是把自然語言“翻譯”成機(jī)器能理解的SQL語句,在人機(jī)交互中有巨大的價值,這樣的成績意味著,92.19%的情況下,你說的話都能被機(jī)器準(zhǔn)確的理解,并給到你想要的答案。

那么,既然機(jī)器能理解人話,那從紛繁復(fù)雜的數(shù)據(jù)庫中找到資料也是更為容易的事情了。

肖仰華教授說,現(xiàn)在阻礙大數(shù)據(jù)價值變現(xiàn)的最大難題就是訪問數(shù)據(jù)門檻太高,依賴數(shù)據(jù)庫管理員寫復(fù)雜的SQL,而且考慮到中文的表述更加多樣,中文NL2SQL要比英文難很多。

[[279192]]

 肖仰華教授

因此,解決了從中文人類語言到SQL這種計(jì)算機(jī)語言的轉(zhuǎn)化問題,那些和你對話的AI系統(tǒng)們,就會變得更“聰明”,更容易理解你的問題并找到答案,App里的智能客服、家里的智能音箱們一問三不知的情況也會少很多。

針對中文NL2SQL的問題,冠軍團(tuán)隊(duì)的張嘯宇在比賽答辯中揭秘了實(shí)現(xiàn)的方法:

[[279193]]

 冠軍隊(duì)隊(duì)長張嘯宇

WikiSQL排行榜上的第一名、來自微軟Dynamics 365團(tuán)隊(duì)的X-SQL有一些問題,模型框架不完全適配,在value抽取上colume特征不顯著,容易抽取混亂。

針對這些問題,冠軍團(tuán)隊(duì)提出了M-SQL,將原本X-SQL的6個子任務(wù)改為8個子任務(wù),并且增加三個子模型,S-num、Value抽取、Value匹配,一次性將query中含有的所有Value抽取出來,并對value和數(shù)據(jù)庫表字段的隸屬關(guān)系進(jìn)行判斷。

之后進(jìn)行了一些細(xì)節(jié)提升,比如在數(shù)據(jù)預(yù)處理方面,將數(shù)據(jù)、年份、單位、日期、同義詞進(jìn)行修正,統(tǒng)一query的范式;在query信息表達(dá)方面,用XLS標(biāo)記替換CLS標(biāo)記,這樣在線下驗(yàn)證集上準(zhǔn)確率提高了0.3個百分點(diǎn)。

用到的預(yù)訓(xùn)練模型,則是哈工大發(fā)布的BERT-wwm-ext模型。

最終的成果,張嘯宇覺得非常滿意:“我覺得機(jī)器轉(zhuǎn)的比我好,大言不慚的說,已經(jīng)超過了人類的水平。”

冠軍團(tuán)隊(duì)

“不上90不改名字”隊(duì)伍的隊(duì)長張嘯宇是一名國防生,也是一位競賽熱愛者,專注NLP領(lǐng)域。他在2018年萊斯杯軍事閱讀理解挑戰(zhàn)賽上獲得第二名;在2019年的Kaggle PetFinder比賽上獲得金牌,現(xiàn)在是榜上有名的Kaggle Master了。

中文自動轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

另一位隊(duì)員賽斌則是他在國防科大的同學(xué),王蘇宏則是他在Kaggle社區(qū)結(jié)識的一位隊(duì)友,目前也是Kaggle排行榜上前1000名的用戶。

中文自動轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

雖然取得了冠軍,不過這個團(tuán)隊(duì)籌備比賽的時間卻比其他隊(duì)伍晚了一些,他們開始準(zhǔn)備的時候,其他團(tuán)隊(duì)已經(jīng)進(jìn)行了兩個星期。

剩下的時間只有一個月了。在這一個月的準(zhǔn)備時間里,三人每天都在線上協(xié)同商量方案,平均下來基本每天都要工作五六個小時。

對于第一名的成績,他們感到毫不意外。畢竟在排行榜上已經(jīng)是第一名,準(zhǔn)確度也在這項(xiàng)任務(wù)上實(shí)現(xiàn)了業(yè)界領(lǐng)先,奪得第一當(dāng)之無愧。

最后,關(guān)于比賽的經(jīng)驗(yàn),張嘯宇總結(jié)地非常簡單:多敲代碼,多看paper。

幫技術(shù)的“錘子”,找場景的“釘子”

追一科技總部在深圳,另外在北京、上海、南京、香港、新加坡、白俄羅斯也有研發(fā)團(tuán)隊(duì)或分公司。

成立3年來,追一已經(jīng)完成了來自招商局資本、創(chuàng)新工場、晨興資本、高榕資本、紀(jì)源資本的4輪投資,總計(jì)融資額7000萬美元,招商銀行信用卡、中國移動、南方電網(wǎng)、中國人保、騰訊都是追一的客戶。

從融資規(guī)模上來看,可以說這家騰訊系的AI公司已經(jīng)是 國內(nèi)NLP領(lǐng)域的領(lǐng)頭羊了。

技術(shù)方面,追一在各項(xiàng)NLP任務(wù)上都有所突破,拿到了CoQA、CMRC2018 中文機(jī)器閱讀理解等挑戰(zhàn)的冠軍。

而在NL2SQL這個任務(wù)上,曾經(jīng)在騰訊達(dá)到T4職級的劉云峰說,中文NL2SQL在比賽之前只有追一和微軟兩家,通過這場比賽,如果能達(dá)到眾人拾柴火焰高的目的,就可以將這項(xiàng)技術(shù)推廣出去了:

“客戶這邊有一個釘子,但是不知道用什么錘子來砸;但是我們這些搞AI的公司有一個錘子,不知道去哪里找釘子。通過這個比賽我們可以很好地把釘子和錘子匹配在一起,給技術(shù)找到落地的場景。”

從NLP到計(jì)算機(jī)視覺

值得注意的是,本次比賽雖說是在NLP領(lǐng)域的賽事,但仍然吸引了不少計(jì)算機(jī)視覺方面的研究者參賽,闖入決賽的隊(duì)伍“大佬帶我飛”中的兩名成員就是CV方面的研究生。

[[279194]]

 追一科技CTO劉云峰

評委追一科技CTO劉云峰認(rèn)為,在工業(yè)落地時,現(xiàn)在越來越呈現(xiàn)出多模態(tài)融合的趨勢,視覺和NLP結(jié)合的越來越多,需要同時處理多種信號,人機(jī)交互的時候也不僅僅用到NLP方面的技術(shù),也需要用到視覺方面的技術(shù),追一科技作為一家NLP公司,本身也有視覺、語音方面的技術(shù)團(tuán)隊(duì)。

“AI公司主要做企業(yè)服務(wù),一個企業(yè)不會只要一個方向(的技術(shù)),他同時要NLP、視覺的時候不會找兩家公司,因?yàn)樗约簺]法把兩個技術(shù)融合在一起。”

因此劉云峰判斷,未來頭部AI公司一定是全棧AI公司,雖然會有最拿手的技術(shù),但不會只布局一個領(lǐng)域的技術(shù)。

最后,本屆比賽的數(shù)據(jù)集之后也會公開,或許這會是NLP領(lǐng)域下一個競相角逐的高地。

追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽上,又一項(xiàng)超越國外水平的NLP研究成果誕生了。

在NL2SQL這項(xiàng)任務(wù)上,比賽中的最佳成績達(dá)到了92.19%的準(zhǔn)確率,超過英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績。

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-08-03 16:09:42

搜狗

2011-03-23 10:20:25

中興光通信100G

2018-07-03 09:37:12

量子計(jì)算機(jī)編碼

2021-04-25 21:26:47

量子芯片U盤

2024-06-03 12:03:56

2020-05-21 10:06:23

支付寶OceanBaseTPC-C

2020-05-21 10:26:35

數(shù)據(jù)庫

2011-11-17 13:13:18

戴爾服務(wù)器

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2014-10-23 16:22:05

華為

2014-11-03 16:07:03

華為服務(wù)器

2016-06-20 17:55:18

戴爾閃存

2017-11-14 12:27:44

ThinkSystem

2019-02-21 22:25:18

曙光

2017-05-18 16:52:44

阿里云人工智能NASA計(jì)劃

2020-10-09 08:31:00

AI

2016-09-02 14:53:11

戴爾

2009-03-02 09:19:19

AMD羿龍

2023-08-15 14:55:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久亚洲精品视频 | 亚洲性人人天天夜夜摸 | a在线免费观看视频 | 国产在线观看 | 国产欧美精品 | 四虎影院欧美 | 一区二区三区av | 一区二区三区免费观看 | 成人不卡| 国产色网 | 久久成人综合 | 精品伦精品一区二区三区视频 | 久久6视频| 国产一二区视频 | 欧美理论片在线 | 国产高清免费 | 日本黄色免费片 | 亚洲一区国产精品 | 99re视频精品 | 在线观看黄色电影 | 国产观看| 久草在线在线精品观看 | 久久久在线视频 | 亚洲精品在线视频 | 日韩精品一区二区三区在线观看 | 午夜影院在线观看 | 欧美日本高清 | 在线看片福利 | 麻豆国产精品777777在线 | 少妇精品久久久久久久久久 | 日韩羞羞| 亚洲精品视频一区 | 成人精品一区亚洲午夜久久久 | 色天堂影院 | 国产www成人 | 伊人成人免费视频 | 孰女乱色一区二区三区 | 欧区一欧区二欧区三免费 | 波多野结衣一区二区三区在线观看 | 精品一级电影 | 久久偷人 |