你下一秒干什么,算法都知道
計(jì)算機(jī)在某些領(lǐng)域的表現(xiàn)還不足以令人滿(mǎn)意——例如人臉識(shí)別(不要聽(tīng)媒體亂吹)和找出巨大數(shù)的質(zhì)因子(目前絕大多數(shù)加密方法的基礎(chǔ))。面對(duì)海量的可能性和洪水般的細(xì)微差別:計(jì)算機(jī)必須窮舉出所有可能才能得到正確答案。但是不管讓計(jì)算機(jī)辨認(rèn)鼻子還是找數(shù)字,本質(zhì)上都是處理和運(yùn)作。對(duì)于分析人類(lèi)的動(dòng)作,計(jì)算機(jī)顯得力不從心,在這方面目前還是人腦處理地更好。
面部識(shí)別和行為識(shí)別是安全領(lǐng)域和社交網(wǎng)絡(luò)的重點(diǎn)研究課題。目前遍布許多城市的閉路攝像頭網(wǎng)絡(luò)都離不開(kāi)人眼。不難想象全球各個(gè)安全機(jī)構(gòu)有多么渴望隨時(shí)監(jiān)控每個(gè)攝像頭。倫敦多么希望每個(gè)角落都有一臺(tái)監(jiān)控設(shè)備(甚至兩臺(tái),甚至三臺(tái))。
在今年六月份即將召開(kāi)的計(jì)算機(jī)視覺(jué)和圖像識(shí)別大會(huì)上,來(lái)自麻省理工學(xué)院和加利福尼亞大學(xué)的研究人員將展示一種全新的運(yùn)動(dòng)識(shí)別算法,而這種算法將秒殺以前的人眼監(jiān)控。算法基于自然語(yǔ)言處理算法,并且在某些關(guān)鍵領(lǐng)域可以擊敗現(xiàn)有的技術(shù)。
比如說(shuō),算法使用內(nèi)存的方法比較智能(會(huì)占用大量虛擬內(nèi)存),可以保持內(nèi)存使用量恒定,使得觀(guān)看/處理大型文件和流媒體視頻成為可能。
處理流媒體本身就是巨大的技術(shù)進(jìn)步,新算法甚至有能力處理沒(méi)有完全完成的動(dòng)作。比如說(shuō),某位仁兄在街上突然將手伸向其他人的外衣口袋,這個(gè)時(shí)候算法就能預(yù)測(cè)他接下來(lái)將完成的動(dòng)作。某種意義上說(shuō),新算法可以預(yù)測(cè)未來(lái)。不過(guò)相比起預(yù)防犯罪,它的主要功能還是動(dòng)作識(shí)別。
研究人員提出一種名為“行為語(yǔ)法”的奇怪設(shè)想,他們認(rèn)為既然詞匯可以按照一定的規(guī)則組成句子,那么相應(yīng)的,動(dòng)作也應(yīng)該有相應(yīng)的規(guī)則,也應(yīng)該有子動(dòng)作。
來(lái)自麻省理工學(xué)院的博士后研究生Hamed Pirsiavash認(rèn)為最難的部分在于將動(dòng)作進(jìn)行分類(lèi),找出哪些是主語(yǔ),哪些是動(dòng)詞,哪些又是副詞。Pirsiavash說(shuō)例如倒茶或做咖啡這種動(dòng)作是由若干個(gè)子動(dòng)作連接而成,他的工作就是將這些子動(dòng)作拆解并分類(lèi)。
算法具有機(jī)器學(xué)習(xí)機(jī)制,電腦程序會(huì)從輸入數(shù)據(jù)設(shè)備中學(xué)習(xí),經(jīng)過(guò)一定時(shí)間的“訓(xùn)練”,程序便更加聰明。程序會(huì)一邊觀(guān)察含有不同動(dòng)作的視頻,一邊對(duì)各個(gè)子動(dòng)作進(jìn)行掃描。
通過(guò)觀(guān)察某個(gè)特定動(dòng)作的起始部分,程序可以給出所有該動(dòng)作結(jié)束時(shí)的可能性,按照可能性高低排列出來(lái)。當(dāng)視頻繼續(xù)進(jìn)行時(shí),新加入的信息會(huì)排除某些動(dòng)作的可能,(即便人的動(dòng)作沒(méi)有變化,本身也是一種新信息,因?yàn)闀r(shí)間也屬于信息。)程序會(huì)重新排出可能動(dòng)作的發(fā)生概率。一旦程序掃描到了某個(gè)重要?jiǎng)幼鳎湍芊浅?zhǔn)確地預(yù)判接下來(lái)發(fā)生的動(dòng)作。
[王大發(fā)財(cái) via Vice]