大數據和人工智能的關系
人工智能教育是最美的新基建
人工智能里面有一部分算法是需要數據的,首先要進去數據,然后才能學習。
比如一個大數據庫叫ImageNet,有十幾億張圖片,用了這么大量的圖片,我們才能訓練我們的深度神經網絡去做圖片中貓貓、狗狗、車輛的識別。
如果沒有這些海量的數據,很多機器學習算法是不能用的,像我們現在看視頻網站它是面向百億特征,千億參數,萬億樣本,你沒有萬億樣本就支撐不了百億特征,你可能要有一個億的樣本才有可能支撐百萬特征,而且深度學習是需要海量特征做特征工程的,所以這個時候大數據實際是很多機器學習算法得以能夠發展的基礎,但是發展到一定程度,有些算法它又突然脫離數據了,比如說我們做增強學習,像早期的阿法狗(AlphaGo),它學了幾十萬專業棋手之間的對局,它是大師,那它就下得很好,后來的阿法Zero(AlphaZero),它是自己和自己下棋,反正有規則,所以它的數據實際不是真的數據,是生成出來的,它沒有用真實數據,但是它用了增強學習,所以說它最后下得比阿法狗還強。
我覺得從大的范疇來說,大數據人工智能肯定是互相增益的,沒有人工智能很多數據發揮不了價值,更多時候我們需要人工智能算法才能挖掘大數據的價值,相當于一個是礦,一個是挖掘和提煉礦的這樣一個設備和工廠,人工智能是后者,很大程度上有了數據我們才能開發出數據相關的人工智能算法,但是有些算法和數據無關,大體是這樣的關系。