突破邊界:數(shù)據(jù)科學(xué)、數(shù)據(jù)工程和技術(shù)的未來
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)
不管是關(guān)注初創(chuàng)公司和它們的IPO進程,關(guān)注科技的進步,還是關(guān)注亞馬遜的re:Invent,你都會看到,這一年有很多公司在不斷嘗試突破邊界。
我個人最喜歡的2020年公告是AWS的SageMaker Data Wrangler,它旨在加快機器學(xué)習(xí)和人工智能應(yīng)用的數(shù)據(jù)準備。這是一個偉大的舉措,將有更多的流體機器學(xué)習(xí)管道,有望進一步使機器學(xué)習(xí)更容易接近的公司,不專注于技術(shù)。
我們采訪了來自不同科技領(lǐng)域的人們,請他們談?wù)剬?021年的期待,受訪者都來自具有代表性的創(chuàng)業(yè)公司和技術(shù)最佳實踐企業(yè)??纯此麄兌颊f了什么吧!
1.山姆·坎農(nóng),F(xiàn)acebook數(shù)據(jù)科學(xué)家
我覺得自然語言處理目前正以不可思議的速度發(fā)展,這令人既興奮又沮喪。一旦為文本分類或分布式詞表示聚類建立了一個像樣的管道,新的模型就會出現(xiàn),它的性能會超過昨天使用的模型。
我對NLP的發(fā)展方向感到非常興奮,尤其是針對復(fù)雜的NLP任務(wù)的開源解決方案。在這個領(lǐng)域中,我最喜歡的公司之一是Hugging Face,它也是我個人對開放源碼、最先進的NLP的晴雨表。
Hugging Face遵循了solv[ing] NLP的信條,將復(fù)雜的NLP模型和任務(wù)民主化,而這些模型和任務(wù)通常由于缺乏計算能力或?qū)I(yè)知識而不可能被許多人使用。
它們已經(jīng)提供了簡單的情感分析解決方案,只需要最少的用戶輸入。在此基礎(chǔ)上,我認為2021年將迎來一波預(yù)先打包的SOTA NLP模型,這些模型只需要一行代碼就可以使用。
在2021,我相信至少開箱即用的NLP模型將允許更多的人從他們的自然語言數(shù)據(jù)中獲得的見解,這就是我在2021年最期待的方面。
2.凱瑟琳·陶,數(shù)據(jù)標(biāo)準,數(shù)據(jù)科學(xué)家
我很興奮地看到云計算在2021年將如何在技術(shù)領(lǐng)域創(chuàng)新。云是公司存儲數(shù)據(jù)的空間,這方面尚存在一些挑戰(zhàn),比如可擴展性、效率、數(shù)據(jù)流等等。
我想看看2021會如何改善云計算以平衡技術(shù)企業(yè)所面臨的一些主要問題。許多公司都在努力將AI引入其業(yè)務(wù)中,通過創(chuàng)新云計算,更多的公司應(yīng)該能夠在其公司中實施人工智能,并以更高的生產(chǎn)率部署項目/產(chǎn)品。
3.賴利·金瑟,Terrain,產(chǎn)品主管
展望2021年,我的關(guān)注重點是地理地圖繪制新工具。我的主要目標(biāo)之一是將我們在Terrain的見解轉(zhuǎn)化為易于為最終用戶解釋的地圖。
當(dāng)今行業(yè)中的許多示例都是使用ArcGIS來完成的,ArcGIS是一種較舊的但成熟的數(shù)據(jù)映射工具。我相信可能會有更好的工具,為客戶提供一個對舊經(jīng)典的新認識的機會。我感興趣的兩個工具是Uber開發(fā)的開源項目:H3和kepler.gl。
H3的主要優(yōu)勢之一是能夠根據(jù)縮放將世界細分為大小不同的六邊形。這解決了我們發(fā)現(xiàn)的早期問題之一,即不同的用戶喜歡對都市圈內(nèi)的社區(qū),子市場或城市的邊界采取不同的觀點。這也使我們能夠更好地在國際范圍內(nèi)開發(fā)地圖,從而難以獲取邊界數(shù)據(jù)。
kepler.gl也很有趣,因為它更容易為最終用戶或MVP在線開發(fā)和托管。Uber開發(fā)了Kepler.gl,允許用戶在內(nèi)部(技術(shù)和非技術(shù))快速開發(fā)可共享的地圖,以可視化地理空間數(shù)據(jù)中的想法。
kepler.gl能夠輕松地可視化時間序列中的地理數(shù)據(jù)的功能。希望從kepler.gl成為我們的MVP,然后在開始收集用戶反饋時探索H3。
4.克里斯·杰奧里,Base10合作伙伴,負責(zé)人
電子商務(wù)(尤其是Shopify及其相關(guān)工具的興起)和遠程醫(yī)療是我最感興趣的兩個領(lǐng)域。我寫過關(guān)于Shopify生態(tài)系統(tǒng)的文章,該公司繼續(xù)達到新的高度,為200萬以上的商家提供了超過100B美元的GMV。
我對與Facebook、instagram、TikTok、支付寶、Affirm和Pinterest等新的合作伙伴關(guān)系感到特別興奮,因為Shopify成為跨消費者所在的主要網(wǎng)絡(luò),以及進行商務(wù)交易的基礎(chǔ)架構(gòu)。
電子商務(wù)的傳統(tǒng)領(lǐng)域(服裝和時尚,CPG產(chǎn)品,保健和保健等)繼續(xù)增長,而食品/雜貨等較新的類別可以通過Shopify等平臺自動上線。
遠程醫(yī)療和新的數(shù)字醫(yī)療經(jīng)驗也讓我感到興奮。從COVID來看,很明顯,就經(jīng)濟“基礎(chǔ)”而言,醫(yī)療保健是最重要的。該類別占GDP的20%(并且還在增長),幾乎沒有突破性成果,也沒有FAANG規(guī)模的公司。
我可以想象,五年內(nèi),至少會有一個巨頭出現(xiàn)(并且還期望看到Apple,Google和Amazon繼續(xù)推動醫(yī)療保健發(fā)展)。2020年對于遠程醫(yī)療來說是重要的一年,Teladoc收購了Livongo,并以$30B +的企業(yè)價值和超過$1.5B的ARR增長大于100%,創(chuàng)建了數(shù)字醫(yī)療領(lǐng)域最強大的品牌。
很高興看到嶄新的數(shù)字化健康體驗浪潮。
5.金俊, Facebook數(shù)據(jù)工程師
即將到來的2021年最令我興奮的技術(shù)是Apache Airflow 2.0版本。自2015年首次發(fā)布以來,Apache Airflow一直是數(shù)據(jù)工程中最受歡迎的工作流管理系統(tǒng)之一。
它的巨大成功可以歸因于:它允許將工作流編寫為代碼,簡單但有效的GUI,并且在構(gòu)造數(shù)據(jù)管道方面具有通用的靈活性。借助新的2.0版本,工作流管理系統(tǒng)將變得更好。
Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API,TaskFlow API和任務(wù)組。它還提供了許多改進,包括簡化的KubernetesExecutor,低延遲的調(diào)度程序以及更加直觀的GUI。
6.邁克爾·米蘭迪,土星云戰(zhàn)略主管
我很希望在2021年看到幾種技術(shù)趨勢,包括GPU計算在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中的日益普及。這種轉(zhuǎn)變是由性能優(yōu)先驅(qū)動的,以及通過開源項目RAPIDS使得易于使用成為可能。如果你不熟悉RAPIDS,可以使用RAPIDS在NVIDIA硬件上執(zhí)行Python代碼。
該團隊于今年早些時候發(fā)布了行業(yè)標(biāo)準的大數(shù)據(jù)分析基準測試結(jié)果,其表現(xiàn)要高出近20倍!有趣的是,這些基準測試不僅展示了GPU計算對數(shù)據(jù)科學(xué)工作負載的強大功能,而且還展示了其加速傳統(tǒng)數(shù)據(jù)工程ETL工作的能力。
這會導(dǎo)致更廣泛地采用Python嗎?我愿意打賭,特別是隨著一批新的數(shù)據(jù)科學(xué)初創(chuàng)公司最近發(fā)布了分布式GPU計算平臺,這是一種能夠以前所未有的速度啟動云中GPU集群的功能。
我期待著2021年能出現(xiàn)更多有趣的技術(shù)突破。