成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這個生物醫藥AI應用靠譜嗎?先回答硅谷頂尖風投六個問題

人工智能
人工智能在生物領域的應用突飛猛進,從藥物發現、診斷開發到醫療保健,每一環都能找到AI的身影,尤其在新冠疫情的影響下,AI技術飛速前進。但是,大家都面臨一個共同問題——如何評估一項AI新技術,是否值得大家投入時間、精力與金錢?本文就詳細地介紹了如何評估一項AI生物技術、需要遵循的原則以及常見陷阱。

 [[375650]]

人工智能在生物領域的應用突飛猛進,從藥物發現、診斷開發到醫療保健,每一環都能找到AI的身影。鑒于AI擁有巨大的應用潛力,幾乎每天都有AI與生物領域的新應用出現,以至于越來越難以從噪音中分辨出信號。無論是生物醫藥領域從業者、領導者,還是相關投資人與運營商,大家都面臨一個共同問題——如何評估一項AI新技術,是否值得大家投入時間、精力與金錢?

這是一個非常重要的問題。這篇文章中,我們會分享自己如何評估一項AI生物技術、需要遵循的原則以及常見陷阱。

一 你真的需要AI來解決問題嗎?
第一個問題不是關于產品,而是關于你想要解決的問題。人工智能不是萬靈藥,所以首先要考慮這個問題是否需要或將從基于人工智能的方法中受益。

人工智能在處理復雜任務或進行分析時非常獨特,因為這些任務或分析需要處理大量的非結構化數據,而這些關鍵特征并沒有很好地定義或對人類來說并不直觀。

如果你想要僅能預測受某些已知變量影響趨勢的軟件,則AI可能會過大(甚至有害)。相反,AI可以幫助你篩選復雜的醫學圖像或非結構化的健康記錄之類的數據,以幫助診斷由廣泛的相互作用或不清楚的因素引起的疾病。

您還必須考慮數據本身。是否有足夠高質量用于訓練和測試的無噪聲數據,以便使AI能夠有效發揮作用?是否需要首先單獨進行數據生成和管理?當你已經一絲不茍地對你的問題和數據進行了壓力測試,并確信對于AI來說生物問題已經成熟,那么就可以評估平臺或產品本身了。

二 是真的AI還是營銷炒作?
人們經常混淆或故意誤用「AI」這個詞,但實際上,它的意思是使用預先編程的軟件進行自動數據分析。當我們談論AI時,通常指的是自動發現獨特見解的算法或平臺,這些見解對于人類而言至少在合理的時間范圍內很難推論甚至無法推論。隨著數據隨著時間的推移而擴展,這些見解將繼續得到改進和優化。真正的AI系統是迭代的,并且變得越來越自治。

另一方面,自動化使用基于規則的系統來「預測」結果,但是這些預測無法適應。自動化可能允許重復性任務的完成,但是它無法從這些任務中學習以完成新任務。

例如,不由AI提供支持的醫學轉錄軟件可以很好地理解經典的心血管術語,但是,如果遇到較新的腫瘤學研究概念或以前尚未探索的本體論,它將無法適應和學習。

當心那些聲稱使用AI但實際上只是基于人類選擇的統計分析進行基本數據分析的公司。這看起來像一個模型,該模型基于利用醫生選擇的特征(疾病嚴重程度,年齡等)的回歸分析來估計住院時間。這不是AI。

為了識別真正的AI,重要的是要深入研究如何訓練平臺。功能是自主學習的,還是全部預先預期或預先選擇的?它是否可以根據反復試驗實際進行調整,還是受某些參數約束?準確性和預測能力會隨著時間的推移自動提高嗎?還是趨于平穩?它會創建自己的大量數據嗎?

數據消耗是AI的顯著方面,它可用于迭代地改進模型。總而言之,假冒的AI系統嚴重依賴費力的輸入和人工監督,因此無法適應。真正的AI系統具有學習能力,獨立的特征識別能力,并且隨著時間的推移而不斷改進。一旦確定要使用真正的AI,就可以更深入地探究AI的工作原理,以及它如何與競爭對手競爭。

三 該模式能否真正實現差異化?
評估任何一項AI驅動的新技術,下一步就是要確定它與競爭對手有哪些差異化之處。要了解一個產品的創新本質,自然要對其應用領域(醫學轉錄、藥物設計、生物標記物發現、臨床試驗預測等)有更深入的了解。

核心問題在于,判斷AI是否真的實現了該領域中前所未有的東西,是作為一個全新的用例出現,還是在速度、效率、成本等方面有了數量級的改進。這里的邏輯對于所有新產品都是一樣的,不管是不是AI。

當我們考慮差異化時,一切都歸結為第三方要復制該技術或提高它的難度(有沒有護城河?)。了解數據集甚至AI算法本身的來源非常重要。關于高質量開源AI軟件包和數據集民主化的驚人事情之一是,它們易于現成?,F在,即使是入門計算機科學的學生也可以將一個簡單的機器學習分類器組合在一起。

盡管這對于更廣泛的領域而言是不可思議的進步,但還必須辨別給定的平臺是否可以使用現成的工具進行復制,或者是否存在一些根本的進步。

四 有效嗎?你怎么知道的?
一旦你確定所討論的產品是真正的人工智能,并且與競爭對手有所區別,現在是時候深入了解它的量化表現了。此時,了解給定應用程序的指標,至關重要。

例如,如果你正在處理一個分類問題(例如,分類一個組織樣本是否屬于癌癥),你的目標應該是最大化準確性。了解AUC值、靈敏度、特異性等非常重要;如果正在處理一個復雜的回歸問題,如預測藥物的分子屬性值或患者治療的理想劑量,你應該努力減少誤差,度量標準如R²或RMSE是關鍵。

然而,在現實世界中,最大化準確性或最小化誤差并不足以保證成功。你必須知道效用的臨界值。由于預測建模是相對于手頭的應用程序而言的并且是特定的,因此最大精度通常是不可行的(也不要求)。這一切都基于上下文,以及適用于該問題的AI驅動算法的當前基準。從表面上看,0.71 R²可能并不令人印象深刻,但如果沒有特定應用程序的優先級,則可能令人震驚。例如,如果您要預測臨床試驗結果,那么,即使是一個不完善的系統也只能提供適度的預測性能提升(也許允許您每年取消一個額外程序的優先級),也可以為組織節省數十億美元。

了解性能后,將其與更簡單的方法執行效果進行比較也很重要。如果用更簡單的隨機森林或邏輯回歸替換你的復雜深度學習算法,了解性能如何變化,你就有機會發現模型技能的局限性。

隨著人工智能在生物技術領域的發展,可能會出現一些甚至還沒有建立基準的新應用。在這些情況下,最重要的是理解與標準方法相比,人工智能如何提高特定任務的準確性、速度或精度。(盡管這些未知的情況可能看起來很棘手,但這些新領域的機會往往是最令人興奮的!)

五 是不是……太好了?
在這一點上,也許你擁有數據,知道你的參數和基準,已經訓練了你的AI,并且它的AUC是0.99 !看起來你已經破解了代碼,你的平臺已經準備好了! 不過,先別喝香檳。作為該領域的投資者和從業者,我們已經多次目睹了這場電影的結局。劇透警告:這個超高精度的人工智能算法一旦被暴露在真實世界的數據中,很快就會失敗,給你的預測就像拋硬幣一樣。

「這怎么可能呢?」人們可能會問,尤其是在經過幾個月的訓練和驗證之后,而且利用了最先進的人工智能工具。一個可能的解釋是,答案可能已經隱藏在訓練數據集中,所以,本質上這個過程從一開始就被破壞了。簡單地說,答案測試集被意外泄露到訓練數據集。從技術上講,數據準備和交叉驗證過程會導致數據泄漏。

一個經典例證就是,從組織圖像中開發出一種看似精確的AI驅動的腫瘤檢測器,但當該系統用于另一家醫院的腫瘤圖像時,它會完全失敗?;仡欉@些數據,科學家們意識到,所有帶有腫瘤的圖像中都有一個白色的標尺來測量腫瘤的大?。顺呤请[藏在訓練集中的欺騙項,為了使模型成為一個訓練良好的標尺檢測器。這里的關鍵信息是要注意從它的「白色標尺」中清理數據,僅僅掌握統計數據是不夠的。

有時,AI模型的陷阱更隱蔽,以致于無法準確定位某個特定功能。這些比較難發現,因為它們可能不那么明顯或不像二進制,可能是R2之間的差異,比如 0.6和0.78之間。一個經常困擾AI算法的例子是時間序列數據問題。

以人工智能驅動平臺為例,該平臺致力于預測一種藥物在臨床試驗中的成功概率(PoS)。乍一看,使用所有可用的臨床試驗信息似乎很自然。測試時,當你的模型自信地預測2007年一些關鍵試驗的結果時,你也會被(錯誤地)打動。

這里的錯誤是,人工智能模型已經包含了來自未來的線索,這使得問題更容易預測。盡管數據已被清理,重復數據已被刪除并且沒有任何隱藏的線索,但是,截至2020年的臨床試驗數據集已經借由新的生物學和臨床知識(例如,新的劑量方案,與新方式的相互作用,較細化的患者亞組等進行的臨床試驗等)吸收了「作弊因子」,而這樣的模型在2007年是不存在的,也因此無法推廣到以后的試驗中。在按時間序列引入數據泄漏的情況下,我們必須注意不要讓我們模型窺視未來。

最終,一個好的模型(從而是一個好的產品)可以確保訓練數據真正代表并推廣到將要分析的真實世界的預期數據。

六 是否進行了前瞻性試驗,作為驗證的黃金標準?
最后,即使認真地執行了上述所有步驟(并且選擇了明確的控件來建立基線,確保沒有偏見或數據泄露的暗示,檢查了訓練數據是否可以推廣),你仍然只測試了AI平臺使用歷史數據與預先確定的答案。簡單地說,一切都是回顧性的。而對于現實世界的應用程序,你只能控制這么多,未知可能會讓你摔倒——即使你并沒有打算作弊!

在對給定技術做出最終決定時,沒有什么比精心設計的隨機臨床試驗(如前瞻性測試)更能真正驗證AI平臺的了。這是測試的圣杯——真實生活中的預演。不過有時在時間,資源和新技術的成本方面可能不切實際,因此,下一個測試最好是某種形式的回顧性盲法測試。一個經典的基準數據集可以讓你有機會在一對一的研究中,比較不同競爭技術的性能。

總之,隨著人工智能繼續滲透到生物技術的每一個角落,我們相信這些指導原則對于從業者和商業伙伴都是至關重要的。但這些復雜的模型——以及它們在復雜生物學上的應用——需要一套獨特的技能才能真正理解。我們認為,企業必須將他們的人工智能專家與其他領域專家結合起來。只有這種協同的結合才能充分發揮人工智能在生物領域的巨大潛力。但對于那些曾經懷著好奇或懷疑態度「袖手旁觀」的人來說,這個框架可以成為一個切入點,讓他們開始評估一個特定AI產品是否值得他們投入時間和資本。

說明:

1、曲線下面積(Area under the curve, AUC)是分類問題的一種性能度量,表示可分性的程度或度量。它告訴我們一個模型能在多大程度上區分不同的類。AUC越高,模型的預測能力越強。理論最大值為1。當AUC為0.5時,說明模型根本沒有分類能力。

2、R²或r²是對數據點與模型匹配程度的一種衡量。R²的理想值是1。R²的值越接近1,說明模型對數據的擬合越好。

3、RSME:均方根誤差(RMSE)是預測定量數據時模型誤差的度量。RMSE越小越好。

4、交叉驗證主要是人工智能應用于對看不見的數據估計模型的技巧。首先,將可用的數據集分割為訓練數據、驗證數據和測試數據的三個子集。使用訓練集對模型進行訓練,該過程的目標是在某些指標(如準確性)上獲得最高分數的模型。最后通過測試數據集判斷模型的性能來衡量模型的成功與否。

參考鏈接:

https://a16z.com/2021/01/08/evaluating-ai-bio/

責任編輯:梁菲 來源: 機器之能
相關推薦

2009-08-14 10:56:09

曙光高性能生物

2016-01-04 10:03:48

2019-04-11 13:25:58

2021-01-04 09:32:30

數據平臺架構

2012-10-16 09:54:21

MapRHortonworksCloudera

2015-07-28 10:52:36

DevOps

2022-09-13 08:47:59

CIO董事會IT

2021-11-11 15:13:15

人工智能容器技術

2023-09-10 20:31:01

AI

2022-01-26 10:48:40

虛擬貨幣貨幣比特幣

2024-08-30 16:18:44

2024-08-05 14:42:43

2018-03-04 23:08:25

安全運營自動化事件響應

2017-11-24 14:17:44

身份管理遷移云端

2019-03-21 12:10:56

騰訊管理年輕化

2014-02-11 09:25:09

2022-04-27 11:39:19

推特馬斯克
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 毛片免费视频 | 欧美猛交| 天天天天天天天干 | 不卡在线一区 | 欧美日一区二区 | 日韩美女一区二区三区在线观看 | 精品国产欧美一区二区三区成人 | 精品亚洲一区二区 | 日韩成人在线观看 | 国产高清视频一区 | 亚洲精品日韩一区二区电影 | 四虎在线视频 | 91影院在线观看 | va精品| 天天拍天天插 | 久久久久久久久国产成人免费 | 日韩电影一区二区三区 | 日韩成人 | 国产精品久久久久久模特 | 黄色网络在线观看 | 欧美日韩在线一区二区三区 | 久久久久久久久久久高潮一区二区 | 国产精品久久久久久久久久久久 | 国产激情视频在线 | 九九视频在线观看 | 国产超碰人人爽人人做人人爱 | 久久久久久九九九九九九 | 亚洲三区视频 | 中国大陆高清aⅴ毛片 | 久久久久国产一区二区三区 | 亚洲精品久久久 | 精品久久电影 | 91精品久久久久 | 丁香婷婷在线视频 | 草久久| 麻豆视频在线免费观看 | 欧美精品一区二区三区在线 | 国产中文区二幕区2012 | 国产精品久久久久久久久久久久久 | 精品国产乱码 | 亚洲a在线观看 |