機器學習如何為臨床試驗業務節省數百萬美元
?作為一家大型臨床試驗服務提供商,WCG對許多藥物和醫療設備的市場路徑具有相當大的影響。但作為30多家前獨立的公司的集合體,很難獲得支持這些服務的一致數據。這就是Tamr的數據掌握解決方案提供幫助的地方。
作為一個臨床服務組織,WCG代表制藥公司和設備制造商處理臨床試驗的所有方面,從人力資源和IT到患者參與和道德審查,為默克和羅氏等制藥巨頭以及數以千計的中小型制藥初創公司和研究集團提供關鍵服務,這些公司尋求獲得監管機構對新藥和設備的批準。
該公司唯一沒有提供的服務就是進行實際試驗。“我們不這么做。”該公司的首席技術官兼數據官阿特·莫拉萊斯(Art Morales)說。
在過去十年中,WCG通過收購35家公司,在臨床試驗行業建立了有利可圖的利基市場。每一家公司——其中一些已經有50多年的歷史——都專門處理臨床試驗過程的某些方面。這些公司開發了他們自己的定制軟件應用程序來自動化他們的各種業務流程,提供了非常有價值的知識產權來源。
從每個獨立業務的角度來看,擁有不同的系統很有意義,但這對WCG構成了挑戰,WCG希望對所有子公司的運營保持一致的看法。
該公司最初試圖以人工解決數據不一致的問題。一個大約5到10人的團隊工作了兩年,根除了35家子公司使用的不同系統中存在的拼寫錯誤、重復條目和其他數據錯誤。經過清理的標準化數據存儲在運行在云端的WCG數據倉庫中,在那里可以使用各種強大的分析引擎對數據進行分析。
“我們遇到的一個大問題是,你如何確定一個‘節點’在不同的組織中是同一個‘節點’?” 莫拉萊斯解釋道。“在一些系統中,可能有地址,也可能沒有地址,也可能地址拼寫不正確。有些數據可能只是缺失了,真的有很多不確定性。”
由于這種不確定性和需要逐個作出決定,手工掌握數據的過程是乏味和耗時的。該公司花費了數百萬美元來掌握數據,但數據仍然存在不一致性。
莫拉萊斯意識到應該有更好的辦法。他從Tamr那里聽說了一個數據掌握工具,它使用機器學習來自動識別大型數據集中的已知實體。
基于機器學習的數據掌握
Tamr是一個數據質量工具,誕生于八年前,源自麻省理工學院著名計算機科學家Mike Stonebraker進行的學術研究。
據曾長期擔任Qlik高管、現為Tamr首席產品官的安東尼·戴頓(Anthony Deighton)稱,Stonebraker認為,機器學習對于解決長期存在的數據質量問題是必要的,這些問題在大數據規模下會加劇。
多年來,解決這一難題的規定解決方案一直是主數據管理(MDM)項目。不再依賴于每個單獨的系統來確保所有的事情都是正確的,單獨的數據系統將擁有指向已知的數據副本的指針——可以稱之為“黃金唱片”。
金唱片的方法可以解決問題,至少他們是這么認為的。然而,一旦遇到現實,再周密的計劃也有化為塵土的風險。這正是傳統MDM所發生的情況。
依靠人類來清理和管理數據是徒勞的。這是行不通的。
Stonebraker對這個問題的深刻見解是使用機器學習來對數據進行分類,就像谷歌在早期互聯網上使用機器學習來自動對網站進行分類一樣,這打敗了雅虎(Yahoo)手動管理互聯網的努力。
通過訓練機器識別業務系統中的實體,Tamr找到了一種自動創建黃金唱片的方法。團隊得出的一個關鍵結論是,當人們被要求用有限的一組選項來確認一致性時,要比同時使用幾十個或數百個選項做得好得多。
臨床上黃金唱片
WCG的Tamr試驗于2021年5月開始。經過一段時間的訓練,Tamr軟件觀察并學習員工如何處理數據差異。
WCG的一組員工與Tamr一起檢查和清理數據倉庫中的所有數據源。該軟件識別了“集群”,即兩個或兩個以上的術語,它們在不同的應用程序中表示相同的東西,并作為黃金記錄加載在WCG的云數據倉庫中。
在將數據加載到數據倉庫之前,每個數據源都要通過Tamr運行。數據源的大小從大約50,000條記錄到超過100萬條記錄不等,每個實體可能有200列左右。問題不在于數量,而在于復雜性。除了將數據掌握過程加快約4倍之外,Tamr工具還產生了更標準化的數據,這意味著業務運營的清晰度更高。
“當你清理數據時,現在你可以使用更干凈的數據來獲得更好的運營洞察力。” 莫拉萊斯說。“我們可以通過Salesforce和我們的應用程序進行匹配,以知道這些是正確的東西。以前,如果數據沒有被清洗干凈,你會匹配50%。現在我們可以匹配80%。因此,使用我們正在做的事情有非常明顯的操作好處。”
Tamr不能成功地將所有實體匹配到集群中,仍然有一些邊緣情況需要人類的專業知識。在這些情況下,軟件會讓操作員知道它對匹配的信心很低。但根據莫拉萊斯的說法,Tamr非常擅長找到明顯的匹配。他說,從第一天起,準確率約為95%。
“你必須接受任何數據掌握項目都會出現不匹配。會出現第一類和第二類錯誤,”他說。“如果你能從....追蹤這些錯誤的來源就很好了。因為人類也會犯同樣的錯誤。”
此外,Tamr還有助于WCG更好地理解其數據。
莫拉萊斯說,該公司的人工數據掌握方法總共花費了數百萬美元,而Tamr的費用不到100萬美元。數據質量的改善更難量化,但可以說是更重要的。?