成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用大數據預測退伍士兵的自殺風險

大數據
由于自殺議題的復雜性和敏感性,加上美國軍方面臨的嚴峻形勢,使Durkheim 項目受到各方的密切關注。因此,就此而言,“該項目的技術層面與社會工程相比來說要容易得多,”Poulin 說到,“如果一個人真的一心想自殺結束自己的生命,那么必須要具備足夠的信息同時足夠耐心溫柔,幫助他/ 她找到更好的解決方法。”

概述

Patterns and Predictions(P&P)是一家預測分析公司,其核心技術提供非結構化和語義驅動的預測。正是該技術為Durkheim項目的“大數據”分析網絡提供了用于評估心理健康風險的技術支撐。Patterns and Predictions(P&P)公司的合作伙伴包括彭博(Bloomberg)、達特茅斯的蓋瑟醫學院(The Geisel School of Medicine at Dartmouth)、Cloudera和Attivio。其客戶包括全球100強大型公司。該公司的主要合作伙伴Chris Poulin,是該公司核心Centiment®技術的共同發明者,Centiment®是一種提供非結構化和語義驅動預測的技術。

Durkheim 項目是為了紀念法國社會學家David Émile Durkheim在1897年出版的書籍《自殺論(Suicide)》而命名的,在該書中其最早定義了自殺風險的文本分析,并且提供了與社會脫節相關的重要理論解釋。該項目遵循其Durkheim的研究方向,即Durkheim所稱的自殺的“特性” – 指向自殺風險的具體模式和線索。而Durkheim 項目具有一個創始社會學家未曾擁有的有價值的工具,即技術。

面臨的挑戰

自殺多年來一直困擾著美國軍方。如今,這種無處不在的戰爭后遺癥對于美國社會來說,是一場長期且無處不在的戰爭,并且令人震驚的是傷亡率仍在持續增加。在很多文章中都提到了這一問題,其中美國《時代(Time)》雜志報道說,2012年全年美軍達到了創紀錄的349例士兵自殺事件,遠遠超過了美軍同期在阿富汗戰死的士兵數。士兵自殺的比例大約是美國一般民眾中成年人的兩倍。

在《2012年自殺數據報告》中,美國退伍士兵事務部(VA)指出,“關于退伍士兵自殺風險的特征和結果的信息對于改善自殺預防計劃的制定是至關重要的。”

Durkheim 項目旨在提供這一重要信息。憑借其強大的高級分析、實時預測建模和機器學習協同工作功能,該項目尋求確定退伍士兵的溝通和自殺風險之間的關鍵相關性,Fast Company 稱贊其為我們所見過的“對大數據最重要的使用”。

關鍵要點

行業

• 政府

• 醫療保健和生命科學行業

地理位置

• 美國新罕布什爾州普茨茅斯

支持的業務應用

• 識別自殺風險因素的預測分析

影響

• 實時溝通和自殺風險之間的準確的、語義驅動的相關性

• 基礎架構提供了更低的成本,更好的計算吞吐量,并降低了IT 支持的復雜性

使用的技術

• Hadoop 平臺:CDH

• Hadoop 組件:Cloudera Impala和Cloudera Search

• 服務器:Cray grid、Amazon EC2

• 分析工具:Patterns and Predictions Centiment®;Attivio

大數據規模

• 每天實時處理超過1TB 的作業

• 實時支持高達100,000 名現役和退伍士兵

解決方案

第一階段

Durkheim 項目于2010年開始設立,該項研究最初由達特茅斯學院(Dartmouth College)發起,并且P&P 和Poulin 都參與了該項研究。Poulin 及其專家是該項目的多學科協作團隊的關鍵成員,其中還包括人工智能領域的專家,以及來自私人公司、達特茅斯蓋瑟醫學院(Dartmouth’s Geisel School of Medicine)和VA 的醫療專業人員。

該項目的第一階段開始對三個實驗組進行研究,每個實驗組包含100 名受試者,分別代表“非精神失調”、“精神失調”和“自殺陽性”狀態。研究人員開發了語義驅動的預測模型,從非結構化臨床診治記錄數據中預估可能的自殺風險。

2011 年,P&P 開始引入該技術,并建立了綜合性的基礎架構和預測模型,在經過系統擴展之后可以支持該項目海量的數據收集和分析工作。此外,Apache

Hadoop 等分布式技術為高效和高度可擴展的大數據平臺提供了適宜的解決方案;但是該項目需要一個輕量級的機器學習框架,該框架可以在Hadoop 上運行并能檢測大規模的實時風險。

Poulin 解釋說:“大多數大數據機器學習解決方案的精確度都很低,或者在實施以及與我們現有環境的集成方面非常復雜。”

Cloudera 公司在Hadoop 和大數據領域的領導地位和豐富的專業知識使Poulin 能夠充分利用Cloudera 專業服務共同開發貝葉斯計數器(Bayesian counters),這是一個基于Apache HBase 和市場主流的100%開源CDH(Cloudera’s Distribution Including Apache Hadoop)基礎上,能夠大規模檢測風險的輕量級統計模型。基于Cloudera 的框架體系是Durkheim 項目的技術基石。

通過引入獨立的統計指標(包括關鍵字組合、模式和其他語義線索),仔細分析來自各種退伍士兵數據庫源的先前數據,對該緊密集成的系統進行“訓練”。在訓練后,機器學習功能可以識別出實際數據中的有用線索,并建立風險“得分”。

因為自殺是一種個體行為,而且傾向于自殺的個人往往在體態方面都保持良好,Poulin 解釋說:“風險信號比較弱。當大規模部署該系統時,機器學習功能必須對大數據非常敏感。”

第一階段的構建和測試工作于2013 年初完成。結果驗證了該項目的機器學習數據結構是可行的,并且證實了其預測能力在預測退伍士兵控制組自殺風險中有65%的準確率。

“ 憑借Cloudera Search 和Impala,Hadoop 在數據擷取方面可以非常有效地降低成本,提高計算吞吐量以及降低IT 支持的復雜性。”

Chris Poulin,Patterns and Predictions 公司首席合作伙伴

第二階段

Durkheim 項目的第二階段于2013 年07 月啟動,在Cloudera 公司的支持下,其重點關注的是針對不同類型的結構化和非結構化數據的“大規模自主性預測”的最終目標。同時,Facebook 在這一階段加入了DARPA,通過推廣自愿參與者的內容以支持項目的監控目的。

因為參與者目標數量為100,000 名退伍士兵,因此該數據肯定會非常“大”。選擇參與該項目的退伍士兵會收到一個獨特的Facebook 應用程序以及一個移動應用程序(iOS 或Android 系統),這些應用程序都旨在收集用戶帖子、Tweets、手機上傳數據,甚至是位置信息。這些應用程序還收集一些其它特性數據,包括醫師信息和臨床診斷記錄。為了確保遵守各種隱私和HIPAA 法規要求,所有采集的數據都存儲在達特茅斯蓋瑟醫學院裝有醫療防火墻的安全環境中。

隨著眾多參與者的不斷加入,該系統建立起了個人資料信息,并且蓋瑟醫學院的研究人員和臨床醫生都可以通過儀表板訪問這些信息。該系統根據共性信息和針對每一位參與者特定的關鍵字為每一種特性都指定了總體風險評分。

對連續導入的大數據池使用文本分析可以提供指數級數量的變量,然后可以對其進行比較和分析,從而實現對參與者的心理健康的實時評估。Poulin 說到:“分析這些數據的計算處理需要建立一個大數據結構,但其帶來的好處是可以獲取更多的信息量。”

該項目的技術目標是“以最低成本實現最大速度”,這就促使了Cloudera Search 和Cloudera Impala 的采用。“該項目的工作流非常復雜,”Poulin 解釋說,“我們所有的機器學習都建立了索引,我們實際上通過搜索接口訪問了所有的機器學習,因此代價是非常昂貴的。憑借Cloudera Search 和Impala,Hadoop 在數據擷取方面可以非常有效地降低成本,提高計算吞吐量以及降低IT 支持的復雜性。”

Durkheim 項目第一階段的實驗結果預測了退伍士兵對照組中的自殺風險的精確度達到了65%,表現出顯著的統計學意義。

影響力

由于自殺議題的復雜性和敏感性,加上美國軍方面臨的嚴峻形勢,使Durkheim 項目受到各方的密切關注。因此,就此而言,“該項目的技術層面與社會工程相比來說要容易得多,”Poulin 說到,“如果一個人真的一心想自殺結束自己的生命,那么必須要具備足夠的信息同時足夠耐心溫柔,幫助他/ 她找到更好的解決方法。”

盡管如此,Durkheim 項目仍然處于初始階段,僅被美國軍方授權用于監測和分析數據。雖然該項目已經提供了統計學上有效的結果,準確地預測退伍士兵控制組中的自殺風險,但是其關鍵研究結果(至少暫時)仍然受到非干預性協議的限制。通過使用Cloudera,Poulin 希望,該項目不斷進步的風險分類器將有助于該項目建立實時評估風險的能力,以便他們能夠應用于干預性研究。

Poulin 指出:“在這種情況下,大數據的目標承諾之一是可以縮短需要幫助的人和可以幫助他們的系統之間的距離。這就是我們奮斗的目標,并且我們希望繼續與Cloudera 公司一起竭誠合作,矢志不移地向著成功前進。”

責任編輯:武曉燕 來源: 36大數據
相關推薦

2024-10-22 15:06:55

2013-11-08 17:57:01

SAP

2018-03-16 11:50:33

大數據數據科學安全

2018-02-01 16:25:55

2023-12-26 15:53:40

2020-02-04 11:06:42

大數據技術存儲

2020-09-15 15:38:05

黑客網絡攻擊數據泄露

2020-01-20 14:02:07

大數據IT物聯網

2020-01-07 15:56:38

大數據數據IT

2013-02-26 10:44:50

奧斯卡大數據微軟

2016-10-25 09:25:36

大數據樓市走勢

2016-10-12 09:22:51

數據分析技術Apache Kyli

2020-06-10 09:24:56

大數據疫情技術

2015-08-06 09:15:22

2017-07-17 15:02:51

大數據銀行用戶流失

2020-12-11 12:49:03

大數據信息數據分析

2014-06-16 16:08:55

大數據

2013-02-26 09:42:14

奧斯卡小金人微軟

2013-12-19 10:23:03

2013-01-16 14:28:03

SAP大數據預測分析SAP HANA
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩高清一区二区三区 | 中文av电影| 午夜在线小视频 | www.久久.com| www.youjizz.com日韩 | 亚洲人精品午夜 | 久草热在线 | 色综合天天综合网国产成人网 | a视频在线 | 国产人成精品一区二区三 | 久草青青| 精品久久久久久 | 毛片免费观看 | 日韩视频 中文字幕 | 在线三级电影 | 国产精品久久性 | 亚洲精品中文字幕 | 欧洲成人 | 欧美视频在线看 | 97人人澡人人爽91综合色 | 青青99 | 国产精品久久久久久久久久久久久 | 久久久www成人免费无遮挡大片 | 国产精品国产三级国产aⅴ中文 | 亚洲视频一区在线观看 | 欧美综合视频 | 国内精品视频一区二区三区 | 成人在线观看黄 | 日韩午夜网站 | 精品乱子伦一区二区三区 | japan21xxxxhd美女 日本欧美国产在线 | 一区二区视频在线 | 福利久久 | 成人精品毛片 | 久草资源在线 | 一级二级三级黄色 | 精品久久久久久久 | 久久一区二区三区四区五区 | 久久青青 | 欧美一区免费 | 岛国av免费在线观看 |