English | 簡體中文 400 821 3659 | info@meehealth。com

醫療健康大數據之管見(上)

2017-08-01  來源:《世界醫療器械》  


作者:張繼武 2017年3月發表于《世界醫療器械》專刊 (如引用此文,請注明出處,謝謝。)


 
(一) 大數據神話

      “大數據”,如此炙熱,大有“得數據者得財富”,甚至“得數據者得天下”之勢。
       大數據時代來了,各個垂直領域人人在談大數據,仿佛一提大數據,什么問題都解決了,人工智能、認知計算,各種疑難雜癥、健康預測、科學管理、金融、商業等領域的問題,在大數據應用面前都迎刃而解。
       大數據如火如荼,醫療健康大數據更是作為民生發展的重點,受到國家重視、產學研醫青睞。今年,國家發改委立項組建“醫療大數據應用技術工程實驗室”,準備立項一家,申報單位達到18家,基本包括了國內該領域的各個重點院校科研院所研究機構醫院企業,領軍人物多由院士擔綱,可見醫療大數據在我國的重視程度。
       同時,國內關于醫療、健康大數據的會議密集,僅2017年11月和12月,在北京、在廣州、在上海,醫療大數據的專場會議很多場,在所有與衛生、醫療、健康相關的國內國際會議上,大數據都是一個重要專題。在2017年8月,由衛計委和中國電子牽頭的“醫療健康大數據聯盟”成立,盛況空前。而各個上市公司更是把自己的概念與大數據掛鉤,以期獲得充分的市場價值認可。
        尤其是投資機構、基金經理、上市公司,都非常感興趣。最為經常的問題是“你能夠獲得大數據嗎?”,“有一家信息化廠商,說能夠獲得大數據,是不是值得投入?”,“有一個團隊說有運作大數據的商業模式,是否值得投入”,“我們在做人工智能方面的研究,可以針對醫學圖像進行自動診斷,你們是否愿意投資”,“我們建立了一個第三方影像托管中心,我們將會有大數據”。
       在這里想闡明一個簡單的邏輯,當一個對社會具有巨大影響的系統或者方式存在的時候,其回報可能會很大,其投資周期也會很長,譬如facebook,改變了人類的社會交流形態關系,但是到現在也還在投入期,只有對其長期發展看好的機構才會不斷投入。同時,能夠產生如此重大社會影響的必需構成一個生態圈,這種生態圈要么是自上而下,做好完美頂層設計,進行推廣實現;要么是自發產生,經過血腥拼殺,如阿里巴巴最重勝出,形成生態環境。無論哪種路徑,形成生態環境是需要海量資金,并且持續以短跑的速度跑長跑的距離的創業犧牲精神才可以實現。因此,大數據帶來巨大商機,但是必須要有巨大和長期的投入。
       大數據,百度百科給出的定義是“大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。”IBM則提出大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
        大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。一些本領域的公司推出不同的概念,譬如最為竭盡全力的是IBM推出“認知計算”的概念,積極開發了商業應用“Watson”。Google 則利用大數據機器學習(Deep Learning)開發出AlphaGo,在2017年3月與韓國著名棋手李世石進行了人機圍棋世紀大戰,并以機器勝出贏得全球對于人工智能發展的熱議和再度重視(對于人類未來樂觀和悲觀的預測都沸沸揚揚)。


 
1.1當前醫療大數據相關的常見話題包括
1.1.1 大數據帶來的影響(社會變化)
  • 大數據與社會成本(醫療費控)
  • 大數據與社會質量(診療規則、醫療質控、輔助診斷)
  • 大數據與精準醫療
  • 大數據與健康管理
  • 大數據與統計、報警、預警、預測
  • 大數據與保險
1.1.2 大數據科研與應用
  • 大數據的數據獲取、數據建模
  • 大數據與物聯網
  • 人工智能,機器學習,認知科學
  • 大數據與養老
  • 大數據應用實例
  • 大數據系統設計經驗
  • 大數據與可穿戴設備
  • 大數據與移動醫療
1.1.3 相關問題
  • 隱私安全
  • 標準
  • 社會管理(數據的擁有權、使用權等)
1.2目前美國在醫療行業內開展大數據應用的5個領域(來自網絡文摘)
1.2.1 臨床治療
a) 比較效果研究
b) 臨床決策支持系統
c) 醫療數據的透明化。
d) 遠程病人監控
e) 對病人概況的高級分析
1.2.2 支付與定價
a) 支付欺詐與保險賂付自動檢查系統
b) 以醫療經濟學和治療效果研究為基礎的定價計劃
1.2.3藥品研發
a) 預測建模
b) 運用統計工具和算法改進臨床試驗的設計
c) 對臨床試驗的數據進行分析
d) 個性化用藥
e) 疾病模式的分析
1.2.4新型商業模式
a) 病人臨床數據與保險賠付數據集合的聚集與同步
b) 網絡社區平臺
1.2.5公共衛生
a) 大數據的使用可以促進公共衛生監督與響應。

(二) 大數據應用的工程技術關鍵

       大數據的現狀令人想起老鼠給貓掛鈴鐺的故事:老鼠們開會討論對付貓的辦法,提出一個好辦法,給貓的脖子上拴一個鈴當,當貓走近的時候,老鼠就可以聽到鈴聲,就可以逃跑了。每個老鼠都同意這個建議,但是一只老老鼠站起來說:那誰去給貓戴上鈴當呢?
       大數據的現狀很像這個寓言,大家熱談大數據帶來的革命性變化,問題是“誰去掛鈴鐺、怎么掛鈴鐺”。
       曾經參加過一次全國醫療大數據應用競賽,參賽選手、評審專家都感嘆,缺乏數據,數據質量比較差。
       大數據的應用和研究是多層次的,首先是數據獲取、數據建模,然后才是數據處理、分析,獲取知識,建立認知,提供應用。



       作為基于大數據應用的人工智能進步的目前最熱的范例,AlphaGo下圍棋實際上非常取巧。大數據工程技術包括數據獲取、數據建模、數據處理與分析、獲取知識、建立認知、以友好的方式呈現。當前而言,在大數據實現技術中,所謂的DeepLearning等數據挖掘、知識學習的算法已經成熟,公開發表的科研論文很多。恰恰最有挑戰的是如何把顯示生活中的數據抽象成模型,或者讓數據的內在關聯性(知識)更容易被發覺。而圍棋,只有黑白兩種顏色,橫19根線縱19根線,361個交叉點,看起來變化無窮,實際上對于計算機來說是最容易簡化建立模型的,唯有計算速度和計算量以及記憶(內存)是一個挑戰,但這些對于當今計算技術已經不是問題。所以,AlphaGo的成功恰恰說明,當今大數據應用工程技術的瓶頸問題在于數據獲取和數據建模。

       對于我國大數據應用發展,當前要突破發展的策略性考慮是:

2.1解決數據獲取和數據建模的瓶頸問題

       我國大數據研究和應用當前的主要問題不是硬件環境建設,而是相應的系統平臺和方法學的研究。包括,數據獲取關鍵技術,數據采集互聯互通標準的建立和推廣;數據質量,包括數據模式,異構數據的管理,數據之間的關聯性,數據的時間分布;數據挖掘的方法學中,臨床數據的特征參數提取;數據應用,臨床數據挖掘的方法學應用于臨床輔助診斷的CDSS模式;精準醫療科研等。重點在于:
2.1.2醫療大數據的采集
       大量的數據可以分析出疾病、癥狀及實驗室數據的相關性,從而幫助臨床研究人員建立針對某一些典型疾病的預測模型。在醫院的診療過程中,針對各個科室的特定應用,積累了長期的與特定疾病相關的臨床監測參數, 并隨著醫院的運營過程得到了大量的數據的積累。
同時,隨著移動互聯網技術和穿戴式醫療設備及技術的發展,通過各種穿戴式設備所獲取的用戶生命體征,為用戶健康數據的獲取提供了極大的便利。
一方面,可以通過對這些健康數據進行分析獲取用戶的健康信息以指導運動、飲食等生活習性;另一方面,與醫療數據的結合可以提高用戶疾病診斷的科學性和診斷精度。
2.1.3醫療大數據的分析
       傳統醫療行業中, 醫院信息系統完成了醫院內部的流程控制、數據積累等工作。醫療行業早就遇到了海量數據和非結構化數據的挑戰, 而近年來很多國家都在積極推進醫療信息化發展, 這使得很多醫療機構有資金來做大數據分析。醫療數據是醫療人員對病人診療過程中產生的數據,包括病人的基本情況、行為數據、診療數據、管理數據、檢查數據、電子病歷等。現代醫院中將上述數據存儲于醫院的各個信息系統之中,是醫療大數據分析的基礎。
       醫療健康數據是持續、高增長的復雜數據,蘊含的信息價值也是豐富多樣的,對醫療健康數據的有效存儲、處理、査詢和分析,挖掘其潛在價值,發現醫學知識, 將深切影響人類健康水平和治療手段。在傳統的醫學統計方法的基礎上,新的模型與技術的出現,為從數據中獲取新知識提供了新的思路。
       醫療健康數據挖掘進行健康信息數據分析常用的方法包括分類、回歸分析、聚類、關聯規則、特征分析、變化和偏差分析。針對不同的類型的病人對不同類型的生理數據、健康感知數據進行推理判斷, 大數據分析技術實現了服務臨床治療、預測疾病發病情況、跟蹤病人病情等目的。
2.1.4醫療大數據的應用
       醫療行業的傳統數據應用具有重要的參考價值, 必須明確的是大數據的發展是建立在己有的技術基礎、數據積累之上的拓展。新的信息分析技術和通訊技術為傳統的醫療網絡應用和數據分析帶來了新的思路。
      在對用戶的診療數據、健康監測數據的釆集和分析的基礎之上, 可以實現用戶身體狀況的預測、監控,甚至可以確定用戶是哪一類的疾病的易感人群。提高用戶的健康狀況水平,降低用戶的患病風險。精準分析包括病人體征數據、費用數據和療效數據在內的大型數據集, 可以幫助醫生確定臨床上最有效和最具有成本效益的治療方法。醫療護理系統將有可能減少過度治療,比如避免副作用大于療效的治療方式。

2.2 急危重癥科室有可能在大數據獲取和應用方面率先突破

       一開始就覆蓋所有病種是不現實的,工作量也遠遠超出一個重點實驗室初期可以完成的范圍。選擇特殊病種(如心血管疾病、包蟲病)能夠比較集中地充分研究大數據的應用和工程實踐,建立一個高質量的數據平臺。選擇一些典型科室,如急診、重癥科室,一來這是當今我國新醫療環境條件下急需提高的科室,是各種常見病、多發病的入口(大部分心血管、腦梗患者進入醫院的第一個環節都是急診科),也是最救命的科室,也是各類檢查最為健全的科室(各種生命參數、各種檢測設備、影像信息等),而且,急診科、重癥科的特殊性,使得其記錄的數據都具備時間信息,連續記錄,并且治療結果在短期內都有一定的明確評估,所有這些,使得這些科室的數據具有數據量大,各種不同臨床數據能夠建立很好的對應關系,具備一定的時間連續信息,并且有可能以診療結果作為驗證。數據質量非常好。
       首先,急危重癥科室是生命體征數據最豐富、數據量最大的科室之一,以重癥監護室為例,患者的電生理數據(心電、腦電)、血壓、血糖、血常規、甚至患者的影像數據(CT、MRI等)都會不斷地被檢測,僅電生理信息,每一個患者每天產生幾十萬條數據;


 
       其次,急危重癥科室是數據的相關性最強的科室,患者的檢測之間具有強烈的對象相關性,同一時刻統一患者的血壓、心率、出入量,具備大數據互相關的特性;
       再次,急危重癥科室的數據具有更大的復雜性,鑒于急危重癥科室各種典型病例以及并發癥的發生,使得獲得的數據所針對的疾病狀態具有復雜的組合關系;
       第四,急危重癥科室的數據具有更強的時間價值,一半科室獲得的數據都缺乏時間意義,而進行慢病記錄,完成大量數據記錄需要十年的時間(目前美國有相關項目進行十年的跟蹤記錄)。實際上,一個人的隨時間變化的信息比統計意義(循證醫學)的信息更具備大數據研究的價值,2015年4月期,Nature發文“Personalized medicine: Time for one-person trials”,強調一個個體的時間序列信息比大量人群的統計信息對于個性化醫療更有意義。長期跟蹤,如十年的慢性病跟蹤研究具有重要意義,同時也是耗費巨大,可實現性具有挑戰,而且要很長時間才能夠積累足夠的數據形成大數據,進行大數據研究,提煉出規則。急危重癥科室,卻恰恰在很短的時間內記錄大量的數據,沿著時間軸,因此有可能更快地測試各種大數據研究算法和成果,顯性成果。


 
       第五,急危重癥科室的疾病和診療結果能夠具有很快的確切結果,包括診斷意見,以及治療結果,這些因變量的存在,有助于大數據研究。

       近來有一個很好的例子,美國麻省理工學院(MIT)構建的多參數智能重癥監護數據庫(Multiparameter Intelligent Monitoring in Intensive Care-MIMIC)是一個成功的例子。他們就是以急危重癥科室作為切入點,長期積累了60,000病例,進行大數據研究,是目前國際上少有的具有規模和質量的醫療大數據。以此為基礎,他們在Science、Nature、柳葉刀等重要雜志發表了很多重要文章。






 
江苏11选5平台 荣鼎彩开奖 网赚方法都有些什么样的 555彩注册 平安彩票 2019最好的网赚项目 关于网赚知识技术 马云支付宝网赚是真的吗 不开网店怎么上网赚钱 支付宝网赚是真的吗