專家觀點 | 曹志冬:大數(shù)據(jù)驅(qū)動的新冠肺炎疫情預測分析


2021年7月26日,中國應急管理50人論壇·第八屆青年論壇在蘭州大學召開。在專家主旨報告階段,中國科學院自動化研究所研究員、博士生導師曹志冬作了題為“大數(shù)據(jù)驅(qū)動的新冠肺炎疫情預測分析”的主旨報告。他...
2021年7月26日,中國應急管理50人論壇·第八屆青年論壇在蘭州大學召開。在專家主旨報告階段,中國科學院自動化研究所研究員、博士生導師曹志冬作了題為“大數(shù)據(jù)驅(qū)動的新冠肺炎疫情預測分析”的主旨報告。他從大數(shù)據(jù)驅(qū)動的研究方法和新冠肺炎疫情預測分析兩個方面,為疫情的常態(tài)化態(tài)勢分析提供了科學依據(jù)。
大數(shù)據(jù)研究方法:兩個預測案例
曹志冬研究員先是以兩個大數(shù)據(jù)預測的案例作為開場。第一個案例是著名的“劍橋分析”事件,政治咨詢公司“劍橋分析”基于Facebook的27萬份個人問卷,結(jié)合Facebook用戶的瀏覽記錄,高精準地推斷網(wǎng)民的個人政治傾向。根據(jù)個人政治傾向精準推送誘導信息,最終對五千萬Facebook網(wǎng)民進行了誘導性的干預,這在很大程度上影響了美國2016年總統(tǒng)大選的結(jié)果。第二個案例是“Google流感趨勢”。2008年,Google研究組在《Nature》發(fā)表研究成果,他們利用Google搜索到成千上萬的關鍵詞組合,對流感發(fā)展趨勢建立了預測模型——“谷歌流感趨勢”,由此比CDC提前1~2周成功預測到美國流感發(fā)展趨勢。但這樣成功的預言神話卻沒有持續(xù)太久,2014年,“Google流感趨勢”預測系統(tǒng)再次受到媒體關注,但這一次卻是因為它糟糕的表現(xiàn)。研究人員2014年又在《Science》雜志發(fā)布“谷歌流感的寓言:大數(shù)據(jù)分析的陷阱” 一文,指出在2009年,谷歌流感趨勢沒能預測到非季節(jié)性流感A-H1N1。從2011年8月到2013年8月的108周里,“谷歌流感趨勢”預測的發(fā)病率達到了CDC報告值的1.5~2倍多。由此曹志冬研究員認為,大數(shù)據(jù)預測的方法對疾病預測和防控提供了新的方法和思路,但它并不是一蹴而就的。
從理論驅(qū)動到數(shù)據(jù)驅(qū)動:研究范式的革新
傳統(tǒng)的理論驅(qū)動的研究與大數(shù)據(jù)驅(qū)動的研究方法有很大區(qū)別。前者要先提出理論假設,嚴格設計抽樣調(diào)查程序,基于抽樣調(diào)查數(shù)據(jù),運用統(tǒng)計分析工具科學驗證假設,證明假設為真或證偽。但是在大數(shù)據(jù)時代,數(shù)據(jù)較為密集,數(shù)據(jù)多到能夠替代總體,傳統(tǒng)的小樣本驗證假設的方式就受到了很大的挑戰(zhàn)。在數(shù)據(jù)層面,有三個影響因素會決定研究方法或者科學實驗的成敗與否:樣本采集精度、樣本量大小、樣本能否代表總體??茖W的理論驅(qū)動研究方法必須要滿足幾個條件:1.樣本質(zhì)量可靠可用;2.滿足推斷精度條件下樣本量最??;3.布局合理,具備足夠代表性。在大數(shù)據(jù)時代,這三個維度相應地發(fā)生了質(zhì)的變化:1.數(shù)據(jù)混雜,個體精度大幅下降,可靠性低下;2.樣本量極大豐富,甚至一定程度上可視為總體;3.布局難以提前設計,具有高不確定性。
曹志冬研究員認為,小數(shù)據(jù)到大數(shù)據(jù)的關鍵在于對數(shù)據(jù)本身的理解,用于理論研究的小數(shù)據(jù)是設計數(shù)據(jù),而大數(shù)據(jù)是自然數(shù)據(jù)。設計數(shù)據(jù)有目的性強、預先科學設計、采集成本高、失敗風險大、一次性使用的特點,而自然數(shù)據(jù)則無目的性、不需預先設計、采集成本低、失敗風險小、可無限循環(huán)使用。
新冠肺炎疫情預測分析
曹志冬研究員以《Science》和《Nature》的相關研究舉例,表明盡管人們的出行模式有很大不同,但大多數(shù)人的行為是可預測的。且根據(jù)個體之前的行為軌跡,人類時空活動的可預測性高達93%。他表示,傳染病主要以接觸為主進行傳播,沒有了人員的密切接觸,傳染病就無法跨越千里,自身實現(xiàn)傳播。
接下來他介紹了中科院自動化研究所對新冠肺炎疫情預測的相關研究。新冠暴發(fā)后,他們基于已有基礎,快速建立了無偏估計的時空計量風險模型,綜合春運人流和發(fā)病數(shù)據(jù),準確估計出武漢封城前的潛在感染規(guī)模(預測發(fā)病人數(shù)1.86萬[1.4萬-2.3萬],實際1.74萬)及流向全國各地數(shù)量。2月7日,預印本發(fā)布后得到大量關注、轉(zhuǎn)載與引用,中國CDC、科學網(wǎng)、Github等國內(nèi)外疫情科研信息平臺將其列為新冠學術(shù)代表性成果,紐約時報頭版頭條報道中引用。
最后,他還對大數(shù)據(jù)在新冠抗疫中的應用進行了一些舉例,如疫情預測與形勢研判、密切接觸者追蹤、細粒度人員流動信息、物資生產(chǎn)調(diào)度平臺、疫情服務小程序、疫情數(shù)據(jù)聚合與展示等。
專家簡介
曹志冬,中國科學院自動化研究所研究員、博士生導師,國家杰出青年科學基金獲得者。任新冠肺炎疫情聯(lián)防聯(lián)控機制科研攻關組信息化專班專家組成員、“十四五”和2021-2035年國家中長期科技發(fā)展規(guī)劃戰(zhàn)略研究報告人工智能組執(zhí)筆人及多個國家一級學會的專委會委員、理事、常務理事。研究方向為社會計算與大數(shù)據(jù)、公共衛(wèi)生應急管理、時空統(tǒng)計分析。主持國家科技重大專項、國家科技重點研發(fā)計劃、基金委重大研究計劃等資助國家級課題十余項,發(fā)表SCI\SCIE\SSCI\EI檢索論文80余篇,主編/主譯著作3部,獲軍隊科技進步一等獎、二等獎、中國仿真學會自然科學一等獎等科技獎勵8項。新冠抗疫成果獲得國家領導和部委領導高度認可和重要批示,得到大量報道、轉(zhuǎn)載和引用。
專家觀點 | 樊博:面向多災種聯(lián)動的跨部門應急網(wǎng)絡研究
專家觀點 | 張海波:總體國家安全觀下的安全生產(chǎn)轉(zhuǎn)型
專家觀點 | 汪明:第一次全國自然災害綜合風險普查技術(shù)體系與進展
(本文轉(zhuǎn)載自 ,如有侵權(quán)請電話聯(lián)系13810995524)
* 文章為作者獨立觀點,不代表MBAChina立場。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流
最新動態(tài)
推薦項目
活動日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 10/05 金融MBA考生請注意 | 2026中央財經(jīng)大學金融學院金融MBA招生說明會(第二場)線上開啟
- 10/11 重磅活動上新 |從理性角度解碼經(jīng)濟現(xiàn)象!交大安泰MBA授課師資于冷教授全真試聽課堂,帶你打開經(jīng)濟學的視界!
- 10/12 報名丨邂逅南航南通站——MBA/MEM/MPAcc公開課暨項目交流會
- 10/16 聯(lián)考沖刺必備 | 10月16日交大安泰MBA網(wǎng)報填寫指導暨筆試技巧分享會開啟報名,沖刺經(jīng)驗+填報指導為你的聯(lián)考保駕護航
- 10/18 【預告| 10.18北大國發(fā)院EMBA體驗日】鄧子梁:中國企業(yè)出海形勢與戰(zhàn)略分析
- 10/19 10月19日最后一期 | 2026中央財經(jīng)大學金融學院第七期“金融MBA體驗營”暨專家會客廳報名開啟