北京大学大数据分析与应用技术国家工程实验室助力科学抗疫
2020年,一场突如其来的新冠疫情席卷全球,北京大学大数据分析与应用技术国家工程实验室(以下简称“实验室”)各团队、中心积极响应习近平总书记关于打赢抗击新冠疫情的人民战争、总体战、阻击战的号召,及时完成了系列研究成果,以实际行动助力科学抗疫。
王腾蛟团队研发多源大数据疫情防控研判系统
1月底,实验室数据管理及分析中心王腾蛟教授团队接到学校一项紧急任务安排:发挥团队在大数据分析技术方面的优势,立即投入大数据疫情防控研判系统的研发,为疫情研判服务。从那时开始,王腾蛟团队的老师和同学们闻令即动,争分夺秒,立即进入了全力以赴的科研攻关状态。
由于疫情的突发性和高传染性,原有数据统计和分析方式存在来源单一、覆盖面小、缺少综合研判机制等问题。为了与疫情拼速度,及时掌握真实全面的疫情数据并对这类数据进行高效的分析和准确的趋势预测,王腾蛟团队集中攻关,连续奋战,迅速研制开发出多源大数据疫情防控研判系统(Pneumonia Epidemic Situation Analyst ,PESA)。系统采集多种来源的数据,包括全球疫情每日发布信息、疫情相关网络舆情信息、各国疫情环境数据等,通过疫情分析因素提取方法,从采集的多源数据中提取出用于疫情发展研判的因素数据。各个来源的数据和预测模型相互独立又互相补充,最终通过多个预测模型的集成学习,生成对疫情发展的多维度研判结果,为我国疫情防控指挥和部署提供科学有效的决策支持。
3月以来,在国内疫情防控形势积极向好的同时,疫情在全球快速蔓延。积极稳妥地做好应对海外输入风险工作,坚决维护好前一阶段来之不易的疫情防控成果,成为我国当前最重要的任务。王腾蛟团队及时追踪疫情形势发展,开发了基于多源大数据集成学习的国际疫情发展研判系统(PESA-Global),并依据该系统对国际疫情发展态势做出预测和研判,每天上报一次《疫情预测日报》,每周上报一次《疫情防控政策研判报告》。
国际疫情发展研判科研团队核心成员包括:王腾蛟、陈薇、博士后常一鸣、博士生高翔、博士生王鹤媛、硕士生王朝和硕士生韩愉等。
周晓华团队展开科研攻关迎战新冠病毒疫情
如何科学、高效地控制住疫情发展是亟待解决的现实问题。实验室数据处理及统计分析中心主任、北京大学公共卫生学院生物统计系主任、北京国际数学研究中心生物统计及生物信息实验室主任,统计科学研究中心副主任周晓华教授团队针对这一重大现实需求,全力开展新冠肺炎疫情科研攻关,并取得一定进展,已撰写多篇简报或论文,部分成果已公开发表。
周晓华团队综合利用流行病学数据、病毒基因数据和交通流量数据等各种信息,从数学模型和统计模型相结合的角度对本次新型冠状病毒疫情的发生和发展过程进行深入研究,力图阐明新型冠状病毒的疾病流行特点和规律,为防控新型冠状病毒疫情提供以数据为基础的定量化决策建议。
团队于1月23日完成了武汉市在封城前新型冠状病毒潜在感染人数的估计(An Estimation of the Total Number of Cases of NCIP (2019-nCoV)),这项成果于1月29日被中国疾病预防控制中心官方杂志《中国疾病预防控制中心周报(英文版)》(China CDC Weekly)接受发表。文章作者是Chong You(尤翀)、Qiushi Lin(林秋实),通讯作者是Xiao-hua Zhou(周晓华)。
团队提出新冠病毒潜伏期新估计方法及传染病动力学模型。新的传染病动力学模型对主要地区的疫情状况进行综合分析,模型估计出的确诊人数与报道人数具有高度一致性,同时对无症状病毒携带者的比例进行了估计。由张云俊、张原、尤翀和周晓华共同撰写的“基于数学和统计模型的新型冠状病毒(SARS-CoV-2)传染规律分析和决策”已被《中华医学科研管理杂志》在线发表。
周晓华团队率先采用更新过程(renewal process)理论对潜伏期的分布进行估计。这一方法通过可观察的离开武汉时间到发病时间,即可以得到不可观测的潜伏期的分布。
在“浙江大学新型冠状病毒肺炎(COVID-19)应急科研专项”资金资助下,周晓华团队联合灵迅医药科技搭建了新型冠状病毒疫情分析监测平台,并可在线展示。目前,他们已经收集湖北省外上万余名确诊患者信息及部分国外病例信息,主要包括基本人口学特征、临床诊疗经过和流行病学接触史等三方面共计25项信息。目前团队正在推进系统平台与分析算法融合,下一步将融合课题组及全球预测模型,对世界范围疫情关注点进行分类、分区域预测。
新型冠状病毒疫情分析监控平台示例图(全国疫情概况)
团队撰写的相关论文“Estimation of the time-varying reproduction number of COVID-19 outbreak in China”“Estimating the daily trend in the size of the COVID-19 infected population in Wuhan”“Estimation of incubation period distribution of COVID-19 using disease onset forward time: a novel cross-sectional and forward follow-up study” 均可在网络上检索预印本进行查看。
(来源:北京大学公共卫生学院、北京国际数学研究中心 文字:北京大学周晓华教授团队 图片:北京大学周晓华教授团队、ChinaCDCWeekly官网)
邹磊团队建立知识图谱系统助力科学抗疫
在全民抗疫的关键时刻,OpenKG推出了新冠疫情专题知识图谱数据集,实验室知识集成和智能决策中心主任邹磊教授团队在此基础上将数据转化成RDF数据,并基于gStore建立了知识图谱系统,为广大科研工作者提供知识服务。本次发布的疫情知识图谱访问平台由大数据分析与应用技术国家工程实验室知识集成和智能决策中心发布。
团队在本次OpenKG发布的新冠知识图谱数据基础上,将其转化为RDF三元组数据格式,并导入gStore图数据库,提供基于云端的Endpoint接口服务。目前用户可通过SPARQL查询语言进行访问,同时他们正在开发基于关键词等智能化访问接口,供大家学习和研究使用。
OpenKG开放的新冠知识图谱数据包括八大类共17个知识图谱,分别为新冠科研图谱、新冠百科图谱、新冠健康图谱、新冠临床图谱、新冠英雄图谱、新冠热点事件图谱、新冠流行病学图谱和新冠物资图谱,均提供访问接口和详细的使用手册。
新冠知识图谱(部分)
本次疫情知识图谱访问平台由大数据分析与应用技术国家工程实验室知识集成和智能决策中心发布,发布后得到了大量科研工作者的广泛关注,截止到3月31日,数据访问24,336人次,且仍然在高速增长中。
实验室联合发布城市交通活力恢复指数排行榜
3月4日,实验室联合常务理事单位滴滴出行及中国电子信息产业发展研究院(赛迪研究院),共同发布城市交通活力恢复指数排行榜。此次发布的城市交通活力恢复指数,是结合城市交通轨迹、道路拥堵数据及滴滴平台通勤数据综合分析得出。指数越高,说明城市交通活动量更积极。数据显示,自2月10日起,全国交通出行活力稳步提升。
正常状况下,2019年底城市交通活力接近于1,随着城市生产生活逐步恢复,城市交通活力也将逐渐恢复至正常水平。考虑到湖北多地依旧实施机动车限行,因此并未将湖北省内城市纳入统计。这一城市交通活力恢复指数即日起也将对外开放,点击https://sts.didichuxing.com/t-activity-index/即可查看城市交通活力恢复指数详情。
在实验室主任张平文院士看来,各地生产生活正在有序恢复,大数据如何更好地助力国民经济恢复是当下社会关注的重点。北京大学大数据分析与应用技术国家工程实验室积极响应国家号召,联合滴滴出行和赛迪研究院共同发布“城市交通活力恢复指数”,通过数字可视化系统及分析报告,帮助社会及主管部门宏观了解疫情防控及经济生活恢复现状。滴滴出行发挥其在出行领域数据及算法特长,创新驱动,使命驱动,体现了公司的社会责任感。未来,国家工程实验室将联合更多的企业和研究机构,协同合作,进一步开展各行各业大数据的研究和应用,为全社会提供服务。
滴滴出行高级副总裁、云平台事业群负责人、大数据分析与应用技术国家工程实验室理事会常务理事章文嵩表示,此次发布“城市交通活力恢复指数”,希望基于滴滴的技术和数据分析能力,让大家直观看到每个城市交通的恢复情况,为有序推进生产生活恢复提供更多信息参考,这也得到了大数据分析与应用技术国家工程实验室和赛迪研究院的大力支持。此前滴滴免费向国内科研机构、医疗及救助平台等开放用于抗击疫情相关工作的GPU云计算资源和技术支持,向企业和个人开发者免费开放口罩佩戴识别技术,滴滴将继续强化疫情防控举措,做好运输服务保障,并在保障数据安全的情况下,和更多合作伙伴共享算法算力,齐心协力抗击疫情,助力生产。
赛迪研究院副总工程师安晖指出,交通出行情况是反映城市运转、生产生活是否健康有序的关键指征,其中路况和出行数据能较好地反映城市生产与消费活动的恢复情况。滴滴作为交通出行领域的排头兵,其出行平台大数据具有覆盖面广、时效性强等特点,是反映交通出行情况的重要依据。基于滴滴平台的城市交通轨迹、道路拥堵数据和通勤订单数据所计算的城市交通活力恢复指数可对相关政策研判及研究提供支撑。
张平文团队与中国移动合作完成基于轨迹大数据的疫情风险评估和疑似病例检测
新型冠状肺炎疫情已迅速形成全球大流行,导致数十万人感染和全球经济动荡。世卫组织宣布,采取更精确的措施追踪、发现和隔离感染者是迅速遏制疫情的最有效手段之一。特别是当前国际各界关注的“无症状感染者”,其可能带来的疫情传播失控亟需解决方案。随着我国复工复产带来人员流动的不断增强,对疫情风险的精细化评估和监测是抗疫工作面临的难题之一。
张平文院士团队与中国移动通信集团有限公司信息技术中心团队联合攻关,按照《网络安全法》《突发事件应对法》《传染病防治法》《中央网络安全和信息化委员会办公室关于做好个人信息保护利用大数据支撑联防联控工作的通知》等相关规定,根据国务院联防联控机制的要求,依法依规,严格落实数据安全和个人信息保护的相关措施,基于实验室的算法模型能力与中国移动的大数据能力,开展了精细化疫情风险评估和疑似病例预测研究。已取得的研究成果包括基于轨迹大数据与物理平均场理论的HiRES风险地图时空模型、HiRES-p个人流行病感染风险客观评分模型,以及基于该模型的疑似病例预测算法。
基于我国新冠早期爆发阶段(2020年1月)数据集的数值实验表明,HiRES风险地图对全域和局部等不同尺度的风险都具有高精度的模拟量化能力,区域尺度的风险值与该地区确诊病例总数相关性达95%以上;HiRES-p评分经验证是衡量个人流行病感染风险的有效方法,只要人群感染率低于20%,对疑似病例基于正确分类的预测准确率可达90%以上。
这项研究提出的流行病高精度风险评估与疑似病例预测的思路和方法在我国复工复产、国际抗疫合作和流行病风险长期监测中具有广泛应用前景。研究结果可用于监测国家、省、市、区、县和社区等不同层级以及医院、车站等典型场景的疫情风险,并指导抗疫物资和人力的有效调度;同时可以推广和应用到境外以及未来其它流行性传染病疫情风险的精细化管理工作中。特别是对于无症状感染者、境外输入疑似风险者,应用该模型无需开展流行病调查,基于电信运营商等第三方提供的客观轨迹数据即可实现及时识别,对当前疫情防控实践具有重要意义。如果能够基于我国人口和国际及港澳台漫游来访用户的全量轨迹数据,使用该模型可统一实现精细化到社区的小时级疫情风险管理,可为基层防疫减负,提升防疫工作信息化和智能化水平,还可以大大减少抗疫期间以“抗疫”的名目对个人数据的大量非法采集和使用的情况。
中国移动在工信部指导下,在落实疫情防控大数据支撑工作中,试点应用HiRES模型和方法,有效提升了信令数据的算法准确度和计算效率,在2月应用测试过程中,对疑似病例预测准确率达90%,能够有效实现社区疫情风险及个人密接风险的动态评估,可提升疾控调查和风险处置效率。
双方将基于前期成果继续推进模型与算法合作,进一步研究完善在商场、园区和食堂等短时人员聚集场所提供密集人流管理能力,提升管理人员现场核查信息化能力和公共场所安全保障智能化水平,并为基层防疫减负,助力企业逐步复工复产、居民公共场所有序活动以及学生安全返校。
联合攻关项目组主要成员包括:北京大学副校长张平文,中国移动集团有限公司IT管委会办公室主任、中移动信息技术有限公司董事长、总经理徐海勇,中移动信息技术有限公司副总经理江勇等。
学术论文可通过网络预印本查看:https://arxiv.org/abs/2004.00908
延伸阅读:
北京大学大数据分析与应用技术国家工程实验室是由国家发展和改革委员会批复,由北京大学牵头建设的国家级平台。实验室紧密围绕大数据分析与应用技术发展的需要,开展相关产业关键技术攻关、重要技术标准制订,集聚与培养产业急需的技术创新人才。探索和实施适合具体行业特点的创新方案,着力解决行业发展的重大技术问题,提高产业自主创新能力,建立该领域发展趋势与重大问题的研究机制,积极提供行业发展研究情况和重要进展,更好地为国家和行业发展服务。
疫情期间,实验室始终不忘初心,利用专业知识,为疫情防控贡献力量。实验室将继续砥砺前行,为基层防疫减负,助力企业逐步复工复产、居民公共场所有序活动以及学生安全返校。