面对突发的公共卫生事件,怎样精准地锁定感染者的踪迹,并且高效地阻断传播链,这是防控的关键所在。大数据技术在此次疫情当中发挥了前所未有的作用,然而其在应用过程里的准确性、服务性以及合作模式,也引发了新的思考。
数据获取与公开的平衡
诸如手机信令、交通出行以及搜索记录等海量核心数据,被官方与大型科技公司所掌控,这些数据乃是绘制行动轨迹的基层因素,然而,以往这些数据常常被当作商业或行政资产遭受严格保护,在此次疫情时期,部分数据的有限公开成为了一种突破,像百度于2020年1月下旬就公开了迁徙大数据平台,为分析人员流动给予了关键依据。
关键难题在于数据公开的尺度,完全公开会涉及个人隐私,完全不公开会限制社会力量参与,专家指出,对于涉及重大公共利益的群体性数据,应在脱敏和保障安全的前提下,建立规范的共享机制,这需要数据拥有者转变观念,认识到数据共享带来的社会价值或许远超独占的价值。
多元团队的力量与局限
民间数据分析团队以及商业公司,并非官方机构,却也积极参与其中。“Team Xu+”这类志愿者团队,凭借着对数据所怀有的兴趣以及专业热情,快速地完成了组建。他们借助公开可用的数据,尝试着去构建模型,以此来分析迁徙跟疫情发展二者之间的关系。这类团队具备独特的视角,反应极为敏捷,在信息传播以及特定问题挖掘方面拥有优势。
但是民间团队面临着显著的短板,首先是数据得来的源头受限,很难获取到全面且高质量的第一手数据,其次,专业的能力高低不一,在繁杂的模型搭建以及严谨的统计学验证方面有可能心有余而力不足,他们更多地把注意力集中在把现有的数据结论予以可视化的展现,从而去降低公众的理解难度,而这恰恰就是其重要的社会价值之所在。
技术应用的核心与边界
疫情里大数据的运用,其核心价值当中的一个是趋势预警,依据搜索引擎的实时数据表明,在某地区病例被正式汇报之前,相关症状的搜索量会异常地升高,这样的变化能够给疾控部门提供超前的预警信号,百度的数据团队曾凭借此展开过分析尝试,证实了大数据在早期监测里的潜力。
可是呢,大数据分析可不是什么都能搞定的。它在察觉相关性方面挺拿手,然而要去阐释因果关系,那就得把流行病学专业知识给结合起来才行。仅仅是数据模型,很有可能会把复杂的现实因素给忽略掉,涵盖像不同人群的行为差异啦,检测策略的变化之类的。技术只是个工具,它得出的结论得和领域知识相互交叉验证,以此来防止掉进“数据决定论”的错误区域里。
协作模式的全新探索
此次疫情促使不同性质团队展开合作探索,科技公司具备数据与算力,官方机构拥有权威及行政资源,民间团队富有创造力且传播效率高。一种理想模式为,科技公司提供脱敏后的数据平台,官方机构给予方向指导以及政策支持,民间团队开展多样化的分析尝试并进行科普传播。
这种协作存在面临挑战的情况,不同团队目标相异,工作方式不一样,评价标准有差别,比如民间团队追求快速响应以及公众影响力,然而官方更看重结论的稳妥与权威,建立有效的沟通桥梁与成果互认机制,是未来应对类似危机时需要提前进行设计的重要环节。
数据治理与质量把控
直接决定结论可靠性的是数据的质量,在多方参与的分析里,数据口径的统一是非常重要的,比如说不同平台定义的“迁徙规模”指标要是不一致,那么得出的趋势就有可能无法进行比较,这就要求数据发布方提供清晰的关于数据本身详细描述的元数据说明。
治理重点包含数据处理过程的透明度,一些民间团队像“Team Xu+”等,强调以学术标准来要求自身,公开数据来源,公开处理方法,公开代码,这种做法不只是能提升结论的可信度,并且便于他人进行复核以及改进,它是构建健康数据分析生态的基础。
未来展望与公共平台构想
疫情结束之后,围绕大数据应对公共危机的探讨不会终止,一个被屡屡说起的设想是搭建国家级的公共数据开放平台,这类平台和数据科学竞赛平台Kaggle相似,且聚焦于社会公共议题,该平台能够发布经过脱敏处理的公共数据集,以此吸引高校、企业以及民间爱好者一同进行分析,借助众人智慧去解决复杂问题。
这不但能够释放社会创新潜力,而且能在长期培育公众的数据素养。当更多的人明白数据怎样产生、怎样被分析,社会对于大数据结论地认知会更为理性,对于隐私保护地讨论也会更加深入且务实呢。
在此次疫情期间,你是更加信赖官方机构所公布的大数据剖析结果呢,还是更为欣赏民间团队饱含创意的数据阐释呢?欢迎于评论区去分享你的观点,并且点赞来支持这篇文章。






