医学大数据的来源
医学大数据的一个简单定义是“与患者健康护理和健康相关的数据总量”(Raghupathi 2014)。 但是这些类型的数据到底是什么,它们来自哪里呢?
以下是卫生保健提供者,研究人员,付款人,决策者和行业感兴趣的大数据的类型和来源的广泛概述。
这些类别不是相互排斥的,因为相同的数据可以来源于各种来源。
这份清单也不是详尽无遗的,因为大数据分析的实际应用肯定会继续扩大。
临床信息系统
这些是医疗保健提供者习惯观看的传统临床数据来源。
- 电子健康记录 (EHR)收集,存储和显示诸如人口统计数据,过往病史,活跃医疗问题,免疫接种,过敏,药物,生命体征,实验室和放射学检查结果,病理报告,医疗保健创建的进度说明等信息提供者,行政和财务文件
- 电子病历(EMR)与EHR不同,通常与存储在特定医师身上的数据有关。
- 卫生信息交流是不同临床信息系统之间的枢纽
- 由医疗机构维护的患者注册表通常与EHR相关联。 其他注册管理机构在更广泛的地理范围内追踪免疫接种,癌症,创伤和其他公共卫生问题。
- 患者门户允许患者访问存储在医疗保健机构的EHR中的个人健康信息。 一些患者门户还允许用户请求处方补充并与医疗保健团队交换安全电子消息。
- 临床数据仓库汇总了来自多个临床信息系统(如EHR和上面列出的其他来源)的患者级数据
来自付款人的索赔数据
公共支付者(例如医疗保险)和私人支付者拥有关于其受益人的大量索赔数据库。 一些健康保险公司现在也提供激励措施来分享您的健康数据。
研究研究
研究数据库包含有关研究参与者,实验治疗和临床结果的信息。 大型研究通常由制药公司或政府机构赞助。 个性化医疗的应用是根据临床试验数据中的模式,将个体患者与有效治疗相匹配。
这种方法超越了应用循证医学原则,医疗保健提供者通过该原则确定患者是否与试验参与者具有广泛的特征(例如年龄,性别,种族,临床状态)。 通过大数据分析,可以根据更加细化的信息(如患者癌症的基因谱)来选择治疗方法(见下文)。
临床决策支持系统(CDSS)也发展迅速,现在代表了人工智能(AI)在医学领域的重要组成部分。
他们使用患者数据来帮助临床医生进行决策,并经常与EHR结合使用。
遗传数据库
人类遗传信息储存库继续迅速积累。 自从人类基因组计划于2003年完成以来,人类DNA测序的成本已经下降了百万倍。 个人基因组计划(PGP)由哈佛医学院于2005年推出,旨在对来自世界各地的100,000名志愿者的全基因组进行测序和公布。 PGP本身就是大数据项目的一个主要例子,因为数据庞大且种类繁多。
个人基因组包含大约100千兆字节的数据。 除了对基因组进行测序之外,PGP还从EHRs,调查和微生物组谱中收集数据。
许多公司在商业基础上为健康,个人特征和药物遗传学提供直接对消费者的基因测序 。
这些个人信息可能被征服到大数据分析。 例如,截至2013年11月22日,23andMe停止向新客户提供与健康相关的遗传报告,以遵守美国食品和药物管理局的规定。 然而,在2015年,该公司开始再次提供某些遗传唾液测试的健康成分,这次是经过FDA批准的。
公共记录
政府保存有关健康事件的详细记录,如移民,婚姻,出生和死亡。 自1790年以来,美国人口普查每十年收集大量信息。截至2013年,人口普查统计网站拥有3700亿个单元,每年增加约110亿个单元。
网络搜索
Google和其他网络搜索提供商收集的网页搜索信息可以提供与人口健康相关的实时见解。 但是,通过将它与传统的健康数据源相结合,可以提高来自网络搜索模式的大数据的价值。
社交媒体
Facebook,Twitter和其他社交媒体平台可全天候生成丰富多彩的数据,从而可以查看用户的位置,健康行为,情绪和社交互动。 社交媒体大数据在公共卫生领域的应用被称为数字疾病检测或数字流行病学。 例如,Twitter已被用于分析普通人群中的流感流行。
在宾夕法尼亚大学开始的世界福祉项目是研究社交媒体以更好地了解人们的经历和健康的另一个例子。 该项目汇集了心理学家,统计学家和计算机科学家,他们分析在线互动时使用的语言,例如在Facebook和Twitter上撰写状态更新时。 科学家正在观察用户的语言与他们的健康和幸福之间的关系。 自然语言处理和机器学习的进步正在帮助他们的努力。 宾夕法尼亚大学最近发表的一篇文章研究了通过分析社交媒体来预测精神疾病的方法。 通过研究我们对互联网的使用,似乎可以检测到抑郁症和其他心理健康状况的症状。 科学家希望将来这些方法将能够更好地识别和帮助处于危险中的个体。
物联网(IoT)
大量与健康有关的信息也被收集并存储在移动设备和家用设备上 。
- 智能手机 :成千上万的mHealth应用程序可捕获用户的身体活动,营养摄入量,睡眠模式,情绪和其他参数的信息。 本地手机应用程序(例如GPS,电子邮件,短信)也可以提供有关个人健康状况的线索。
- 可穿戴显示器和设备:嵌入皮肤下的计步器,加速度计,眼镜,手表和芯片也可收集与健康有关的信息,也可将其发送到云端。
- 远程医疗设备允许医疗保健提供者监测患者的参数,如血压,心率,呼吸频率,氧合,温度,心电图描记和体重。
金融交易
患者的信用卡交易包含在Carolinas HealthCare系统使用的预测模型中,以识别重新入院的高风险患者。 总部位于夏洛特的卫生保健提供商利用大数据将患者分成不同的群体,例如根据疾病和地理位置。
道德和隐私的含义
需要强调的是,在某些情况下,收集和获取医疗保健数据时可能会对道德和隐私产生重大影响。 新的大数据来源可以提高我们对影响个人和人群健康的因素的理解,但是,需要认真考虑和监控不同的风险。 现在也已经认识到,以前被视为匿名的数据可以重新识别。 例如,哈佛数据隐私实验室的Latanya Sweeney教授审查了参与个人基因组计划的1,130名志愿者。 她和她的团队根据他们共享的信息(邮编,出生日期,性别)能够正确地命名42%的参与者。 这些知识可以提高我们对潜在风险的认识,并帮助我们做出更好的数据共享决策。
> 来源:
> Conway M,O'Connor D.社交媒体,大数据和心理健康:当前的进展和道德影响。 2016 年心理学最新观点 ; 9:77-82。
> Fernandes L,O'Connor M,Weaver V.大数据,更大的结果。 Journal of The American Health Information Management Association 2012; 83(10):38-43
> Guntuku S,Yaden D,Kern M,Ungar L,Eichstaedt J. 在社交媒体上检测抑郁症和精神疾病:综合评论 。 2017 年行为科学目前的观点 ; 18:43-49。
> Lazer D,Kennedy R,King G,Vespignani A. 谷歌流感的寓言:大数据分析陷阱 。 科学 2014; 343(6176):1203年至1205年。
> Raghupathi W,Raghupathi V.医疗领域的大数据分析:承诺和潜力al。 2014年健康信息科学与系统 ; 2:3。
> Sweeney L,Abu A,Winn J. 按名称识别个人基因组项目的参与者 。 哈佛大学。 数据保密实验室。 白皮书1021-1。 2013年4月24日。