搜索
您的当前位置:首页正文

基于电子病历大数据分析的疾病预测建模

来源:赴品旅游
基于电子病历大数据分析的疾病预测建模 陈可① 摘要 目的:探讨影响原发性肺癌发病危险因素,构建疾病预测模型,为肺癌预防和疾病控制提供依据。方法:基于大 数据理念,通过构建医疗大数据中心层,整合分散临床数据,针对医院不同的业务需求提供给各专题数据中心。在数据应 用方面,采用单因素和多因素条件Logi stic回归模型进行分析,通过主成分法对主要危险因素提取公因子,并对公因子进 行条件Logistic回归拟合分析。结果及结论:提出了一种基于Logistic回归分析的疾病预测模型构建方法,可进一步建立 系统,突出临床应用价值。 关键词大数据疾病预测建模单因素多因素LogistiC回归分析 Doi:lO.3969/j.issn.1673—7571.2018.03.005 【中图分类号】TP393 【文献标识码】A Constmction of Disease Pre ̄cfion Model Based on EMIL Big Data Analytics/CHEN Ke//China DiNtd Medicine.一201 8 13f31:16 to 1 8 Abstract Objective:In order to give a case for lung cancer prediction and its’control,the paper is mainly to build the disease prediction model by discussing the dangerous factors influenced lung cancer Methods:According tO the big data nlanagement concept, we construct the medical data platform,which can provide special data center adapting to the varieties of business requirements of hospital,by integrating decentralized medical data.In the aspect of data application,one~way anovalogistic regression and multi—way anovaregression were both studied by the paper.We analyzed the common factor,which we picked up from the dangerous factors by principal component analysis,by logistic regression Results&Conclusion:A disease prediction model was presented by the logistic regression,which can be achieved by the system in future for the better clinical applying. Keywords big data,disease prediction model,one way anova,multi—way anova,logistic regression Fund project Nanjing Health Young Talent Training Project(NO QRX17184) Corresponding author Information Department,Nanjing Chest Hospital Afilfiated tO Medical School of Southeast University, Nanjing 210029,Jiangsu Province,P.R.C. 随着电子病历系统(Electronic Medical Record,EMR)的应用普及,医院逐渐积累了体量庞大的医疗大数据,其分 散于以EMR为核心的各类医疗系统中,涵盖了主诉、检验检查、诊断、医嘱、病程、护理等…。尽管这些医疗大数据可提 供完整、;隹确的病历资料,但并不具备数据分析功能,无法为医疗人员提供疾病早期的预警监测,也无法预测患者的疾病 健康情况。这些大数据中既有描述类非结构化数据,也有DICOM 影像数据,彼此间数据关系和类型复杂,且各类数据标 准不一致,仅靠传统的关系型数据库管理难以掌控。因此,研究重点是运用数据挖掘技术,对以EMR为核心的医疗大数据 信息资源进行分析,从中挖掘有效预警信息并建立疾病模型,为疾病防治奠定科学基础。 1临床大数据中心层的建立 1.1数据整合以往的信息系统集成层次低,彼此呈现紧耦合关系,缺点是数据的二次利用和业务协同异常困难 。鉴于各 系统间数据标准不一致,研究中,遵循卫生部印发的《电子病历基本架构与数据标准》,依照《基于电子病历的医院信息 平台建设技术方案》,通过在一个单独的服务器上加载数据处理引擎 ,专门负责对分散在医院各信息系统中的临床数据 源主动抽取,经过“数据清洗”和“标;隹化转换”,最终按照约定的数据格式加载到数据仓库中。优点是由于采用单独的 灵基金项目:十三五南京市卫生青年人才培养工程项目(编号:QRX17184) 16 {“Digta Med c n 。- >40 3 ①东南大学医学院附属oh京胸科医院信息科,210029,江苏省南京市广州路215号 业务系统 医生站I 数据!盔换  盏 j致据中心  数据 中心 数据利用 临床知识库 临床决策支持 行研究变量间复共线性诊断,根据累 计方差贡献率(>70%)结合肺癌病 因假说和因子分析结果,确定进入分 析的最佳研究变量子集。对因子得分 护士站 EMR 鼢 Ⅱp 端 LIS l PACS I 数据标准 数据 中心 <== 运营 I科研支持l l医疗质量管理 做Logistic分析,计算各因子与原发性 肺癌的关联强度OR值及其95%置信区 间,以尸<0.05为统计学意义,最终得 到回归分析结果见表1。 格式标准 田 交换标准 数据 中心 1分析统计』 图1临床大数据中心层的总体架构 2.3结果讨论课题就生活方式(吸 硬件服务器,故可分担数据库系统负 室内及环境、饮食及营养 、吸烟与 烟、被动吸烟、饮酒/茶)” 、环境因 载,同时与底层的数据库数据存储无 被动吸烟、精神心理因素、非肿瘤性 素、饮食、女性因素、非肿瘤性肺部 关。临床大数据中心层的总体架构如 肺疾病史与肿瘤家族史、女性因素、 图1所示。 疾病史” 、肿瘤家族史 、社会心理因 素、是否器官病变及胸腔积液方面对 是否有器官衰竭,是否有胸腔积液… 1.2数据分析对EM R中医学自然语 存在。 肺癌发生的危险因素进行探讨。 研究对象年龄均在1 7~89岁间, 言的处理 是数据抽取过程 的难点 2.2分析方法 之一,基于“医学名实体识别”“名 2.2.1单因素分析采用单因素条件 平均年龄为(43.65±9.96)岁,男 sticl ̄ 3[1 2]逐个分析,根据结果筛 1实体自动编码” “名实体修饰词识 Logi' ̄_243对,占59.85%;女性163对, 别” “时间抽取”等,依据通用词 选研究变量并从中选取有统计学意义 占40.1 5%。结果显示,与原发性肺 典、规则等,图2中的特征词库通过训【 的变量(尸<0.05)。将其纳入多因素 癌的关联强度大于1(0R>1)的因 练不断迭代更新,从非结构化 数据中 条件LogisticFI归模型进行分析。 子有:公因子2(常食油炸、腌渍食 识别关键信息并映射到标准术语编码 2.2.2多因素分析通过多因素条件 品)、公因子3(婚姻不和谐人际关系 中,通过对编码建立索引自动分类病 Logistic回归分析(后退法),降低变 不佳)、公因子4(疾病史、家族史中 历文档。 量维数,拟合主效应模型。 有肺气肿、哮喘等呼吸道疾病)、公 2.2.3因子分析采用主成分统计法进 因子5(室内环境因素,如:油烟、被 表1公因子的条件Logistic ̄归分析 ——■—■● 益 蛆【血丘J盔拄啦』li盘且二雎直 篮 J睡址土骶血上舰 麓 啦洳醴Ⅱ耻 舡啦J 删 粗u}L 筋凰垃 盥 l 苎嚣I 苎- l篁庶摭况虹lJ鞋£矗滢监盘屯 ‘过瘟盘 L玉丘直 赴盘,主盎置盐血圭。王毡撼 盘均 堑拉墨过敛毫, 卜———————————一■ 一  甜 静晰 I 亡L足且L直巴 量璺阻量佳量t 患盎丑置蕴主 ——一 图2病历文书的结构化管理 2建立疾病风险预测模型 2.1研究对象和研究变量依托临床大 数据中心,通过调用临床集成视图 随 机抽取南京市胸科医院201 7年1至3月 出院主诊断包含肺癌的电子病历406例 为病例组。参考UP To Data临床顾问 数据库 所列的肺癌危险因素,选取研 究变量年龄、体质指数、职业因素、 中 07 霉 20 麓{3豢釜3 1 7 StreePlot [7]温绍楠.非结构化数据处理技术的应用和 研究【D】北京:北京邮电大学,2011 [8】袁梅宇数据挖掘与机器学习——wEKA 应用技术与实践[MI北京:清华大学出版 社.2014:2 【9】Up To Data[EB/OL].[2017-7—24].http:// Component Number 图3碎石图(横坐标为成分数,纵坐标为特征值 动吸烟)、公因子8(接触放射性物 归模型建立预测模型,结合主成分分 质)、公因子9(精神创伤因素)、 析法筛选特征变量,提高预测准确率 公因子11(饮茶与吸烟)、公因子 的同时简化模型。在今后的研究中, 1 2(职业因素,如建筑工人等),公 将进一步根据所建模型创建决策系 因子1 4(器官衰竭或有胸腔积液因 统,突出其临床应用价值。 素),这些因素为肺癌危险因素。公 因子6(房屋地板为水泥)公因子7 /参考文献 (食用鲜蛋、烟熏、烤制),公因子 [1]陈可基于xML和中间件技术的电子 1 0(食用酸味食品及大蒜),公因子 病历系统应用研究fJ]中国数字医学,2012, 13(人均住房面积)与原发性肺癌的 7(4):60—62. 关联强度小于1(0R<1),为肺癌保 【2]陈可.基于虚拟化架构的医F.gPACS/RIS 护因素。 应用研究卟中国医疗设备,2016,31(5):86—89. [3】高汉松,肖凌,许德玮,等.基于云计算 3回顾 的医疗大数据挖掘平台U].医学信息学杂 在数据分析阶段,基于所选变 志,2013,34(5):7—12 量进行因子分析,目的在于初步筛选 【4]王星.大数据分析:方法与应用IM】.北京: 变量,剔除非高度相关变量或同效变 清华大学出版社,2013:68—90. 量,将更有意义的变量纳入多因素条 [5】Byrd RJ,Steinhubl SR,Sun J,et al Automatic 件Logistic[]归模型进行分析。所建预 Identiifcation of Heart Failure Diagnostic 测模型输出结果的碎石图说明基于特 Criteria,Using Text Analysis of Clinical 征选取简化数据维数,不仅能够摆脱 Notes from Electronic HeaRth Records ̄]. 与预测任务不相关的数据,显著减少 International Journal of Medical Informati— 所需的训练集样本数量,还能提高模 CS,2014,83(12):983—992. 型预测性能(见图3)。 [6】Alvarez CA,CIark CA,zhang S,et a1.Predicting out of Intensive Care Unit 4结语 Cardiopulmonary Arrest or Death Using 研究特点包括尝试采用数值型数 Electronic Medical Record DataU】.BMC 据描述医疗疾病模型;选用Logistic ̄ Medical lnformatics and Decsion Making,2013 1 8 Ct"tlFf-]Digital Medicine 20塌.Vo1. 3,No.3 www.uptodata.com/contents/search 【10]Minegishi Y,Tsukino H,Gemma A,et a1.Susceptibility tO lung cancer and genetic polymorphisms in the alcohol metabolite-- related enzyme S:ADH3.ALDH2 and CYP2E1 U J.Lung Cancer,2005,49(Suppl 2):¥193伊一29g). [11】王猛肺癌危险因素的配对病例对照 研究[D]大连:大连医科大学公共卫生学 院,2008.12(4):33—37 [12】王旭善,吴德林,张晓峰,等赣榆县肺癌发 病影响因素的条件LogisticlN归分析【J1预防 医学论坛,2014.15(2):133—134 [13】Agnihotram VR,Marie EP,Jack s Risk of Lung Cancer from Residential Heating and Cooking Fuels in Montreal,Canada[J].American Journal ofEpidemiology,2007,165(6):634—642 [14]Reid A,de Klerk N,Ambrosini GL,et al The effect of asbestosis on Lung Cancer Risk beyond the Dose Related Effect of Asbestos Alone[J】.Occupational and Environmental Medicine,2005,62(12):885—889 [1 5】Jun—ichi N,Manami I,M0toki I,et al Association Between Lung Cancer Incidence and Family History of Lung CanCery J. Chest,2006(130):968—975 【收稿日期:2017—09—05】 【修回日期:2017—11—21】 (责任编辑:肖婧婧) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top