CMeKG(Chinese Medical Knowledge Graph)是利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱。CMeKG的构建参考了ICD、ATC、SNOMED、MeSH等权威的国际医学标准以及规模庞大、多源异构的临床指南、行业标准、诊疗规范与医学百科等医学文本信息。CMeKG 1.0包括:6310种疾病、19853种药物(西药、中成药、中草药)、1237种诊疗技术及设备的结构化知识描述,涵盖疾病的临床症状、发病部位、药物治疗、手术治疗、鉴别诊断、影像学检查、高危因素、传播途径、多发群体、就诊科室等以及药物的成分、适应症、用法用量、有效期、禁忌证等30余种常见关系类型,CMeKG描述的概念关系实例及属性三元组达100余万。
CMeKG2.0在CMeKG1.0的基础上进行了多维度多层次的扩展与深化。具体更新如下:
-
医学知识图谱内容的完善与扩充
- 建立了大规模、高质量的医学知识基础集,
对多源异构的医学资源进行人机交互的知识提取与知识融合,在此基础上增加了症状类知识,并对儿科疾病进行详细描述,CMeKG2.0目前已包含11076种疾病,18471万药物,14794症状,3546诊疗技术的结构化知识描述,描述医学知识的概念关系实例及属性三元组达1566494。与CMeKG1.0相比,扩大了医学知识的覆盖面,进一步提高了其描述信息的丰富程度;
-
基于循证医学理论与资源的指导,针对以上数据,建立了疾病、症状、药物、诊疗技术之间广泛的知识关联;
-
增加了基于就诊科室的疾病分类体系,
面向患者提供就诊指南与临床导医基本信息;
-
增加了基于ICD编码的疾病分类体系,
使疾病知识的描述更加标准化和规范化;
-
建立了与UMLS的映射与链接,
实现了CMeKG与国际现代医学知识体系之间的信息互通与资源共享。
-
增加了医学知识图谱的构建工具
- 开发了医学文本分析与知识提取工具,
包括:医学文本分词、概念关系提取,可针对多种类型的医学文本进行自动分析与知识提取;
- 展示了基于疾病分类体系的Schema原型,
包括:ICD疾病分类树的多级疾病分类知识描述框架和疾病个体知识描述框架;
- 提供了医学教材的标注样例和标注平台,
可以进行实体及关系的可视化展示与标注样例的下载。
- 展示平台的完善与扩充
- 在疾病知识、症状知识、药物知识、诊疗技术知识之间实现相互链接和跳转,
展示了疾病、症状、药物、诊疗技术之间广泛的知识关联;
- 对疾病知识增加了多视图浏览功能,
可通过疾病类型、就诊科室、ICD分类等不同视图查看疾病知识。
- 调整和优化了浏览和检索界面,
可通过疾病、症状、药物、诊疗技术等不同种类的概念查询与其相关的医学知识。
- 建立了对UMLS的映射,
可将CMeKG中的相关疾病链接到与其相对应的UMLS释义页面。
- 增加了医学知识图谱的示范应用
- 医学知识问答:
可针对内科、外科、妇产科、儿科等1570种常见疾病的临床表现、诊断依据、病因、检查方式、预防手段等方面的问题进行自动回答。
- 妇儿健康宣教:
开发健康宣教小程序。内容包含疾病、科普和用药等九个方面,其中疾病包括儿科疾病130种,妇科疾病60种,涵盖有疾病的病因、发病机制、临床表现、辅助诊断、诊断、治疗等。
CMeKG2.0的主要目标是建立大规模、高质量的医学知识基础集,同时在描述体系、构建工具、展示平台、示范应用等方面进行逐步积累与完善。在未来,我们将面向智慧医疗领域的纵深应用,在CMeKG2.0基础上进行不同维度的拓展和深化,探索医学知识图谱在健康管理、疾病风险预测、辅助诊疗、病历结构化等智慧医疗更多领域的具体应用模式。
CMeKG仅供学术研究使用,不做商业用途。