北京大学课题组在语言知识工程建设和自然语言文本挖掘领域具有多年的研究经验。
在语言知识库构建方面,课题组成员作为主要完成人构建了“综合型语言知识库”(CLKB),其系列化语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域,为中文文本内容理解奠定了资源基础。CLKB获得了2011年度国家科学技术进步二等奖和2010年度中国电子学会电子信息科学技术奖一等奖。在CLKB的基础上,我们从语法信息拓展到语义信息,借鉴论元结构理论、事件语义学、生成词库论、构式语法理论,突破语义角色标注等浅层语义分析的瓶颈,制订中文深度理解的描述规范。从计算机深度计算和语言工程的角度,对文本蕴含的语义信息进行分层次细粒度的深入挖掘。构建了多层次细粒度的大规模中文语义知识库,为文本内容深度理解奠定了资源基础。
在百科知识库构建方面,课题组与中国大百科全书出版社合作进行“开放的知识元数据库及基础平台建设”项目。利用自然语言处理及文本挖掘技术分析挖掘百科全书资源,将百科全书转换为计算机可操作、可利用的结构化百科知识库。在此基础上实现智能化、人性化的百科知识服务。该项目建立了基于NLP的领域知识内容加工平台,开发了现代医学心血管疾病领域的知识元数据库,并建立了疾病知识咨询应用示范系统。在结构化知识描述体系、智能化的建库流程以及人性化知识服务方面摸索了一套行得通的经验。
课题组在理论、技术和资源建设上的研究经验和成果,为中文医学知识图谱的构建与应用落地提供了良好的基础。