项目建设
您现在的位置:首页  > 项目建设

鹏城实验室推出面向中文医疗文本处理的预训练模型PCL-MedBERT

发布时间:2020-08-22  浏览次数:630 次

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,是谷歌公司发布的预训练模型,2018年在 11 个文本处理任务上的表现刷新了历史记录,为自然语言处理技术带来新一波推动力量。但Google BERT的训练语料来源于Wikipedia中文数据(25M句子),对特定领域文本处理任务的支持尚有改进空间,尤其是中文医疗文本处理领域。

为了进一步促进中文医疗文本处理研究和应用的发展,鹏城实验室人工智能研究中心智慧医疗课题组“智慧医学知识处理”任务组针对Google BERT的不足,从多个来源收集了1.2G的专业医疗文本和1.5G的高质量医疗问答数据,用于建立面向医疗文本的BERT预训练模型,同时采用随机初始化和二次微调的方式对BERT模型进行优化,最终获得鹏城医疗BERT预训练模型,可以支持医疗领域不同的下游任务。目前该模型在问句匹配和医学命名实体识别这两个下游任务上均超越Google BERT!

下表列出了不同医疗任务上鹏城医疗BERT(PCL-MedBERT)和Google BERT的对比结果。

表1 问句匹配任务

模型

数据集

乙肝

高血压

糖尿病

比较

正负例

2878 : 4575

2652 : 4994

6365 : 8902

Google BERT

Acc

82.10

88.90

91.40

---

F1

77.50

85.30

90.00

---

PCL-MedBERT

Acc

83.40

89.10

92.70

+1.03

F1

78.30

85.30

91.50

+0.95


表2 医疗病例命名实体识别任务

模型

数据集

医疗病例命名实体

比较

Google BERT

F1

88.31

---

PCL-MedBERT

F1

88.68

+0.37

PCL-MedBERT的主要研发人员有刘挺教授、秦兵教授、刘铭副教授、徐睿峰教授以及卞荣阗、张义策等研究生同学。汤步洲副教授团队负责在问句匹配和医学命名实体识别任务上进行验证,陈清财教授团队提供了丰富的专业医疗数据。全部模型的大规模训练均在在“鹏城云脑”平台完成。

该预训练语言模型已在鹏城汇智代码托管平台ihub.org.cn上向全球免费开放,下载地址和配置文件请访问:

https://code.ihub.org.cn/projects/1775

欢迎从事中文医疗文本处理的研发人员关注和使用,期待大家提出宝贵的意见和建议!

撰稿:人工智能研究中心 徐睿峰

Copyright 2020 鹏城实验室 All Rights Reserved. 粤ICP备18066427号