重庆理工大学学报(自然科学) ›› 2023, Vol. 37 ›› Issue (11): 205-212.

• 信息·计算机 • 上一篇    下一篇

面向计算机科学领域的专业实体识别

陈 祥,张仰森,李尚美   

  1. (1.北京信息科技大学 智能信息处理研究所,北京 100101; 2.国家经济安全预警工程北京实验室,北京 100044)
  • 出版日期:2023-12-14 发布日期:2023-12-14
  • 作者简介:陈祥,男,硕士,主要从事自然语言处理方面的研究,Email:2168227865@qq.om;通信作者 张仰森,男,博士 (后),博导,教授,CCF杰出会员,主要从事中文信息处理、网络内容安全及过滤、智能仓储与物流、数据挖掘等 方面研究,Email:zhangyangsen@163.com。

Professional entity recognition for computer science

  • Online:2023-12-14 Published:2023-12-14

摘要: 为获取科研学术论文中涉及的专家研究领域等专业实体信息,给学术论文或科技项 目评审专家的推荐提供理论参考,面向计算机科学领域,提出了一种基于 RoBERTawwm的实体识 别模型对专家学术论文中包含的专业实体进行识别。首先,以已有的专家基本信息数据表为参 照,利用中国知网高级检索功能和爬虫技术获取表中列举专家的学术论文摘要数据;接着,将摘要 数据经人工标注后,通过 RoBERTawwm预训练模型获取具有语义特征的字符向量作为下游模型 的输入;最后,将上游的语义字符向量输入 BiLSTMCRF模型中实现对文本中的专业实体识别。 通过实验验证,提出的模型在自主标注的数据集中取得了更好的效果。其中,模型 F1 值达到了 89.94%,高于实验中的对比模型,具有良好的识别专业实体的能力。

关键词: 专业实体识别, RoBERTawwm, 专家研究领域, 计算机科学

中图分类号: 

  • TP391