重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (10): 103-108.doi: 10.3969/j.issn.1674-8425(z).2019.10.016

• 智能技术 • 上一篇    下一篇

自然语言语义库构建方法研究

杨菊英1,江 兵2,罗 佳1   

  1. 1.电子科技大学成都学院 计算机系,成都611731;2.四川农业大学 商学院,四川 都江堰611830
  • 收稿日期:2018-12-15 出版日期:2019-12-10 发布日期:2019-12-10
  • 作者简介:杨菊英,女,讲师,主要从事大数据、人工智能、计算机网络研究,E-mail:yaojxsc@126.com。
  • 基金资助:
    四川省科技厅项目“基于Linux的高性能集群设计”(172102210594)

  • Received:2018-12-15 Online:2019-12-10 Published:2019-12-10

摘要: 自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率( term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注于解决语音识别中的存储问题,为分词和句法分析提供功能支持。该方法可以直接用于语义语料库构建,能提高网页重复数据删除的效率。实验结果表明:该方法能实现云计算平台的语义库构建,且性能优于其他方法,说明了该方法的可行性和有效性。

关键词: 自然语言, 语义库, 词频-逆文本频率, 字向量距离

中图分类号: 

  • TP391