重庆理工大学学报(自然科学) ›› 2024, Vol. 38 ›› Issue (1): 150-159.
徐传运,马莹丽,李刚,舒涛,李星光
摘要: 对仪表企业来说,快速高效地自动响应用户的询价请求,实现无人化询价,具有非常重要的意义。但不同用户提供的物料清单表无统一规范的格式,导致仪表企业只能获得半结构化的询价电子表格,无人化询价系统难以分析与理解。构建无人化询价系统的关键是准确地自动提取仪表参数,而提取参数的前提是正确理解表格结构。因此,以构建无人化询价系统为目标,研究仪表询价电子表格的结构识别,提出混合相似性度量表格结构识别方法(hybridsimilaritymetricsfortablestructurerecognition,HSMTSR)。所提方法结合Levenshtein距离、Dice系数和单元格类型相似度(celltypesimilarity,TySim),根据单元格和行数据的相似度解析识别表格结构。同时,建立流量仪表电子表格数据集(flowmeterspreadsheetdataset,FSDS)研究分析仪表询价电子表格的结构,包括714个电子表格,8574行数据。实际应用表明,所提方法可准确高效地自动识别多种复杂结构的仪表询价电子表格,并在多个评价指标上均取得较好效果
中图分类号: