一种基于语义向量的文档标记方法、装置及介质
2021-11-02
本申请提供了一种基于语义向量的文档标记方法、装置及介质,该方法包括以下步骤:获取第一文档、多个第二文档以及多个第二文档向量;将第一文档的内容向量化,得到第一文档向量;根据第一文档向量和多个第二文档向量,计算第一文档和每个第二文档的内容相似度,第一次筛选出预设数量个内容相似度最高的第二文档;根据第一文档和第一次筛选出的每个第二文档的标题相似度,第二次筛选出标题相似度大于或等于第一预设值的第二文档;根据第二次筛选出的第二文档的类别标签,为所述的第一文档标记类别标签,通过内容和标题的双重筛选,提高了找出的第二文档的准确度。
一种基于语义向量的文档标记方法,其特征在于,包括以下步骤:获取第一文档、多个第二文档以及多个第二文档向量;所述的第一文档为企业新产生的文档,所述的第二文档为预先保存的用于记录企业信息的文档,所述的第二文档向量为预先保存的由第二文档的内容向量化得到的文档向量;将第一文档的内容向量化,得到第一文档向量;根据第一文档向量和多个第二文档向量,计算第一文档和每个第二文档的内容相似度;进行第一次筛选,以选出预设数量个内容相似度最高的第二文档;根据第一文档的标题和所述第一次筛选出的第二文档的标题,计算第一文档和第一次筛选出的每个第二文档的标题相似度;从第一次筛选出的第二文档中,进行第二次筛选,以选出标题相似度大于或等于第一预设值的第二文档;根据第二次筛选出的第二文档的类别标签,为所述的第一文档标记类别标签。
申请号:CN202110588633.9
申请(专利权)人:北京明略软件系统有限公司
公开日期(公开):2021.08.13
公开日期(授权):2021.11.02
信息填写