EN

超AI说|组织内海量信息共享难,检索快准狠,获取知识更容易组织内海量信息共享难

2021-10-26

信息检索系统,其实在我们的生活和工作当中,已经有了很多大家可以实际感知的应用。比如说,在生活当中大家会通过搜索引擎去搜索自己想要的信息,这些都是通过主动搜索行为去使用的。在工作当中,大家也会去通过搜索的方式去检索公司里面沉淀下来这些知识、文档、学习资料。还有就是,今天越来越多的商业情报或者是政府新闻,也越来越多地开放在互联网上面,大家会通过搜索商业情报去获取合作伙伴或项目的背景知识。这些其实都是我们现实当中每天正在发生的。

信息检索技术不管是在过去还是未来,它的研究重点都是在三个方面:快、准、狠。那么我们通常是通过什么样的技术手段去解决呢?

“快”这个方面,我们实际上是要更快地把结果反馈给用户,那就需要通过专业上叫做“索引结构”来解决。大家可以想象,以前查字典的时候,都是需要通过拼音或者部首偏旁,在字典里快速地定位这个字。针对不同的检索的目标,网页也好、文档也好,其实都是需要用计算机的算法技术建立起一套好的索引结构,使其能够很好地支撑上层的检索。

“准”是说,当我们有了一系列候选的目标文档或者目标建筑之后,怎么样能够知道这些目标中,有哪一些是符合我们用户的需求?其实这是一个排序的问题。

“狠”更关注的是,我们怎么样能把跟用户搜索相关的目标全部检索出来。相关其实包括很多方面,有可能是时下的热点,也有可能是用户搜索这个关键词的语义延伸,也有可能是他所在位置附近的候选目标。所以有很多维度都相关,怎么样能把这些相关的东西全部搜索出来不漏掉,这个是很关键的。

信息检索这个领域的国际主流研究方向会在以下几个方面:

  1. 怎么样使用海量的用户使用行为,去做越来越精确的机器学习模型;
  2. 多模态,比如检索系统里面有文字、图像,也有语音的时候,怎样把它们结合起来去做检索;
  3. 专业领域的检索,比如说社交网络或地理信息系统。

这些研究方向在国内的落地瓶颈其实在于,我们怎么样把互联网产业的信息检索研究成果,应用到我们实际上服务的各行各业:

  1. 比如,每个专业有自己的表格、公式、术语,这些东西我们怎么去处理?
  2. 另外,我们怎么样处理用户越来越多的问答式交互的提问?
  3. 最后,没有这么多的用户使用行为的时候,我们怎么样做精确排序的模型?怎么用知识增强的方式弥补我们缺少的用户使用行为?

针对刚才讲的三个问题,明略科技其实在服务产业互联网的过程当中已经积累了不少的经验。

比如针对这个专业领域的数字、表格、公式、专业的名词,我们已经能够很快地针对数字类的、统计类的检索场景做优化,并且我们可以很快积累专业领域的实体识别。

另外,如果我们没有这么多的用户使用行为,我们怎么样建设精确的排序模型,返回给用户最精确的知识、最精确的检索结果?我们是通过我们强大的知识图谱建设能力,相当于我们在检索引擎背后有一张知识的网络,可以在用户的每一个搜索词后面,知道它的语义涵盖的所有相关的信息。

最后一点跟国际上的主流有交汇的地方,就是现在越来越多的这个检索引擎支撑问答类的检索方式,底层其实都是自然语言处理的技术。明略科技有很强大的自然语言处理团队,能够把最前沿的预训练模型以及阅读理解模型,运用到问答式的检索场景。

这是我认为明略科技在信息检索领域三个最大的特色。

信息填写

*手机号码:

请选协议