EN

超AI说|前沿NLP技术让机器善解人意,从感知智能跃向认知智能

2021-10-29

说到自然语言处理(NLP)到底干什么的,我们可以举个例子。假如孔子穿越到现在,他理解现代汉语也是需要成本的。因为语言是动态的,需要放在时间和空间的维度上去看待,它是不断演化的。我们每天都会产生一些新词,比如说“不明觉厉”、“同九义,何汝秀”,同时我们要摒弃一些旧词,比如说“三纲五常”。

其实,语言不止在时间和空间上有gap,人类与机器之间也存在一个gap。自然语言处理主要就是解决这个gap,让机器能够读懂人类的语言,包括人类的书面语或者口语。

说到人类与机器的最大的gap,我们首先想到的是思维。人类是有思维的,而机器没有。现阶段人类与机器最大的gap,我觉得应该是语义。人类的语义主要通过文字、声音、表情等去表达;而机器是冰冷的,只懂得0和1的语言。

如何将人类与机器的gap缩短,显然有两条路:第一条路,我们把人类的语言转化为机器能够读懂的语言;第二条路,让机器能够自动地读懂人类的感情、人类的声音。显然,第二条路是非常苛刻的,我们既然勉强不了机器,我们可以尝试去改变自己。

说到技术,我们可以先回顾一下近十年来NLP的重大的突破。

首先,在2013年谷歌提出word2vec这个word embedding之前,词袋模型和TF-IDF有绝对的江湖地位。word2vec出现后,迅速席卷了整个NLP领域的各大任务,一直到2018年BERT的出现。BERT的出现直接颠覆了NLP的研究格局,横扫了NLP的各个领域。

我们可以发现,包括word2vec,还有word embedding这种方式,以及BERT,它们都有一个共同的特点,就是预训练。word2vec这种word embedding方式,预训练的是语言模型,而BERT是结合了下游任务进行了预训练。至此,NLP领域出现了全新的解题范式:预训练加微调。

确实,预训练加微调给我们带来很多的方便,它能够使NLP工程师快速地入门,也就是说门槛变低了,能够快速地实现算法的工程化。那么这种范式到底能够走多远呢?它到底是否能够解决所有的问题、所有的NLP任务呢?

我个人觉得,它暂时还解决不了所有的任务。

因为目前算法尤其是这种范式,在数据固定、场景固定的情况下,能取得很好的效果,但如果是放在一个稍微开放的情况下,它不见得能够取得完整的效果。

另外,这种范式结合下游任务,比如文本分类、智能问答,能够取得很好的效果,但是对于NLP的一些基础性的研究,比如中文分词、新词发现,它不见得会取得那么好的结果。

同时,在这种范式下,有一个很重要的前提,就是基于海量的数据。我们也知道,在现实场景下,很多领域并不一定具有那么多的数据量,或者它的数据是离散的,并没有集中到一起,那这个时候,采用这种范式去解决问题,并不见得会取得很好的效果。

明略科学院目前汇集了全来自于全球人工智能领域的五十多位科学家,其次,明略科技聚焦于场景、聚焦于技术,然后由点及面。

在数据方面,我们积累了海量的数据,同时明略科技深耕营销、公安、金融等领域多年,每天有数十亿的数据产生,来支撑我们基于深度学习的训练加微调。

另外,在技术广度方面,明略科技也有自己的技术沉淀。首先,明略科技不止专注于应用型的NLP研究,同时也专注于基础型的NLP研究,比如说中文分词、命名实体识别,因为每个领域它都有不同的词需要我们去发现。其次,明略科技将知识图谱和深度学习进行有机结合,因为深度学习方法本身不太具有可解释性,而知识图谱是个白盒,它具有很好的可解释性。因此,我们将深度学习和知识图谱有机地结合起来,进行优势互补,我们叫“白加黑”,双管齐下。我们的另外一个技术非常有代表性的一个技术特色是多模态,我们将文本、语音、图像进行有机结合,形成了我们的HAO模块, HAO交互、HAO图谱。

在技术深度这个角度,明略科技有自己的预训练模型。同时我们也专注于图神经网络在NLP领域、在知识图谱领域的应用。

信息填写

*手机号码:

请选协议