作者
清华微软团队
编辑
陈大鑫
随着深度学习的快速发展,神经网络模型在CV、NLP等很多领域已经取得了显著超越传统模型的效果。然而,在信息检索领域,神经网络模型的有效性却仍然受到质疑。
例如这两年来,如BERT一样的预训练语言模型在很多自然语言处理的任务上取得了不错的效果,也成为了众多NLP任务的基线模型。然而,在信息检索领域,预训练语言模型在信息检索数据上的表现却并不突出。
那么,神经网络模型在信息检索领域的作用是否被夸大,又该如何有效地将神经网络模型应用于开放域信息检索场景?
基于上述问题,清华大学刘知远联合微软团队不仅提出了基于强化学习的弱监督数据筛选模型(ReInfoSelect)等相应解决方案,而且为了更好地解决开放域信息检索问题,刘知远老师所在的清华大学自然语言处理与社会人文计算实验室于近日开源了开放域信息检索工具包——OpenMatch(基于Python和PyTorch开发),以及神经网络信息检索必读论文集——NeuIRPapers。
接下来,AI科技评论将和大家一起共探解决之道!
1
信息检索
信息检索顾名思义,就是根据用户给定的问题,通过模型的搜索返回相关的文档(如下图所示)。整个检索过程大致分为两步:文档检索、文档重排序。
信息检索框架
在文档检索中,由于检索规模巨大,且需要保证检索的召回率,因此,我们往往采用两类方法来实现。第一种为SparseMethods,例如BM25,SDM等基于精确词语匹配的模型;第二种是DenseMethods,例如ANN(ApproximateNearestNeighbor),其基于神经网络得到问题和文档的表示,通过计算二者表示的相似程度来对候选文档进行排序。
对于文档重排序而言,由于只需要对文档检索出来的前K个文档重排序,因此,我们更侧重于检索的精度和效果。
此类模型主要分为两类:
1、基于神经网络的信息检索模型,此种模型主要侧重于通过端到端训练,学习词向量之间的相关性特征,例如K-NRM,Conv-KNRM,TK等。
2、诸如BERT之类的预训练模型,此种模型通过预训练语言模型来增强模型的效果。
最后,我们可以通过CoordinateAscent或RankSVM来整合两个阶段的全部模型特征,从而提升整体检索的效果。
在本文中,我们重点介绍第二步,以及如何更好的将领域知识迁移到文档重排序模型中。
2
预训练语言模型与信息检索
这两年来,如BERT一样的预训练语言模型在很多自然语言处理的任务上取得了不错的效果,也成为了众多NLP任务的基线模型。然而,在信息检索领域,如下图所示以ClueWeb09为例,预训练语言模型在信息检索数据上的表现却并不突出,没有显著优于基于传统信息检索特征的Learningtorank(LeToR)模型。但是通过Bing搜索日志训练的模型却得到了显著的提升,从而说明文本相关性监督信号对于神经网络信息检索是很重要的。
不同检索模型在ClueWeb09效果
因此,我们不禁会问为什么预训练模型对于我们的信息检索模型没有起到像其他任务一样的效果。我们来看下面一个例子。如下图所示,当用户想去搜索“Tokyotravel”的时候,是希望获取与东京旅行相关的信息,而不希望得到其他地点的旅行信息。
信息检索样例
然而,考虑基于语言模型训练的预训练模型。如下图所示,以MaskedLanguageModel为例,在这个例子中,“Seattle”和“Tokyo”同属地名,均符合语言学规律,因此两个词都可以填入我们预先设置好的“[MASK]”位置,从而导致二者在词义表示上非常接近。
MaskedLanguageModel样例
但是在信息检索场景中,我们并不希望“Seattle”和“Tokyo”这两个词的表示非常接近(毕竟西雅图和东京还是“有点”距离的)。因此,我们往往需要大量的文本相关性标签来端到端地训练我们的模型,从而学习到词语之间的匹配特征,以此提升神经信息检索模型的效果。
然而,文本相关性标签通常难以获得。一些相关性数据,例如搜索引擎用户的搜索日志,往往会涉及到隐私保护和商业机密,这对于研究人员来讲是难以获得的。
而如果通过招募人员进行大规模文本相关性标注,也需要大量的时间成本和人力成本,且对于一些特殊检索领域的标注,如医学、小语种等,对标注者的要求非常苛刻。以上的种种原因导致了文本相关性标签较少,从而使得神经网络模型在检索领域难以得到其应有的效果。
这时就需要领域知识迁移学习(如下图)派上用场,有两个方面可以实现它:融合外部知识、基于弱监督信号训练;这二者可以增强神经网络模型在信息检索模型中的效果。
基于领域知识迁移的神经信息检索模型
3
融合外部知识的神经信息检索模型
在信息检索场景中,用户检索词通常包含知识图谱实体信息,通过引入领域内知识图谱可以帮助我们提升检索模型的效果,帮助模型更好的理解相应实体的语义信息。
例如:给定“Obamafamilytree”这样一个问题,候选文档中往往出现一些相关实体,比如“UnitedStates”、“MichelleObama”等等。通过融合知识图谱的相应的语义信息可以更好的增强实体的表示,从而提升信息检索的效果。
信息检索中的实体信息
以EDRM模型为例,其利用了知识图谱的三种语义信息来增强实体的表示,分别是实体嵌入式表示、实体描述信息、实体类型信息。
实体嵌入式表示通过知识图谱结构信息描述实体间的相似度。
实体描述信息往往包含实体最重要的语义,比如针对于实体“Obama”来说实体描述信息会给出“贝拉克·侯赛因·奥巴马,年8月4日生,美国民主党籍政治家,第44任美国总统,美国历史上第一位非裔美国人总统。”这样的解释,其往往反映了实体最重要的特性。
实体类型信息往往提供了一个机会来建立实体之间的隐含联系,比如:“BarackObama”属于“Person”和“Leader”等类型。
4
基于弱监督数据训练的神经信息检索模型
针对文本相关性标签少的问题,我们想到互联网中存在大量弱监督文本相关性标签,如:新闻标题-内容、网页锚文本-目标网页文本等。我们可以利用这些数据,结合负例采样,生成训练数据。
但这些弱监督数据通常含有大量噪声数据,例如:新闻标题通常为吸引读者眼球,与内容相关性并不高,俗称“标题党”。网页锚文本许多也并无实际意义——“seemore”等。如果将所有数据一并训练,必然会对模型产生极大误导。
因此,我们提出了基于强化学习的弱监督数据筛选模型:ReInfoSelect。通过引入一个数据选择器来过滤噪声数据,训练神经网络信息检索模型,并通过检索模型在少量相关性标注数据上的表现来指导数据选择器的数据选择,从而提升数据筛选及文档排序效果。
ReInfoSelect框架
除了使用互联网中已有的相关文本作为弱监督文本相关性标签之外,我们还利用了训好的生成模型,基于现成的问答数据生成伪语料,构建弱监督文本相关性数据,训练神经网络信息检索模型。
5
开源工具及实验结果
为了更好地解决开放域信息检索问题,清华大学自然语言处理与社会人文计算实验室近日开源了开放域信息检索工具包——OpenMatch,以及神经网络信息检索必读论文集——NeuIRPapers。
OpenMatch是清华大学计算机系与微软研究院团队联合完成的成果,基于Python和PyTorch开发,它具有两大亮点:
1、为用户提供了开放域下信息检索的完整解决方案,并通过模块化处理,方便用户定制自己的检索系统。
2、支持领域知识的迁移学习,显著提升模型效果。
OpenMatch中提供的各模型如下表所示:
表1OpenMatch模型表
其中,PretrainedModels基于huggingface’sTransformers实现。
转载请注明:http://www.0431gb208.com/sjszjzl/3079.html