自然语言处理技术及金融应用实践综述

来源：医药信息时间：2023/4/3

1介绍

1.1自然语言处理

自然语言通常是指一种自然地随文化演化的语言，是人类交流和思维的主要工具，是人类智慧的结晶。狭义的自然语言处理是使用计算机来完成以自然语言为载体的非结构化信息为对象的各类信息处理任务，比如文本的理解、分类、摘要、信息抽取、知识问答、生成等的技术。鉴于自然语言丰富地表现了人类的认知、情感和意志，潜在地使用了大量常识和大数据，自身在算法和模型上也多采用各种启发式线索。自然语言处理作为人工智能的一个分支，其源头和人工智能一样，都出自于计算机科学的鼻祖——阿兰·图灵。图灵提出的图灵测试，就把使用自然语言与人进行对话可以乱真的能力作为判别一个机器系统有无智能的标准。在图灵的时代，让机器“善解人意”是在当时的技术条件下还看不到实现的希望。自然语言处理是人工智能中最为困难的问题之一，是实现人工智能、通过图灵测试的关键。按照当代语言学理论，自然语言分符号、词法、句法、语义和语用五个层面。在符号层面，有语音、文字、手语和电子输入。在词法层面，有词典、词性标注、词的形态变化、构词法等。在句法层面，有词对词的关联/依存关系，以及短语对短语的结合/拼接关系。在语义层面，有语义标签与它们在现实/想象世界中的所指之间的映射关系和语义标签之间的角色指派关系。在语用层面，有语言成分与语境之间、字面意义和言外之意之间的复杂互动关系。一般称的“语法”，包含了词法和句法两个层面。NLP(NaturalLanguageProcessing)自然语言处理，是计算机科学、人工智能和语言学的交叉学科，目的是让计算机处理或“理解”自然语言。

1.2应用领域

信息检索：包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。例如在一大堆非结构化的信息里面（通常是文本），找到符合需求的信息。

信息过滤：聊天室广告屏蔽，违规内容审核，脏话过滤，垃圾邮件过滤。

信息提取：从指定文本范围中提取出重要信息，例如时间、地点、人物、事件等，可以帮人们节省大量时间成本，且效率更高。比如文摘生成利用计算机自动从原始文献中摘取文字，成果能够完整准确反映出文献的中心内容。

文本生成：根据限定条件或输入内容的不同，进行数据到文本或文本到文本的生成。

智能问答：对一个自然语言表达的问题进行某种程度的分析（例如实体链接、关系式、形成逻辑表达式等），分析完毕后在知识库中查找可能的候选答案，通过排序机制找出最佳的答案进行回复。比如电商行业中广泛应用的自动回复客服，通过回复许多基本而重复的问题，从而过滤掉大量重复问题，使得人工客服能够更好地服务客户。

机器翻译：通过把输入的源语言文本通过自动翻译获得另一种语言的文本，是自然语言处理中最为人所熟知的场景，比如百度翻译、Google翻译等。

文本挖掘：包括文本聚类、分类、情感分析以及对挖掘的信息和知识通过可视化、交互式界面进行表达。

舆论分析：通过收集和处理海量信息，对网络舆情进行自动化的分析，帮助分析哪些话题是目前的热点，同时对热点的传播路径及发展趋势进行分析判断，及时应对网络舆情。

知识图谱：又称科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形。以可视化技术为载体来描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

1.3发展趋势

趋势1：语义表示——从符号表示到分布表示举个例子，荷兰和德国这两个国家名是两个词。如果我们把这两个词放到一个语义的空间里，把它们表示为连续、低维、稠密的向量的话，就可以计算不同层次的语言单元之间的语义相似度。

趋势2：学习模式——从浅层学习到深度学习基于浅层模型的学习（如SVM和逻辑回归），大多数的语言信息用稀疏表示（高维特征）表示，会导致诸如维数灾难之类的问题。基于密集向量表示的神经网络在各种NLP任务中取得了较好的效果。这一趋势是由词嵌入和深度学习方法的成功引发的。

趋势3：NLP平台化——从封闭走向开放NLP领域的研究程序和数据越来越走向开放，各学校和各大企业提供的开放平台越来越多，使用的门槛也越来越降低。

趋势4：语言知识——从人工构建到自动构建NLP领域需要的大量显性知识现在已经有自动的方法来构建，比如自动发现词汇与词汇之间的关系。

趋势5：对话机器人——从通用到场景化把对话机器人和特定场景结合，进行问答或者执行任务，做有用的人机对话。场景化对话机器人，非常有趣味性和实用价值。

趋势6：文本理解与推理——从浅层分析向深度理解迈进给计算机一篇文章，让它去理解，然后人问计算机各种问题，看计算机是否能回答，答案来自于这篇文章。

趋势7：文本情感分析——从事实性文本到情感文本文本情感分析在商业和政府舆情方面越来越得到广泛应用。

趋势8：社会媒体处理——从传统媒体到社交媒体人们越来越多地把文本情感分析应用到电影票房的预测以及股票价格的预测中。

趋势9：文本生成——从规范文本到自由文本文本生成近几年很火，从利用模板生成规范性的文本到生成自由文本。

趋势10：NLP+行业——与领域深度结合，为行业创造价值NLP已广泛应用在金融、电商、医药、司法、教育等多个行业中。

2自然语言处理在金融领域的应用场景

2.1金融科技政策

中国人民银行印发银发号文件，《金融科技（FinTech）发展规划（-年）》（以下简称《规划》），明确提出未来三年金融科技工作的指导思想、基本原则、发展目标、重点任务和保障措施。《规划》中一共列出了二十七项重点任务。其中，第六项、第十项、以及第十一项重点任务与人工智能密切相关。摘选如下：（六）稳步应用人工智能。深入把握新一代人工智能发展的特点，统筹优化数据资源、算法模型、算力支持等人工智能核心资产，稳妥推动人工智能技术与金融业务深度融合。根据不同场景的业务特征创新智能金融产品与服务，探索相对成熟的人工智能技术在资产管理、授信融资、客户服务、精准营销、身份识别、风险防控等领域的应用路径和方法，构建全流程智能金融服务模式，推动金融服务向主动化、个性化、智慧化发展，助力构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。（十）完善金融产品供给。强化需求引领作用，主动适应数字经济环境下市场需求的快速变化，在保障客户信息安全的前提下，利用大数据、物联网等技术分析客户金融需求，借助机器学习、生物识别、自然语言处理等新一代人工智能技术，提升金融多媒体数据处理与理解能力，打造“看懂文字”、“听懂语言”的智能金融产品与服务。

2.2NLP+金融

金融行业因其与数据的高度相关性，成为人工智能最先应用的行业之一，而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分，正在快速进入金融领域，并日益成为智能金融的基石。只要能深入掌握两到三种能力，就能具有相当的竞争力。在这些业务场景中，NLP和知识图谱技术的共同应用，能发挥出巨大效能。同时，一种核心能力可以在多个智能金融应用场景中得到应用，这些应用场景包括：智能风控、智能监管、智能问答、智能运营、智能投研、智能投顾等。

2.2.1智能问答和语义搜索

智能问答和语义搜索是NLP的关键技术，目的是让用户以自然语言形式提出问题，深入进行语义分析，以更好理解用户意图，快速准确获取知识库中的信息。在用户界面上，既可以表现为问答机器人的形式（智能问答），也可以为搜索引擎的形式（语义搜索）。智能问答系统一般包括问句理解、信息检索、答案生成三个环节。智能问答系统与金融知识图谱密切相关，知识图谱在语义层面提供知识的表示、存储和推理，智能问答则从语义层面提供知识检索的入口。基于知识图谱的智能问答相比基于文本的问答更能满足金融业务实际需求。智能问答和语义搜索的价值在金融领域越来越被重视。它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域，投研人员日常工作需要通过多种渠道搜索大量相关信息。而有了金融问答和语义搜索的帮助，信息获取途径将是“Justaskaquestion”。并且，语义搜索返回的结果不仅是平面化的网页信息，而是能把各方面的相关信息组织起来的立体化信息，还能提供一定的分析预测结论。在智能客服和智能投顾领域，智能问答系统的应用主要是机器人客服。机器人客服目前的作用还只是辅助人工客服回答一些常见问题，但已能较大地节省客服部门的人力成本。

2.2.2资讯与舆情分析

金融资讯信息非常丰富，例如公司新闻（公告、重要事件、财务状况等）、金融产品资料（股票、证券等）、宏观经济（通货膨胀、失业率等）、政策法规（宏观政策、税收政策等）、社交媒体评论等。金融资讯每天产生的数量非常庞大，要从浩如烟海的资讯库中准确找到相关文章，还要阅读分析每篇重要内容，是费时费力的工作。如果有一个工具帮助人工快速迅捷获取资讯信息，将大大提高工作效率。资讯舆情分析的主要功能包括资讯分类标签（按公司、产品、行业、概念板块等）、情感正负面分析（文章、公司或产品的情感）、自动文摘（文章的主要内容）、资讯个性化推荐、舆情监测预警（热点热度、云图、负面预警等）。在这个场景中，金融知识图谱提供的金融知识有助于更好理解资讯内容，更准确地进行资讯舆情分析。资讯舆情分析的应用主要在智能投研和智能监管这两个场景。目前市场上的辅助投研工具中，资讯舆情分析是必不可少的重要部分。资讯舆情分析作为通用工具更多是对海量定性数据进行摘要、归纳、缩简，以更加快捷方便地为投研人员提供信息，支持他们进行决策，而非直接给出决策结论。在智能监管领域，通过资讯舆情分析，对金融舆情进行监控，发现违规非法活动进行预警。

2.2.3金融预测分析

有分析表明，投资决策人员在进行决策时，更多依赖于新闻、事件甚至流言等定性信息，而非定量数据。因此，可期待基于语义的金融预测分析大有潜力可挖。这个场景中涉及的关键NLP技术包括事件抽取和情感分析技术。金融知识图谱在金融预测分析中具有重要的作用，它是进行事件推理的基础。例如在中兴事件中，可根据产业链图谱推导受影响的公司。

2.2.4文档信息抽取

信息抽取是NLP的一种基础技术，是NLP进一步进行数据挖掘分析的基础，也是知识图谱中知识抽取的基础。采用的方法包括基于规则模板的槽填充的方法、基于机器学习或深度学习的方法。按抽取内容分可以分为实体抽取、属性抽取、关系抽取、规则抽取、事件抽取等。在这里的文档信息抽取特指一种金融应用场景。指从金融文档（如公告研报）等抽取指定的关键信息，如公司名称、人名、指标名称、数值等。文档格式可能是格式化文档（word，pdf，html等）或纯文本。对格式化文本进行抽取时需要处理并利用表格、标题等格式信息。文档信息抽取的应用场景主要是智能投研和智能数据，促进数据生产自动化或辅助人工进行数据生产、文档复核等。

2.2.5自动文档生成

自动文档生成指根据一定的数据来源自动产生各类金融文档。自动报告生成属于生成型NLP应用。它的数据来源可能是结构化数据，也可能是从非结构化数据用信息抽取技术取得的，也可能是在金融预测分析场景中获得的结论。简单的报告生成方法是根据预定义的模板，把关键数据填充进去得到报告。进一步的自动报告生成需要比较深入的NLG技术，它可以把数据和分析结论转换成流畅的自然语言文本。自动文档生成的应用场景包括智能投研、智能投顾等。

2.2.6风险评估与反欺诈

在金融行业，风险评估与反欺诈的应用场景首先是智能风控。利用NLP和知识图谱技术改善风险模型以减少模型风险，提高欺诈监测能力。其次，还可以应用在智能监管领域，以加强监管者和各部门的信息交流，跟踪合规需求变化。通过对通信、邮件、会议记录、电话的文本进行分析，发现不一致和欺诈文本。例如欺诈文本有些固定模式：如用负面情感词，减少第一人称使用等。通过有效的数据聚合分析可大大减少风险报告和审计过程的资源成本。

2.2.7客户洞察

NLP技术在客户关系管理中的应用，是通过把客户的文本类数据（客服反馈信息、社交媒体上的客户评价、客户调查反馈等）解析文本语义内涵，打上客户标签，建立用户画像。同时，结合知识图谱技术，通过建立客户关系图谱，以获得更好的客户洞察。这包括客户兴趣洞察（产品兴趣），以进行个性化产品推荐、精准营销等。以及客户态度洞察（对公司和服务满意度、改进意见等），以快速响应客户问题，改善客户体验，加强客户联系，提高客户忠诚度。客户洞察在金融行业的应用场景主要包括智能客服和智能运营。例如在智能客服中，通过客户洞察分析，可以改善客户服务质量，实现智能质检。在智能运营（智能CRM）中，根据客户兴趣洞察，实现个性化精准营销。

各种核心能力在智能金融的主要应用场景呈以下分布：

3业务项目和产品实践

3.1相似新闻聚类

在这个场景下，业务痛点：集团某部门每天需要阅读处理从各个来源获取到的成千上万条新闻。这些新闻的编辑们为了吸引用户，往往使用“震惊”、“惊人”等标题党专用词汇，但是内容本质上没有差别，描述的都是同一个事件。这无形中对业务人员增加了不必要的工作量。在解决此痛点的过程中，经过对输入数据特征的分析，我们先后尝试了若干经典特征构建方法和若干相似度度量方法的不同组合。特征构建方法如TF、TF-IDF、DOC2VEC、BM25、SIMHASH等。相似度度量方法如最小编辑距离、欧氏距离、余弦距离、杰卡德相似度和海明距离等。根据业务需求选取了合适的特征构建方法、相似度度量方法以及相似度阈值进行聚类，最终取得了满意的效果。

3.2文件分类标签化

在每一次集团的例行项目中，很多领域的业务人员为了能在大量的报送文件中快速搜索到想要的文件，需要对这些文件进行整理、分类、打标签。而如今自然语言处理技术的快速发展使其中大部分工作的自动化处理成为了可能。其中，领域词库的构建是分类工作的基础，随着词库构建的理论研究逐步深入和在工程实践中的广泛应用，形成了许多的构建方法和构建工具。传统构建方式往往是通过积累的大量的文本数据(例如行业的科研论文，项目报告，政府规章制度等等)依靠人工批注的模式去筛选该行业的专业领域词汇。经过对某业务领域现有语料进行分析和处理，在与需求方领域专家的不断探讨过程中，摸索出一条构建该领域词库的有效方法。该方法使用命名实体识别、新词发现等算法能自动抽取出候选领域词。结合人性化界面，能够很方便地让业务人员对领域词库进行管理、扩展等维护工作。在新的语料集的支持下，通过敏捷迭代，能快速发现和提取出新的领域词。使用该领域词库，能大大提升领域分词准确度。不仅顺利满足了文件分类的业务需求，同时也为后续的NLP相关处理工作打下扎实的基础。

3.3智能对话机器人

当今的工业界，智能问答机器人是一个相对比较成熟的领域。典型的问答机器人可以分为以下四类：

文本型智能客服这种类型的对话机器人大多出现在app中或者网站上，以文字为主要的交互方式，旨在为顾客提供常见的问题解答与简单任务的处理（如退货，换货等）；常见的有：阿里小蜜，京东JIMI话务型智能客服这种类型的对话机器人常见于银行与大型企业（如家电）的话务咨询上，以语音为交互方式，同样也是为了解答顾客的常见问题与处理简单任务（如查询余额、充值等）；常见的有：光大银行智能客服，工行工小智个人助手这种的对话机器人现阶段基本已经渗透到了每一台智能手机，进入大多数人的日常生活，旨在为用户提供一种语音交互的手段来提高操作的效率（如闹钟设置，日程提醒）；常见的有：Siri，小爱同学工作助手这种类型的对话机器人主要用于以文本或者语音对话的形式帮助员工进行假期申请，事务提醒等日常工作事项，起到办公事项的整合（各种办公事项都可以通过工作助手对话来实现）与效率的提高；常见的有：slack，钉钉问答机器人在如下三个场景中有很高的商业价值：

售后接待在这个场景下，对话机器人最大的价值在于问题的拦截，即个顾客来咨询，最终需要人工客服解答的顾客只有10个，大大降低客服成本。售前接待这种场景下，对话机器人最大的价值在于接待的及时性；想象下，在淘宝里询问掌柜问题，若是掌柜隔了五分钟再回复，那基本就不会在这家店买东西了。因此，这类机器人在顾客到来的第一时间由机器人接待，同时机器人也在通知掌柜抓紧上线，接管会话。对于企业服务来说，这类机器人还会判断顾客的意向程度，针对高意向的顾客会引导留下联系方式，方便后续客户经理的跟进。个人助手这种场景下的机器人，最大的价值在于以语音交互的方式提高用户操作效率。例如在晚上在床上准备睡了，忘了设闹钟，而手机在桌子上，这时候一句话就能完成闹钟设置想必是一个良好的体验。基于以上的价值评估，我们在智库产品体系框架内研发了金融自动问答机器人和员工智能助手两款产品。以下是截图：

这两款产品的优势在于：

智能问答机器人融合智能语义匹配引擎，准确率有保障低成本知识闭环：智能问答机器人服务采用文本挖掘、关联规则等技术从日志、操作记录等多源数据中学习领域知识，强化问答知识库，结合知识图谱等工具能力，提升问答效果7*24小时工作，不受情绪影响。减少沟通复杂度移动版随时随地都能发起提问。赋予机器人不同的人设，更人性化。3.4舆情监测

覆盖全网万余个核心信息源（例如企业公告信息、政府公开信息、行业网站），监测信用债券发行主体，ABS项目基础资产主体和结构化证券信息。应用事件抽取和情感分析等NLP技术，对诸如新闻媒体和社交平台上的信息按照情感、业务关联风险和重要程度进行分类整理和清晰呈现。提早发现

转载请注明：http://www.0431gb208.com/sjsbszl/4018.html

上一篇文章： IJCAI2021医药AI必读论文推荐

下一篇文章：肿瘤用药基因检测爆发前夜IVD与LDT两