迁移学习与情感分析 之前一篇文章提到了迁移学习在机器学习中的重要性以及必要性,这一篇文章将继续讨论在自然语言处理方面,迁移学习的应用。本文将基于[1]从以下几个方面对迁移学习在情感分析中的应用进行分析: 1.什么是情感分析 2.为什么需要情感分析 3.情感分析的现状 4.情感分析基础 5.情感分析和迁移学习 6.情感分析的大致过程 7.情感分析迁移学习方法 8.总结 1.什么是情感分析 情感分析(Sentiment Analysis),在本文中指代文本情感分析,又被称为意见挖掘、倾向分析等。就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。常见的应用场合就是在诸如博客、新闻等有大量用户参与,且产生了有价值的评论信息的时候,这些信息往往表达了人们对于事件或人物等客体的感情色彩和情感倾向,比如支持、反对或者中立、不关心等。基于此,有需要的人员(比如公关、经纪人等)可以通过情感分析掌握舆论的倾向,从而了解大众对于某事件或者产品的看法,以调整产品或者行为。 情感分析的研究由来已久,最早的情感分析仅限于通过文本分析评论数据是持支持观点还是反对观点。之后Bo Pong等人采用有监督的机器学习方法对文本的整体情感倾向进行了分类,并且明确给出了将文本按照情感倾向划分为正向(Positive)和负向(Negative)两类的任务叫做情感分析。至此情感分析开始成为自然语言领域的一个备受关注的研究方向。 2.为什么需要情感分析 互联网的快速发展,导致信息的爆炸式增长,人们难以通过人工方法来处理各种信息,而情感分析的需求也越来越广泛。 从2000年初以来,情感分析已经成为自然语言分析(NLP)中最活跃的领域之一,也是在数据挖掘、文本挖掘、信息索检等方面有广泛研究的基础上发展起来的。事实上,情感分析因为他在商业性方面有着不可估量的重要作用,在各行各业都引起了广泛的关注。因为人类活动是一种大众的活动,无论人们做出什么决定都会在一定程度上参考他人的想法或者征询他人意见,而情感分析机就可以帮助我们完成这一任务。 比如,在电影的评论中,我们可以通过情感分析各种留言掌握电影的质量,以帮助没有观看的潜在观众进行评价,如果更进一步甚至可以为他们推荐与喜好相符合的电影。更具影响意义的应用可能是在选举中对选民的相关评论进行分析,通过调整政策来获得更多的选票。 无论从哪个方面来看,情感分析在处理大量含有带有情感色彩的文本时能够为使用者提供相关信息以帮助决策,在越来越多的领域和情境中发挥着重要作用。 3.情感分析的现状 情感分析的研究已经持续了近20年,但是其热度有增无减。从2004到2018年在谷歌搜索引擎中关键词“情感分析”搜索热度的变化图中(相对兴趣为衡量标准),可以明显看出情感分析热度持续升高。而从2000年至2016年Scopus数据库中情感分析的相关论文数量变化也可以看出,情感分析的研究工作一直保持增长的趋势。 情感分析研究大多始于电影或者商品的评论分析,而近年来研究的重点更多的放在了社交短文本的情感分析上。社交短文本由于其领域性薄弱、缺乏上下文语境、灵活多变等特点使得研究更加难以展开,同时也使得该工作的成果更有现实价值。 4.情感分析基础 4.1 情绪类别 从分类类别上,原始的情感分析仅把情绪区分为正负两类显得过于粗糙。因此在之后的研究中加入了中立这一分类。而随着研究的不断进展,更多的情绪将被添加到这一分类中,比如生气、开心等更加细粒度的划分的加入也将使得情感分析的应用更加实用化。 4.2 文本粒度 情感分析按照分析文本的大小可以大致划分为文档级、段落级和句子级情感分析。那么情感分析器在此过程中扮演的角色就类似于中学语文中的中心思想总结、段落大意总结以及句子分析了。其中句子级的情感分析最为困难,对特征提取和特征的表示要求也更加严格。 4.3语言 不同语言也导致情感分析的难度有所区别,其中又以中文的情感分析最为困难,中文本身的语言特点导致语义分析的困难,中文的含蓄性以及其中包含的隐喻、联想、比喻、反语、典故、成语等也会使得情绪分析面临一些困难。 4.4 有监督的机器学习方法 模型通过学习语料和标签之间的关系获得输入和输出之间的映射,称为有监督的机器学习方法。在情感分析中,也通常使用常见的有监督机器学习模型,如支持向量机、决策树、逻辑斯特回归模型、朴素贝叶斯等,来解决问题。 4.5 无监督的机器学习方法 相比于有监督的学习方法,无监督学习方法在学习过程中没有标签数据或者只有少量的标签,这大大增加了训练的难度以及精确度。但是也有研究者就隐含迪利克雷分配模型提出了情感分析方法。 4.6 神经网络方法 圣经网络方法也是有监督机器学习方法中的一种,我们上次提到的迁移学习方法也是基于神经网络的可迁移性提出的。神经网络方法的优点之一就是可以省略繁琐的特征工程,直接输入的文本进行更深层次的表征学习。 近年来流行的WordEmbedding模型中的word2vec就是神经网络模型。神经网络中注意力机制的应用,使得方面级情感分析成为新的研究热点。 5 情感分析和迁移学习 迁移学习的基本方法在上一篇文章中已经大致覆盖,本文就不再赘述。 情感分析跨领域研究工作在早期提出了结构一致性学习算法,解决了跨领域情感分析问题,并提供了一个权威的跨领域情感温习语料库。之后,基于此结构一致性学习算法,有研究者提出了带权重的结构一致性学习以及光谱特征定位算法。该算法以领域独立词为媒介来模拟领域特定词语领域独立词之间的关系,试图寻找一个新的特征表示方法减少领域之间的差距。从而为知识的迁移提供了理论基础。 神经网络模型的结构比较相识,能够很轻易的改造成为基于参数迁移的学习模型,那么使用已经训练好的模型通过泛化迁移到其他领域,就可以在仅进行少量样本的训练后就达到可以接受的效果,从而大量的节约训练时间、标注成本以及构建模型等重复工作。 6 情感分析的大致过程 情感分析的本质实际上是一个分类任务,我们将给定输入的文本按照情感划分为若干类进行输出。因此可以从有监督学习的框架入手来解决该问题。 6.1数据的预处理 模型训练依赖的语料库或者从网上爬取的文本可能包含很多噪音以及垃圾数据,在进行特征提取之前,需要对文本进行一定的预处理。预处理包括了文本的去重,数据的清晰等工作。 6.2数据标注 因为进行的是有监督的学习,因此训练数据都需要有明确的标签,在这一过程中人工的参与必不可少,这也是从头开始训练一个情感分析器的主要成本之一。而这也是迁移学习在情感分析运用中的有利因素之一。 6.3 特征提取 从经过预处理和标注的数据中提取出具有独立属性的特征,从而能够针对一系列特征,或者特征的某一子集进行分析。这些特征通常来说是由一个词或者一组特定的词,且于分类的相关性较高,能够用来帮助进行分类。 6.4样本表示 常用的方法是将文档堪称词袋模型。 6.5模型建立 以所得的通过特征表示的样本以及相应的标签对模型进行训练,得到一个可以用于未见数据分类的模型。 6.6模型评估 可以使用常见的机器学习评价方法进行模型性能评估。比如准确度,召回率,F1-score等方式。再根据此结果对训练模型中使用的参数进行调整,或者更换更加合适的模型进行训练。 7 情感分析迁移学习方法 前面提到有监督学习方法是情感分析中最常用的方法,但是缺点也显而易见,就是需要大量人工提前标注的数据,此工作费事费力,且面对网络上暴涨的数据有力不从心之感。那么迁移学习就可以缓解这一困难。 迁移学习的主要思想就是将已经在某一领域训练好的模型通过知识迁移到目标领域来辅助目标任务的学习。在迁移学习过程中仅需要少量的带标签数据就能够比较好的完成学习任务。 7.1 EATAdaBoost模型 AdaBoost算法通过继承多个弱分类器构建一个强分类器,这一构建过程是一个boosting的迭代过程。TraAdaBoost模型则是最先使用AdaBoost算法解决迁移学习的问题。而EATAdaBoost模型是在AdaBoost基础上提出的基于样本的迁移学习方法。此方法试图在模型进行迭代之前判别出有利于目标模型训练的源领域样本。 其大致的思想就是,在某一领域A中训练的模型,其代表某一分类的关键词可能于目标领域B中该分类的关键词大相径庭。这一事实使得迁移学习的使用并不理想。如果能够在领域A与领域B之间插入一个通用的领域C使得,A和B中同一类别的关键词都能够于C中该类通用词相对应吗,那么就能够通过以C为桥梁达到迁移学习的目的。 7.2 EATAdaBoost处理流程 模型在训练前需要进行较多的数据处理和特征选择步骤。 7.2.1统计通用情感词:对源数据集进行数据清理和分词,结合情感词典统计领域情感词和非领域情感词,计算各通用情感词在这两个领域出现的频数,确定通用情感词作为语义的相似度计算的桥梁。 7.2.2关键标签计算:将源领域样本和通用情感词表示成文本向量。 7.2.3训练:将原样本数据、目标数据样本以及关键标签带入算法进行训练。 7.3 实验结果 作者采用了5折交叉验证。使用迁移学习方法模型的词汇特征性能提高了3%,而且可以在一定程度上降低word2vec模式中的词向量维度。与其他非迁移学习方法的模型相比较,在准确率和召回率以及F1值上都有比较显著的提升。足以见得,迁移学习能够在超越非迁移学习模型效果的同时,节省时间、计算资源和人力,值得进一步的利用。 8.总结 通过前文的叙述,我们可以得出迁移学习在情感分析这一自然语言处理领域的重要作用。而在机器学习广泛领域内可能还存在更多的情形能够适用迁移学习方法进行简化训练节省成本。我们作为计算机系的学生更应该关注这一工具,在学习工作中有意识的去使用这一方法,并以降低重复劳动以及提高效率为目标进行研究。 参考文献: [1] 雍若兰,基于迁移学习的中文短文本情绪分析.华东师范大学.2018
|