睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

文本情感可视分析技术及其在人文领域的应用

时间:2023-02-24来源:无言女浏览数:186

情感分析是对信息情感倾向的挖掘,主要用于舆情监测、商品评论分析以及信息检索等方面。随着社交媒体的快速发展,文本数据量呈现爆炸性增长,文本情感分析成为自然语言处理领域重要的研究热点之一。与此同时,由于情感数据具有海量、时变、非结构性、强关联性的特点,能够直观高效地呈现情感倾向的可视分析技术在这个领域得到广泛应用。回顾了近年来的情感可视分析研究,从表现形式——“主题词”“关联”“演变”“时空分布”4个方面阐述文本情感可视分析方法,并对未来情感分析技术及文本情感可视分析研究进行展望。

情感是生物对外界价值关系产生的主观反应,也是生物智能的重要组成部分。文本情感分析针对以文本信息为代表的模态,通过计算机技术提取其相关情感信息。随着自然语言处理与数据挖掘等技术的不断发展,现有技术已能有效获取文本情感状态信息。

可视分析技术以图表为基础,基于数据的多角度呈现,展现数据的隐藏信息。随着InfoVis(information visualization)与VA(visual analytics)的不断发展,情感可视分析近年来已成为热门的研究主题,也被认为是信息可视化与可视分析的一项重要研究挑战。

本文调研了近年来文本情感分析方法及文本情感可视分析方面的研究工作,对前沿研究技术与方法进行总结,文本情感可视分析流程如图1所示。本文对文本数据来源和处理技术进行汇总,根据研究方法将文本情感分析分为3类:基于情感词典的文本情感分析(SD-sentiment analysis)、基于机器学习的文本情感分析(ML-sentiment analysis)以及引入特殊模型的文本情感分析(SM-sentiment analysis)。接着根据呈现形式将文本情感可视分析分为4类:情感主题词可视分析、情感关联可视分析、情感演变可视分析以及情感时空分布可视分析。最后对文本情感分析方法及可视分析方法进行了展望。相较于Kucher K等人对情感可视化的研究综述,本文首先对现有文本情感分析技术进行了总结;其次根据可视分析呈现形式,按照4个主题进行总结归类;最后结合相关技术对各主题进行层次性细化阐述。


图1   文本情感可视分析流程

文本情感分析数据来源主要包含社交网络、电商评论、新闻评论、书籍文本等。数据预处理技术则主要包括对获取数据的进行清洗与整理,如分词(THULAC)、去无用词(如虚词、停用词)、统一数据类别等。

根据分析程度与情感标注数据类别,情感分类任务被划分为二分类(正面/积极、负面/消极)、三分类(积极、中性、消极)和多分类(高兴、激动、悲哀、愤怒等)任务。情感二分类任务和三分类任务主要对情感极性分类,多分类任务则通过语言学理论、心理学理论等对情感进行划分。ISEAC数据集包含5种情绪分类(愤怒、厌恶、悲伤、恐惧和高兴),TEC数据集包含6种情绪分类(愤怒、厌恶、高兴、恐惧、惊讶和悲伤)。

情感标记常被用于情感分类的训练数据中。单标记学习(single learning)将单个情感标签关联,如W E C等单标签数据集应用比较广泛。但语句信息具有多义性,对于情感标记来说,单标记学习的准确性较低。基于多标记学习的情绪识别模型能有效解决语句多义性问题。但多情绪分析仍存在建模能力较弱、无法对情绪程度进行定量表示等问题。为了有效解决多情绪定量表示的问题,Zhou D Y等人提出基于情感分布学习(emotion distribution learning,EDL)的文本情绪识别方法。受已有标签情感数据集数量较少的影响,需对数据进行情感标记增强,情感词典是进行情感分布标记增强的一个重要手段,Zhang Y X等人于2018年提出LLE——基于情感词典的情感分布标记增强技术。曾雪强等人则针对情感词典缺乏心理学相关性的问题,引入普鲁契克情感轮心理学模型,提出基于情感轮及情感词典的情感分布标记增强方法,将心理学与语言学结合,有效解决了标注数据不足的问题。

文本情感分析主要以文本数据为基础,实现对情感信息的探索。通过整理近10年已有的研究(见表1),对比文本情感分析模型的优缺点,探索不同情感分析模型的实验评估结果,并根据研究方法将文本情感分析方法总结为以下3种:基于情感词典的文本情感分析、基于机器学习的文本情感分析以及引入特殊模型的文本情感分析。
2.1 基于情感词典的文本情感分析
情感词典将数字、文本、符号整合起来,是情感分析系统的知识库。情感词典的文本情感分析常指通过情感词典获取情感词的情感值,通过计算判定文本的情感倾向。基于情感词典的文本情感分析方法包含4个部分:数据获取、数据预处理、情感词典的训练、情感分析结果输出。根据现有情感词典进行文本分析,往往因为文本数据灵活性差、文本数据专业性弱等问题影响情感分析的准确度。Zhang S X等人基于情感词典对微博文本进行情感分析,为了提高情感分析的准确性,结合微博文本数据的特点对传统的情感词典进行扩展,构建了6个情感词典,包含情感、否定词等方面。在准确率方面,在3类数据集中,本文提出的方法在积极、中性、消极3种情感标签的准确率均优于其他模型5%以上,中性文本数据的准确率达到74.8%。Rice D R等人则对专业文本数据进行探索,从专业词汇文本语料库中创建情感词典,提高情感词典,在专业文本情感分析中的有效性,相较于现有情感词典专业文本情感分析准确性可提高10%。由于不同文本的语言种类不同,对应的情感词典往往也存在一定差异,小语种文本情感分析研究也在逐渐发展之中。Al-Thubaity A等人基于由现代标准阿拉伯语和沙特阿拉伯方言构成的沙特阿拉伯方言情感词典,分析推特中与沙特阿拉伯相关的社交媒体数据,并与现有情感词典ArSenTi进行比较。

基于情感词典的文本情感分析可以准确反映文本的非结构化特征,可以有针对性地对匹配性较高的文本进行比较准确的情感分析,并且分析速度也比较快。但该方法也存在一些问题:情感词典包含的极性词语具有局限性;小语种的情感词典较少且构建相对困难;对于文本情感属性上下文关联性判定较弱。

2.2 基于机器学习的文本情感分析

基于机器学习的文本情感分析通过对带标签的数据进行训练得到情感分析模型,实现文本数据的情感预测。线性分类器模型、神经网络模型等机器学习模型常被应用于文本情感分析。Samal B R等人对机器学习相关算法进行探究,研究其相关性能,根据收集的5种不同大小的电影评论数据集,对比得到线性支持向量机(support vector machine, SVM)/支持向量机分类器(support vector classification,SVC)情感分类模型性能均优于其他分类器。Nizam H等人将朴素贝叶斯、决策树等算法应用于推特数据的情感分类,并对各模型的情感分析精度进行了判定与比较,得到序列最小优化(sequental minimal optimization,SMO)算法在该数据集中具有较高的准确率。

随着神经网络模型的发展,将其应用于情感分析的模型增多。现在比较常用的有:双向长短期记忆(bi-directional long short-term memory,BiLSTM)模型、双向门控循环单元(bi-directional gated recurrent unit,BiGRU)模型等。传统的将单词作为特征,对文本的充分利用具有一定的限制性,Li H K等人将词、语调、字符进行融合,构建WCT-Bi-LSTM模型,有效提高了情感分类效果,同时也对特征提取进行了优化。预训练模型通过构建动态词向量模型有效解决了上下文关联及一词多义等问题,该模型常与神经网络模型结合,用于提升情感分析的准确率。

2.3 引入特殊模型的文本情感分析

引入特殊模型的文本情感分析这类方法建立在机器学习算法的基础上,通过各类特殊模型在情感分析过程中对相关步骤的改善,提高情感分析的准确性。

2.3.1 预训练模型

以Word2vec、Glove为代表的静态词向量模型在不同文本中通常以相同的向量表示相同的词,静态词向量模型无法考虑文本中各词汇之间的关联程度,导致文本信息丢失,而动态词向量模型能有效解决该类问题。BERT (bidirectional encoder representation from transformers)同样于2018年由谷歌公司提出,是Transformer模型的衍生,能获取融合上下文信息的双向语言特征。谢润忠等人结合BERT预训练模型、注意力机制以及BiGRU模型,提高了情感特征的提取能力,提升了情感分类模型的性能,在不同实验数据集中,准确率均超过93%。

迁移学习常指将相关领域的知识及信息迁移至该研究领域进行研究。迁移模型建立在预训练模型之上,主要针对研究数据较少的领域。基于迁移学习的文本情感分析方法也被用于文学手法的检测之中。Zhang S W等人将该类方法用于推特等在线文本的反语检测中,将有限的标签数据与外部情感语料库(如情感词语语料库和推特情感语料库)进行整合,通过迁移学习与基于注意力机制的神经网络模型检测反语。

2.3.2 注意力机制

注意力机制通过对模型中权重的控制提高情感分析模型的性能。注意力机制也与神经网络模型进行结合,并通过权重控制提高情感分析的准确率。Wang Y Q等人提出ATAE-LSTM,并用于方面级情感分析,在二分类和三分类任务中准确率均优于LSTM。

Transformer由谷歌机器翻译团队于2017年提出,其创新点在于提出多头注意力(multi-head attention)机制及Transformer模型,多头注意力机制取代了递归层,Transformer模型相较于循环层与卷积层有明显的性能提高。为了有效解决循环神经网络(recurrent neural network,RNN)难以并行化的问题, Song Y W等人将多头自注意力模型应用于面向目标的情感分析,提出了注意力编码器网络(attention encoder network, AEN),并用于在上下文和目标信息之间建模。

对情感信息进行分析能判定文本的情感倾向,有效预测社会事件的发展,挖掘文本信息,实现情感的量化。由于情感信息具有海量、非结构、时变等特性,同时情感信息也具有强弱、喜悲之分,为了有效地对情感信息进行界限的划分,需要对图形进行恰当的展示。本文汇总了文本情感可视分析方法,并根据表现形式划分为情感主题词可视分析、情感关联可视分析、情感演变可视分析以及情感时空分布可视分析,并对这4种方法的优缺点进行分类阐述,见表2。
3.1 情感主题词可视分析

文本情感分析技术能有效挖掘文本的情感倾向。以词为主题的情感主题词可视分析能有效展现文本情感的强弱变化,将海量的情感信息数据转化为图表进行展现,常见的可视分析方法包含词云图、星座图等。

词云又称文字云、标签云,可被用于展现情感信息中的关键词及其重要程度。词云具有不同的形态,Wang J等人提出使用鱼眼词云(fisheye word cloud)和平行标签云(parallel tag cloud)展现时间序列中代表情感极性的关键词及对应情感的变化,顶部为最消极词,底部为最积极词。为了使词云更准确、直观地表达对应的情感信息,Naseem U等人等将词云的形状设定为对应的笑脸、苦脸等状态。对于多标签多时变信息的数据,静态词云显得杂乱无章,社交媒体中的标签数据可用于衡量人们情绪的变化,但受其来源的影响,具有海量、异质、时变的特性。基于此,Chen Y提出了基于节点链接图和词云图的Tagnet方法,用颜色编码节点并连线,动态展现标签的情感模式变化。词云虽简单易懂,但各词之间的关联性并未展现。STViewer将树状图与词云结合,既突出情感信息,也展现了词的层次关联性。

星座图被用于展现各个情感网络,使数据的分类及数据中关键词之间的关联程度便于理解,如CosMovis使用情感关键词构建聚类网络,并通过热力图编码其情感极性。

环形图可通过颜色与面积表示关键词中不同情感信息的占比,如Zhang W等人将环形图用于诗词意象的情感分析,并与节点链接图结合,展现宋词中不同诗词意象中情感信息的变化。

3.2 情感关联可视分析

情感数据因时间、主题、来源、社交网络、文本等信息具有关联性,情感关联可视分析能展现情感关联关系,常见的可视分析方式包括节点链接图、树图等。

节点链接图能有效展示网络关系。节点的颜色常被用于编码情感关系, Vizcarra J等人以颜色编码节点展现情感倾向,通过节点链接图展现社交平台用户情绪状态及社交活动,如图2所示。不同于颜色编码节点表示节点的情感属性, SentiView用话题椭圆代表评论主题及情感倾向,用节点代表用户评论,用边代表评论之间的关系,积极、消极情感属性则以小椭圆对节点进行覆盖,其余部分则代表中性情感,椭圆大小由评论数和参与评论的人数决定。Molla A等人则将情感信息量化以评分表示,图表中的滑块决定图表中的情感分数,颜色编码情感倾向,作者将代表不同情感的特征词量化,并构建节点链接图进行可视化展示。节点链接图可用于展现时空信息的变化,Whisper将地图与节点链接图结合,用于检测时间的时空扩散模式,以向日葵隐喻信息传播路径,颜色编码评论情绪。节点链接图也可通过边的颜色变化分析情感状态的变化, Zhang W等人将宋词文本的情感划分为5个类别,将诗词意象情感与作者进行关联,通过节点链接图与环形图的结合,分析每个作者在不同诗词意象下的情感分布变化及同一诗词意象中作者分布和对应情感分布。


图2   节点链接图

树图用于展现数据之间的层次及前后情感关联关系。STViewer将词云与词集之间的树形结构(word tree)结合,单词大小表示出现频率,通过连接边的颜色进行情感倾向的划分。树图可用于展现舆论的扩散路径,OpinionFlow通过树图展现舆论扩散情况,并将其与密度图进行结合用于展现情感倾向。ConVis则将用户和话题通过边进行链接,并在链接之中以堆叠条形图展现对话情感状态。树状地图(tree-maps)由Shneiderman B提出,以空间矩阵地图的形式展现树状结构及其层次关系,Pulse将其应用于汽车评论,不同的汽车品牌下,每个矩形展现其关键词及其对应的用户评论情感信息。
3.3 情感演变可视分析

情感数据具有伴随时间变化的特征,情感演变可视分析以时序数据可视分析为代表,展现情感信息随时间变化情况,揭示重要的序列模式,突出情感变化特征。

情感演变可视分析常以时间轴为基础,通过时间轴上不同的图表展现情感信息的变化,按照可视化通道的变化可将其分为线性时间可视分析、周期时间可视分析、日历时间可视分析。

线性时间可视分析以线性时间轴为基础,横轴展现其时间属性变化,纵轴展现情感信息及主题信息的变化。折线图、散点图通过线条(数值)及散点的变化展现时间趋势中情绪倾向的转变,但折线图及散点图展示信息能力较弱,不能展现相关事件的细节。Lu Y F等人通过气泡图中气泡的颜色编码情感得分(sentiment score),通过气泡的大小(bubble size)映射社交评论转发次数。

主题河流图(theme river)是一种常见的时序可视分析呈现方式,通过河流的宽度、颜色的差异展现各类主题随时间变化的发展趋势与关系变化。情感分析中常用不同颜色编码各类情绪并映射于河流之中,Brooks M等人通过情绪河流图展现推特数据,用3种颜色代表3种情绪,展现不同时间包含不同情绪的推特评论数量变化。情绪变化常与文本主题进行关联, Wang X T等人提出IdeaFlow,不同颜色编码不同时期各话题之间情感信息的变化,河流的宽度、颜色以及相关标签展示各主题随时间的变化。OpinionFlow将流图与桑基图结合,用流的变化展现时间递增中意见扩散的情况,在每条支流中以密度图的方式展现用户正/负面的意见情况,每条支流中以堆叠树图展现不同层次用户感兴趣的话题情况。StanceVis Prime则以流图为基础,在每个时间段加入对应的情感/立场提示标签,并借助交互手段与条形柱状图结合的方式展现不同情感与立场中社交媒体文本变化的情况,如图3所示。图3中:a为堆叠图,表示目标/域组合的文档计数;b为范围滑块,提供完整加载数据集的概述;c为时间步长选择的指示器;d为一个表示情绪/立场的主观性提示标签;e为文档查询的时间范围选择;f为主观性线索控制和文档查询按钮;g为情绪数据系列表示;h为立场数据序列表示;i为面板折叠按钮。

图3   线性时间可视分析

为了更方便地了解情感趋势的动态变化,更直观、具体地展现情绪产生因素、演变过程,Cao N等人提出一种基于DNA的隐喻可视化设计,将不同社会群体情绪演变情况展示为DNA双股螺旋中的主链,关键词框则类似于碱基位于双螺旋结构的内侧,用于展现事件相关背景,该结构能直接展现情绪产生时间、产生原因以及演变情况。以环形模型心理学研究表示情感具有多维性,单维线性情感可视分析方法未能对情感进行全面的分析。Wang F Y等人针对情感的二维性,提出SentiCompass,将时间轴以环形模型进行划分,在每个环形模型中,横轴代表情感状态,纵轴代表情感激活程度,并以折线图展示不同情感状态中的情感激活程度。

周期时间可视分析将时间轴以环形呈现,展现其周期性及多属性在该周期内的变化趋势。不同于线性时间轴展现环形结构的方式,径向图环形结构中的横轴代表时间,展现周期内各类情感趋势的变化。OpinionSeer将散点图及径向图结合,并将其应用在情感分析中,以径向图展现周期内用户数量的变化,并通过散点图展现不同年龄层次中用户的情感倾向。Watson K等人用环形时间轴隐喻电影的时长,通过各同心圆上不同位置的颜色变化编码人物在不同场景中的情感状态,以《恋夏500天》(the 500 Days of Summer)为例,如图4所示。

图4   《恋夏500天》周期时间可视分析

日历时间可视分析将时序数据以二维图表按日历的模型进行展示。日历图能直观地比较各时间段数据之间的变化情况。例如像素地图日历将文献指纹与日历可视化结合。

3.4 情感时空分布可视分析

情感信息往往与地理、时间、文本内容等各类信息关联,要展现时空特性,情感分析需感知地理信息、时空信息等,故文本情感可视分析常与时空分布关联。

情感时空分布可视分析主要以地图可视化为主要呈现方式。地图可用于展现空间分布特征,辅以一定的交互技术,地图可展现信息的地理分布、信息的时空扩散模式、信息的传播规律。

分布点地图(dot map)指在地图上通过标记及改变标记视觉变量形成的地图。分布点地图将关联地理信息的情感数据以点表示,通过颜色编码地图中的点用于展现情绪倾向,从而观察区域舆论/评论情感的变化与信息的扩散情况。Hao M C等人在基于分布点地图的基础上引入关键词,分布点地图改进使用了像素地图,有效解决了高密度地区点遮挡的问题。关键术语地图则将该区域的关键词与情感进行关联,关键词大小代表该地区的意义值,颜色则被用来编码情感倾向,通过此地图能有效分析地图中不同位置的情感变化和代表性关键词。地图也便于进行多层次信息展示,Zhang C H等人将地图与社交网络结合,为了避免地理信息造成节点链接图的布局混乱,作者将城市作为一个节点,通过各节点之间的网络表达信息传播关系,各个城市节点也通过颜色的变化来展现情感的变化,该图表能有效展现城市之间信息传播和不同城市的情感变化。

聚类点地图建立在分布点地图之上,有效解决了数据量较大、信息在分布点地图难以展现等问题。聚类点地图常用点的大小展现聚类情况,用点的中心位置表示地理信息。Murthy J S等人用点定位推文来源地区,用点的大小代表该地区对应的推文数量,用点的颜色代表情感极性,以分析不同地点中推文数量和情感变化情况。不同于以原点为聚类中心,推特情感图谱在地图中绘制堆积多边形来表示推文的空间聚类结果,多边形不同颜色的边代表不同的情绪分类,不同时间下多边形的变化代表情绪聚类的迁移,该图表可被用于展现推文情感空间聚类情况和迁移变化情况。与平面图形不同,聚类点地图也常与3D可视化图表结合,通过多维度的可视化展现情感信息。Apollo将地图与3D柱状图结合,多层次分析不同地点下推文情感的分布和情感分数的变化。

区域地图则是对某个区块进行划分,以该区域的颜色及大小的差异展现情绪的变化。Yaqub U等人将区域按照行政区域划分,并结合颜色的变化表示同一主题在不同区域社交评论中情感信息的差异。由于情感分析常涉及多个因素,因此各因素在可视化图表中的呈现将会影响视图效果。例如,Kuang C等人对颜色编码情绪进行改进,在地图中,颜色编码代表各地区微博帖子数量,而各区域内的微博评论情感倾向则以各区域的纹理进行展现,正面情绪用圆点进行展示,负面情绪则用横线进行展示,通过不同类型的情感表示方式分析不同区域内情感的主题变化情况。

本文总结了文本情感分析的数据来源、预处理、基本分类以及情感标记方法,归纳了文本情感分析技术,并对近年来文本情感可视分析方法进行了梳理。面对文本数据及多模态信息数据的持续衍生,文本情感可视分析依旧存在诸多的挑战与机遇,具体如下。

一是可视分析辅助自适应的选择与优化情感分析模型研究。可视分析方法在机器学习领域得到广泛的应用,可用于辅助模型的研究,包括模型的选择与对比、模型工作过程的展现等,有效提高了数据分析能力,增强了优化模型的效果。现有情感分析模型数量众多、结构复杂、参数众多,难以高效地实现模型的优化、选择以及理解等。可视分析辅助自适应的选择与优化情感分析模型将是未来的可视分析研究趋势之一。

二是多模态情感可视分析研究。当前情感可视分析研究主要对文字进行研究,但文字信息不够充分。随着可用的视频、图像资源不断增加,未来情感分析研究将集中于多模态情感分析研究。多模态情感分析即通过文本、图像、视频、语音等方面的结合实现情感信息提取,多模态情感可视分析也是情感可视分析领域的研究热点之一。如何将文本、语音等多种模态的情感信息进行融合,基于不同的权重分布有效展现情感的变化,通过可视分析图表多层次且更有效地展现多模态情感信息内容以及将可视分析技术应用于多模态情感分析方法的研究,需要进一步深入的研究与探索。

三是情感分布的不确定性及可视分析研究。目前进行情感可视分析研究是面向极性或者确定个数的情感标签的,但是有些时候情感并不是非此即彼。随着情感分析数据内容和来源的多元化,特别是面对具有多关联关系、海量的文本数据且存在情感模糊性的情感分析任务解读时,设计一种有效的情感可视分析方法仍有挑战,是未来的研究热点。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询