创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
跟着滥用者自生成媒体(Consumer Generated Media, CGM)的平庸普及, 出现了多量的用户自生成内容(User Generated Content裸舞 twitter, UGC).视频弹幕算作一种新式的视频交互模式在亚洲致使于全天下范围内齐越来越流行, 即用户在不雅看弹幕视频时, 可以随时发表我方的实时议论, 况兼能够看到其他用户发表的实时议论.
据统计, 外洋的YouTube(youtube.com)和Nicovideo(nicovideo.jp)以及中国的youku.com、tudou.com和bilibili.tv等视频共享网站是广受宽饶的几个网站, 这些网站每天齐会有多量的视频产生.举例面前bilibili.tv活跃用户逾越1.5亿, 每天视频播放量逾越1亿, 弹幕总量逾越14亿, 原创投稿总和逾越1 000万, 用户平均年岁17岁, 75%的用户在24岁以下[1]. "弹幕文化"面前主要流行于年青东说念主之间, 这为分析年青东说念主公论生态提供了阶梯, 但也濒临以下问题和挑战: ①弹幕数据与传统的UGC不同, 网站不会万古候保存弹幕数据, 而是为每个视频帮忙一个一定大小的弹幕池, 弹幕随时可能会因超出弹幕池大小放弃而被删除, 弹幕数据难以齐备获取, 尤其是在议论的岑岭期, 致使会有多量的弹幕数据因超出弹幕池上限被删除而丢失.要是采纳传统麇集数据获取方法, 需要一直保持高频率的数据握取操作, 会导致因为麇集瓶颈使得麇集爬虫无法同期追踪多量的视频弹幕, 难以灵验获取数据. ②弹幕文本广博相比短, 具有信息量少、特征寥落等传统漫笔本特色, 但又不同于传统的漫笔本, 主要体当今:第一, 内容白话化和象征化, 议论者常常选择使用短句和象征颜料来抒发内心行动; 第二, 弹幕内容流行语化, 议论者往往会使用当下相比流行的话语来抒发现时的情怀, 导致传统的情怀辞书因枯竭这些流行语而无法灵验识别; 第三, 联系于传统漫笔本, 在弹幕数据处理中典型的停用词表不再适用, 比如"!"平日被以为是一个停用词, 可是在弹幕数据中, 它具有进攻的情怀识别作用, 需要从头议论弹幕文本的预处理责任.
针对以上问题, 本文建议了一种基于大规模弹幕数据监听和情怀分类的实时舆情分析模子.以新闻事件为例, 领先通过要害字自动检索弹幕网站上有关的新闻视频, 然后对这些视频产生的弹幕数据进行追踪获取, 建议了一种基于热门检测的轮回自稳妥数据麇集算法, 即按照弹幕生成的速率动态调节数据获取的频率, 以处罚弹幕数据可能存在的丢失问题, 以及高频率数据握取带来的性能问题; 构建了针对弹幕数据的停用词表, 去除弹幕数据构中的停用词, 并开拓了弹幕情怀辞书, 用于分辨中性议论和情怀倾向议论; 建议了基于弹幕情怀辞书和卷积神经麇集(CNN)分析弹幕数据舆情的模子.
1 有关究诘弹幕数据的分析受到国表里究诘者的平庸柔顺, 并取得了一些积极的究诘后果. He等东说念主对弹幕作念了全方面的预研性责任[2], 对弹幕的各个特色作念了详备的分析, 为弹幕的究诘作念了很好的铺垫. Jia等东说念主对弹幕网站Bilibili作念了全方面的探索性责任[3], 从各角度分析了弹幕网站用户的专有特征, 并使用赶快丛林算法来展望弹幕视频是否会受宽饶.在对弹幕情怀分析有关的责任中, 郑飏飏等东说念主使用多维情怀辞书对弹幕数据进行情怀分类[4], 但该究诘中情怀辞书是固定的, 未议论不同场景下词汇的极性问题.邓扬等东说念主构建了基于隐含狄利克雷散播的弹幕词语分类[5], 但其磨真金不怕火集数据为传统的轨范文本, 未议论弹幕的非表轻易漫笔本的特色.针对以上问题, 本文用微博数据算作磨真金不怕火集, 并使用挪动学习的方法建议了一套针对弹幕数据的情怀分类模子.
算作新兴的用户自生成内容, 传统的文本情怀分类究诘和漫笔本处理究诘后果对弹幕情怀分析有着进攻的模仿景仰.现存的文本情怀分类方法约莫可以分为两类:第一类是基于情怀辞书的分类方法, 平日不需要磨真金不怕火数据; 第二类是基于监督学习的分类方法, 平日需要磨真金不怕火数据.
(1) 基于情怀辞书和章程的情怀分析方法. Thelwall等东说念主引入了特意用于处理当对数据的词汇和短语的编码辞书, 建议了一种名为SentiStrength的算法[6], 该算法诳骗辞书来识别非认真文本的情怀强度.可是关于如Twitter这么的漫笔本数据, 由于不同场景下的词性不交流, 针对此问题, Saif建议了名为SentiCycles的算法[7], 议论词汇险阻文的有计划, 通过动态救助情怀辞书中词汇的权值, 能够灵验识别出Twitter文本是否具多情怀倾向. Yuan等东说念主使用辞书和章程相讨好的方式来筹划Twitter的情怀极性[8]; 可是, 由于归并词汇在不同场景下抒发的情怀极性可能违犯, 因此, 这种方法往往准确率荒谬高, 但调回率很低, 而且需要东说念主工全心撰写章程, 开拓和帮忙章程集的经由相比烦扰和吃力.弹幕数据有着和Twitter数据相似的特色, 但又具有专有性.弹幕数据往往出现传统字典中不存在的词汇, 使得弹幕数据的情怀分析更具挑战性.针对这一问题, 本文建议针对弹幕数据的可动态引申的弹幕情怀辞书来分辨中性弹幕和多情怀倾向的弹幕; 另外针对情怀辞书对弹幕数据中正负情怀的识别率不高的问题, 本文建议对弹幕情怀辞书分辨出的多情怀倾向的弹幕数据(除中性之外的弹幕数据)用监督学习来分类.
(2) 基于监督学习的分类方法.刘志明等东说念主针对微博漫笔本情怀分类问题, 使用信息增益(Information Gain, IG)作念特征索求, 采纳TF-IDF(Term Frequency-Inverse Document Frequency)算作权重筹划[9], 基于提拔向量机(Support Vector Machines, SVM)算作分类方法, 对微博漫笔本的情怀进行了分类, 并使用此方法对微博议论数据和豆瓣议论数据分类效果进行了对比, 发现针对不同数据集此方法的通用性并不好.秦锋等东说念主针对微博文本短小且白话化严重的问题, 建议了引入马尔可夫提拔向量机模子[10], 将微博中的险阻文信息和会入模子中, 以提高微博数据的情怀识别率.连年来, 越来越多的究诘东说念主员在对文分内类问题上使用深度学习[11]. Bharath等东说念主在究诘Twitter漫笔分内类问题时建议了以用户为导向界说小特搜集的方式对漫笔本进行分类的分类模子[12], 该模子优于传统的基于Bag-Of-Words分类模子. 2014年Kim使用word2vec对文本作念向量化, 并将CNN应用于文分内类问题中[13], 实验标明, 一层深度的CNN依然能很好地胜任文分内类责任, 为CNN在当然话语处理中奠定了很好的基础. 2015年Lai等东说念主建议了卷积轮回神经麇集(Convolutional Recurrent Neural Network, CRNN)模子[14], 即讨好了CNN和RNN的上风, 诳骗轮回结构拿获险阻文信息, 并使用卷积神经麇集构建文本的线路, 在文分内类问题中一样取得了可以的效果.
2 基于热门检测的轮回自稳妥弹幕数据麇集算法提供弹幕功能的在线视频网站, 如bilibili.tv, 帮忙了一个弹幕池, 放弃了弹幕数据的数目.在定时握取弹幕数据时, 当用户生成的弹幕数据逾越弹幕池上限, 最早的弹幕议论会被丢弃, 导致弹幕数据多量丢失.同期, 用户生成弹幕数据的时候散播不均匀, 会出现多个峰值, 是以在弹幕多量出现的时候, 为了陷落弹幕池溢出, 需要提高爬虫握取的频率.一种肤浅的念念路是让爬虫一直以高频率爬取, 可是由于爬虫需要同期追踪多量视频, 每个视频齐进行高频率地爬取显著分歧理, 因为会占用多量麇集带宽和筹划机资源, 况兼更容易被网站回绝.针对上述问题, 本文想象了一种基于热门检测的轮回自稳妥数据麇集算法, 即凭证弹幕发送频率动态救助爬虫的数据爬取频率.以bilibili.tv网站上"请问号高铁首发"这个视频为例, 本文用高频率爬虫追踪爬取了其100 h的所有弹幕信息, 该视频在网站的弹幕池大小为500. 图 1线路了每1 h、每10 h的弹幕数目的散播情况.
刘亦菲 ai换脸 图 1 弹幕数目时候散播图 Fig.1 Distribution of Danmu's quantity over time由图 1可以不雅察到, 当以1 h为单元统计弹幕数目时, 峰值小于200, 未到弹幕池大小的一半; 当以10 h为单元统计时, 弹幕数目的峰值在1 000傍边, 远远逾越了弹幕池的大小.经统计, 1 h内弹幕池溢出的概率不大, 而且依然属于低频爬取, 是以本文华纳1 h算作最大弹幕爬取时候拒绝.在出现弹幕快速增长并可能形成弹幕池溢出的时代, 称之为热门.因此本文想象了基于热门检测的轮回自稳妥数据获取算法.算法的基本念念路如下:将弹幕数据握取拒绝诞生为次序递加的方式, 增速先快后慢, 时候拒绝诞生为从1 min起首, 直到最大拒绝时候1 h, 然后重置拒绝时候为1 min, 无间轮回.在这个经由中, 爬虫每次爬取弹幕数据后齐会判断现时新增弹幕数目是否大于阈值以此来判断是否出现热门, 一朝出现热门, 立即重置拒绝时候为1 min.本文用阈值$\partial (n, t)$来保证现时弹幕产生的平均速率在最大拒绝时候(1 h)内不会出现弹幕池溢出. $\partial (n, t)$的筹划公式为
$ \begin{align} \partial (n, t)=\frac{n\times t}{60}, \end{align} $ (1)其中, $t$为现时爬取的时候拒绝(min), $n$为弹幕池的大小(弹幕池的大小可在握取某个视频的弹幕数据的时候获取), 60即为最大时候拒绝(60 min即1 h).当新增弹幕数目大于$\partial$时, 时候拒绝重置为1 min, 从头起首先快后慢的方式.在一个轮回中, 爬取时候拒绝span$(x)$的筹划公式为
$ \begin{align} \mathrm {span}(x)=\left\{ \begin{array}{l} &2^{x-1}, \qquad\qquad\qquad\quad x \leq 6, \\ &\mathrm {span}(6)+2(x-6), \quad 6<x\leq20 , \end{array} \right. \end{align} $ (2)其中, 筹划的拒绝时候单元为分钟(min), $x$为这次轮回中尝试爬取的次数, 运行化为1.为陷落算法在非热门时在拒绝时候较短时出现万古候高频率爬取, 算法采纳先快后慢的加多方式, 当快速增长到30 min以上时(30 min以上即插足低频爬取阶段, 此时$x=6$), 插足慢增恒久, 拒绝时候作念线性增长.其时候拒绝达到1 h(此时$x=20$)或某次爬取到的弹幕数目大于阈值$\partial$时(出现热门), 重置$x=1$. 图 2线路了践诺爬取拒绝时候和数据爬取次数的有计划. $A$点线路当爬取次数到达6的时候拒绝时候插足线性加多; 当到达$B$点时裸舞 twitter, 拒绝时候到达最大值1 h, 拒绝时候重置, $C$点起首新轮回; 到达$D$点的时候检测到新增弹幕数目大于阈值$\partial$, 拒绝时候重置, 从$E$点起首新的轮回.
图 2 数据握取次数与拒绝时候有计划图 Fig.2 Relationship between the number and interval between data captures由于爬取的是所有这个词弹幕池中的所罕有据, 是以每次爬取后需要对数据进行去重处理, 并将新的弹幕数据添加到腹地弹幕数据库中.本文将弹幕的时候戳与发送者的ID链接组成一字符串, 如"16777215a253bf3f", 算作弹幕的惟一绚烂.
基于热门检测轮回自稳妥数据获取算法如算法1所示; 算法2为爬取拒绝时候筹划函数的杀青; 算法3为阈值筹划算法.
算法1:热门检测轮回自稳妥数据获取算法 FUNCTION hotpot_cycle () 输入:无 输出:无 1: WHILE true DO 2: $x$ = 1 //运行化麇集次数为1 3: span_time = span($x$) //运行化麇集拒绝时候 4: WHILE true DO 5: sleep(span_time) //恭候span_time时候 6: danmus = spider_get_danmus() //获取弹幕池中的所有弹幕数据 7: pool_size = spider_get_pool_size() //获取弹幕池大小 8: num_of_danmu = compare_and_storge(danmus) //弹幕去重筹划新弹幕的数目 9: IF (num_of_danmu $>$ $\partial$($n$, span_time)) or $x>20$ THEN //当弹幕数目大于阈值 或轮回次数大于20次时, 跳出此层轮回, 回到表层轮回 10: break 11: END 12: x++ 13: span_time = span(x) 14: END 15: END 算法2:爬取时候筹划函数 FUNCTION span (x) 输入:爬虫爬取次数 输出:爬虫爬取的拒绝时候 1: IF $x\leq 6$ THEN 2: return 2^($\pmb x-1$) 3: END 4: return span(6)+2($\pmb x-6$) //递归调用 算法3:阈值筹划函数 FUNCTION $\partial$ ($\pmb n, \bf span$) 输入:弹幕池大小 现时爬取时候拒绝 输出:弹幕增长阈值 1: return $\pmb n\times$span/60 3 弹幕情怀分类模子 3.1 弹幕情怀分类经由弹幕情怀分类经由如图 3所示. 图 3中输入的弹幕数据即为数据获取模块实时获取的新闻类弹幕数据.经过分词后的弹幕数据, 使用针对弹幕数据的停用词表, 去除停用词; 之后使用弹幕情怀分类辞书对弹幕数据作念分类, 分为中性弹幕数据和带多情怀倾向的弹幕数据.对带多情怀倾向的弹幕数据, 使用word2vec作念向量模式抒发, 再使用CNN分类模子作念情怀分类, 得到正向情怀倾向弹幕数据和负向情怀弹幕数据.终末, 将中性、正向、负向弹幕数据作念团员, 输出分类遣散.团员就是将正向、负向、中性弹; 幕数据径直合并为一个带有正向、负向、中性标记的数据集.
图 3 弹幕情怀分类经由 Fig.3 Danmu emotion classification process 3.2 构建针对弹幕数据的停用词表与传统的文分内类问题不同, 弹幕数据由于其长度的放弃和终点的场景, 往往会用一些停用词来抒发情怀.比如弹幕"他是英豪"和"他是英豪????", 前者抒发偏向正向, 后者则更偏向于负面.是以可以以为弹幕的停用词表是传统文本停用词表的一个子集.本文基于词频统计的方法索求停用词, 构建了针对弹幕数据的停用词表.领先, 基于传统停用词表统计传统文本中的停用词(本文采纳哈工哈尔滨工业大学提供的停用词表, 共767条)分别在情怀倾向弹幕数据与中性弹幕数据中出现的频率, 记为$P=\{p_1, p_2, \cdots p_i, \cdots, p_n\}$和$Q=\{q_1, q_2, \cdots q_i, \cdots, q_n\}$, 其中$p_i$线路第$i$个停用词在情怀倾向弹幕数据中的出现的频率, $q_i$线路第$i$个停用词在中性弹幕数据中出现的频率; 然后, 对每个停用词通过其在情怀弹幕中出现的频率与在中性弹幕中出现的频率之比来判断是否保留.据统计, 要是在情怀词中出现的频率大于在中性词中出现的频率的两倍, 则梗概率是会被用于抒发情怀的停用词, 此时则保留.依据上述逻辑, 得到函数${\rm {is\_keep\_stop\_word}}(p_i, q_i)$, 依此判断停用词是否保留, 从而得到针对弹幕数据的停用词表.函数复返1时保留, 不然去除.函数${\rm is\_keep\_stop\_word}(p_i, q_i)$的筹划公式为
$ \begin{align} {\rm {is\_keep\_stop\_word}}(p_i, q_i)=\left\{ \begin{array}{l} &0, \quad q_i/p_i>2, \\ &1, \quad q_i/p_i\leq2, \quad \mbox{或}\quad p_i=0. \end{array} \right. \end{align} $ (3) 3.3 构建弹幕情怀辞书弹幕数据平日含有多量麇集词汇, 用语不轨范.为了分辨弹幕的情怀倾向, 本文以知乎情怀辞书(10 318条词汇)为基础, 基于词频统计的方法进行引申, 开拓针对弹幕的情怀辞书.不雅察到弹幕情怀词多量使用麇集词汇以及停用词, 因此引申情怀辞书的要害在于查找这些麇集词汇和停用词.关于停用词, 将第3.2节中去除的停用词(即公式(3)复返数据为0的停用词)连合记为$T=\{t_1, t_2, \cdots, t_i, \cdots, t_n\}$, 凭证第3.2节, $T$有可能用来抒发情怀倾向, 故$T$即为用来引申情怀辞书的停用词.
关于麇集情怀词汇的引申, 本文中式www.zuilxy.com和www.chanduan.com这两个更新实时、麇集词汇数目填塞的麇集流行语汇总网站算作引申的流行语来源.握取这两个网站中的流行语词汇, 共554条词汇, 记为$S=\{s_1, s_2, \cdots s_i, s_1\cdots s_n\}$, 并使用其来引申分词器的词库.由于联系于停用词, 情怀词汇数目更为高大, 基础情怀词就有10 318条, 显著联系于停用词, 每个情怀词在文本中的散播更为寥落, 是以需要更大的标记数据集来分辨情怀词是否保留.是以本文使用了与弹幕数据近似的微博标记数据, 其中多情怀倾向的微博数据5万条, 中性的微博数据5万条, 共10万条微博数据算作数据集.统计$S$分别在情怀倾向微博数据和中性微博数据中出现的频率, 记为$p_i$、$q_i$, 其中$p_i$示第$i$个麇集情怀词汇在情怀倾向微博数据中的出现频率, $q_i$线路第$i$个麇集情怀词汇在情怀倾向微博数据中的出现频率.与第3.2节中的旨趣交流, 使用函数公式(3)来筹划是否保留该情怀词, 具体来说, 函数复返1时保留, 不然去除.
使用弹幕情怀辞书分辨弹幕是否为中性弹幕, 作念法是检索分词况兼去停用词后的弹幕是否在包含情怀辞书中的词语; 要是包含则以为非中性弹幕, 不然为中性弹幕.情怀辞书可以高遵守分辨弹幕是否是中性弹幕, 在弹幕数据的测试集上, 准确率达94.6%.
3.4 磨真金不怕火CNN分类模子由于情怀辞书在分辨正负向情怀上的准确率不高, 是以针对上文中得到的弹幕情怀辞书分辨出的情怀倾向类弹幕数据(非中性弹幕数据), 本文采纳CNN的监督学习模子来对多情怀倾向的弹幕数据进行分类.如图 3所示, 其中的CNN模子分类模块使用的分类模子, 即为本节磨真金不怕火的CNN分类模子.磨真金不怕火数据集上, 由于现存的弹幕标记数据过少, 是以本文使用挪动学习的方式, 采纳与弹幕数据相似的已标注的微博数据算作磨真金不怕火连合, 使用标注的弹幕数据算作测试集来开拓监督学习的磨真金不怕火模子, 具体智商如下.
第一步, 使用第3.3中构建的弹幕情怀辞书对分词器作念引申, 并对微博数据作念分词操作.
第二步, 对分词后的弹幕数据使用第3.2中的停用词表去除停用词.
第三步, 经本文统计, 在本文获取的50万条新闻类弹幕信息数据中, 经过第二步后得到的每条弹幕的分词遣散, 词语数目大于20的弹幕数目占总弹幕数目的0.06%, 因其数目救助, 故对遣散影响很小.为了减少漫笔本特征寥落的影响, 本文去除了经过第二步处理后的弹幕中词语数目大于20的弹幕数据.
第四步, 使用握取的50万条弹幕数据磨真金不怕火word2vec模子, 并使用word2vec模子对第三步处理后的弹幕作念向量化处理.为使不同的词在向量中能够被均匀散播, 本文对每个词转机的向量的长度取为128(可抒发$2^{128}$个词).针对漫笔本的特征寥落问题, 本文将所有弹幕得到的词向量斡旋为20$\times $128词向量矩阵, 其中20为一条弹幕经过第三步后得到的最大词数目, 128为每个词生成词向量后的长度.关于第三步处理后得到的词数目小于20的弹幕, 在使用word2vec向量化后使用零向量对其进行填充.
第五步, 采纳文件[12]中对文本使用CNN分类的方法进行分类.由于大部分弹幕广博词语较少, 故本文采纳较小的卷积模版和较小的步长来索求特征, 即2$\times $128、3$\times $128、4$\times $128的卷积模板, 步长诞生为1, 其中128为词向量的长度.由于本文使用的是微博数据算作磨真金不怕火集来展望弹幕数据并作念挪动学习, 故本文诞生较大的dropout和lambda刑事牵涉项, 分别为0.5[15]、0.1来捐躯磨真金不怕火集上的少许准确率以陷落过拟合, 以提高模子的泛化才能.另外, 关于池化层本文采纳maxpooling, 并在全链接层使用softmax分类器, 输出分类遣散.
3.5 模子灵验性实验 3.5.1 实验环境和实验数据实验环境所用的筹划机成就为固态硬盘256 GB, 内存为8 GB, GPU为GTX1080Ti(显存11 GB), CPU为i7 7700HK.操作系统为Windows10 64位, 使用python3.5开发, 实验使用的深度学习框架为tensorflow1.2, 并使用了GPU加快处理.
数据集包括用于磨真金不怕火模子的微博数据和用于实验的弹幕数据.微博数据为新浪微博(www.weibo.com)2017年到2018年的50 000条东说念主工标记的微博语料, 其中正向和负向各25 000条.索求微博议论数据和标记, 部分遣散如表 1所示.弹幕数据来自"大熊猫香香的日本生计"、"请问号高铁"和"红黄蓝虐童事件"3组(以下分又名为第一组、第二组和第三组)东说念主工标注弹幕数据, 每组数据赶快取300条, 正负弹幕数据各150条, 如表 2所示.弹幕数据表情如图 4所示.
表 1 微博议论标记数据 Tab. 1 Weibo comment tagged data 表 2 3组赶快弹幕数据 Tab. 2 Three sets of random Danmu data 图 4 弹幕数据示例 Fig.4 Danmu data example 3.5.2 实验遣散与分析本文使用精度、查全率、查准率和$F1$分数($F1$-score)算作模子灵验性的评估要领.为了证据本文建议的基于弹幕数据的情怀分类模子的灵验性, 分别对基于微博数据磨真金不怕火的分类模子和该模子在弹幕测试数据上的应用进行了实验分析, 主要针对情怀倾向有关弹幕的分辨.通过实验, 分别将基于CNN的分类模子与基于SVM、朴素贝叶斯(Naive Bayesian, NB)的分类模子的遣散进行了相比, 其中CNN模子使用了2$\times $128、3$\times $128、4$\times $128的卷积模板, 步长诞生为1, dropout和lambda刑事牵涉项分别为0.5和0.1.针对微博数据, 使用十折交叉考据的方式, 并筹划了模子各评价筹办的平均值. 表 3为各算法通过十折交叉考据得到的模子的各个评价筹办.由表 3可以看出, SVM和CNN的分类效果彰着优于NB, CNN的分类效果略高于SVM.
表 3 微博数据分类模子评价 Tab. 3 Evaluation of a Weibo data classification model为了考据本文模子在弹幕数据情怀分类上的泛化才能, 本文使用来自"大熊猫香香的日本生计""请问号高铁"和"红黄蓝虐童事件"3组弹幕数据, 对模子进行测试评估.测试遣散如表 4所示.从表 4中可以看出, 每个模子联系于微博数据的分类效果齐有所着落, 基于NB模子和基于SVM模子的方法着落荒谬彰着, 基于CNN模子也略有着落, 可是基于CNN模子的分类效果彰着优于基于NB模子和基于SVM模子的分类方法.证据使用微博数据磨真金不怕火的模子在弹幕数据上的分类效果是, 基于CNN模子优于基于NB模子和基于SVM模子.
表 4 不同分类模子在弹幕情怀分类中的性能评价 Tab. 4 Evaluation of different classification models in Danmu sentiment classification模子准确率凭证磨真金不怕火样本的数目变化如图 5至图 8所示.从图 5至图 8中可以看出, 当磨真金不怕火数据量较少时, 基于SVM模子的准确率高于基于CNN模子; 可是当数据量高涨时, 基于CNN模子的各项评价筹办均快速高涨, 证据基于CNN模子更适用于磨真金不怕火数据量较大的场景; 另外, 跟着样本数目的高涨, 当磨真金不怕火样本数逾越2万时, 基于NB模子的评价筹办基本不再擢升, 基于SVM模子则有少许擢升, 而基于CNN模子的准确率高涨速率最彰着.实验标明, 当磨真金不怕火数据较为填塞时, 使用微博数据磨真金不怕火的CNN模子在新闻类弹幕数据上的情怀分类效果优于传统的基于SVM模子.
图 5 磨真金不怕火样本数目对不同分类模子精度的影响 Fig.5 The effect of variability in the number of training samples on the accuracy of different classification models 图 6 磨真金不怕火样本数目对不同分类模子查全率的影响 Fig.6 The effect of variability in the number of training samples on the recall of different classification models 图 7 磨真金不怕火样本数目对不同分类模子查准率的影响 Fig.7 The effect of variability in the number of training samples on the precision of different classification models 图 8 磨真金不怕火样本数目对不同分类模子$F1$-score的影响 Fig.8 The effect of variability in the number of training samples on the $F1$-score of different classification models 4 舆情分析遣散展示从单个视频分析, 以"请问号高铁首发"事件为例, 数据麇集从2017年6月25日至2017年7月5日, 弹幕数目为3 952条. 图 9和图 10披露了分类后得到的不同极性弹幕数据的散播情况, 其中中性弹幕约占79% (3 122条), 情怀倾向弹幕(正向、负向)约占21% (830条).情怀倾向弹幕中, 正向弹幕约占85% (705条), 负向弹幕约占15%(120条). 图 11披露了不同极性弹幕数目随弹幕发布时候的变化, 从图中可以看出, 跟着时候的推移, 弹幕数目慢慢减少. 图 12披露了不同极性的弹幕数目随在视频中发布时候的变化情况.
图 9 中性、正向、负向弹幕散播情况图 Fig.9 Distribution of neutral, positive, and negative Danmu 图 10 正向、负向弹幕散播情况图 Fig.10 Distribution of positive and negative Danmu 图 11 不同极性弹幕数目随发布时候变化图 Fig.11 The number of different polarity Danmu vs. release time 图 12 不同极性弹幕数目随视频时候变化图 Fig.12 The number of different polarity Danmu vs. video time本文还团员了交流新闻事件的多个视频的弹幕数据并加以了分析.以"极限永宁失手坠楼"事件为例, 麇集了从2017年12月9日至2017年12月30日该事件有关视频的所有弹幕数据.基于本文分类的模子, 关于"极限永宁失手坠楼"事件, 弹幕舆情情怀倾向呈现出一种随时候的推移而变化的特征.从图 13、图 14可以看出, 弹幕中中性弹幕数目居多, 而在情怀倾向弹幕中, 正向的占大多数.可是随时候的推移, 弹幕的总体情怀倾发生了变化, 如图 15所示(由于12月12日后议论数目很少, 为了体现数据特征, 图中只消截止至12月12日前的弹幕数据散播情况), 可以看到12月19日14:00傍边, 议论呈现一边倒的倾向, 大部分弹幕齐抒发了正向的不雅点, 此时可以看到标签云(图 16)中出现多量的"沿途走好" "死人安息"等弹幕; 而到了12月10日上昼, 弹幕呈现正向议论和负向议论基本持平的情况.此时可以看到标签云(图 17)中, 除了之前的"沿途走好" "死人安息"等弹幕, 起首出现了多量如"作死""该死"等议论, 这也体现了全球公论跟着时候的推移而变化的特色.当某些事件刚起首发生时, 由于信息的艰辛, 大部分公论会倾向于一边倒, 而跟着时候的推移, 全球赢得越来越多的信息后, 议论会慢慢感性化.
图 13 中性、正向、负向弹幕散播情况图 Fig.13 Distribution of neutral, positive, and negative Danmu 图 14 正向、负向弹幕散播情况图 Fig.14 Distribution of positive and negative Danmu 图 15 不同极性弹幕数目随发布时候变化图 Fig.15 The number of different polarity Danmu vs. release time 图 16 2017年12月10日14点前弹幕标签云 Fig.16 Danmu tag cloud before 14:00 on December 10, 2017 图 17 2017年12月10日14点后弹幕标签云 Fig.17 Danmu tag cloud after 14:00 on December 10, 2017 5 论断本文建议了一种基于大规模弹幕数据监听和情怀分类的舆情分析模子.领先使用基于热门检测轮回自稳妥算法的数据获取模块追踪新闻事件, 握取弹幕数据并进行合并处理; 其次构建并使用了针对弹幕的情怀辞书分辨情怀倾向弹幕和中性弹幕.关于情怀倾向弹幕, 本文基于CNN分类模子对其进行了分类, 得出了正向弹幕和负向弹幕.关于CNN分类模子的磨真金不怕火, 本文使用了与弹幕相似的微博议论数据算作磨真金不怕火语料, 标记的弹幕数据算作测试集.终末, 本文使用该模子, 以两个新闻事件为例, 分析了其舆情信息, 展现了某些事件跟着时候的推移, 全球舆情也会发生变化的礼貌裸舞 twitter, 讲明了本文模子的灵验性.