当前位置:大学毕业论文> 专科论文>材料浏览

大数据方面有关论文写作参考范文 和基于新词识别的大数据聊天文本舆情热点挖掘有关毕业论文开题报告范文

主题:大数据论文写作 时间:2024-04-05

基于新词识别的大数据聊天文本舆情热点挖掘,该文是大数据方面有关学士学位论文范文与新词和舆情和聊天类论文写作参考范文.

大数据论文参考文献:

大数据论文参考文献 大数据时代论文关于大数据的论文大数据杂志有关大数据的论文

引言随着移动互联网的普及,各种社交APP应运而生.例如国内的微信在近年内受众用户逐渐增多,成为即时通信App的主流产品.随着社交APP的流行,聊天文本的爆炸式增长,文本中包含着大量值得挖掘的重要信息,其中涉及政治、经济、体育、娱乐等,都吸引着对聊天文本的不同方面进行研究的学者,给他们广阔的研究空间对文本进行处理,通过清洗、特征提取、主题分析等方法对文本进行处理,很好地应用于热点发现、舆情监控等场合.

从海量聊天文本中挖掘出时下社会上的热点话题,以便于帮助用户迅速地了解并参与到自己感兴趣的话题中.但是由于文本量过于庞大,仅仅依赖人工方法很难对海量的聊天文本数据进行及时且高效地分析,并找出当前文本中所包含的热点话题相关信息.因此,需要采用多种不同的内容挖掘算法和信息分析技术来精确定位当前聊天文本中的热点话题.聊天文本中的热点话题一般是指在一个时间跨度内,聊天文本中被人常常提及的,引起人们关注度较大的话题,并且可以与时下已经发生的热点事件相互对应,有时间跨度短和内容扩散度高的特点.由于聊天文本的内容、结构以及用语习惯都与传统正规文本不同,其具有的特点使文本话题的抽取变得非常具有挑战性[1].总的来说包括以下四个方面:

高纬性.需要处理的聊天文本数量巨大,且文本内的各种主题分布非常杂乱,很难聚焦,对聊天文本这样的短小文本可能产生为数众多的向量.稀疏性.聊天文本的长度通常较短,因此聊天文本中包含的信息量要远远小于传统文本,更少的关键词,更稀疏的特征,对此类文本抽取其有价值的信息更加复杂,而且不同特征之间的关联性也更加难以发现.

不规范性.在聊天文本中,经常出现用词、用语及语法使用不规范的情况,比如聊天表情符号,一些缩略用语或有暗示意义的词等.导致对这类文本的分析工作非常困难.其中中文文本的分词本身就是一个难点,而不规范的聊天文本又加剧了传统分词效果的负面影响.因此,也间接影响了分词后的文本研究,分词带来的负面影响会被持续放大.

主题分布不均.聊天文本中包含很多广告或者是人们每日生活状态相关的普通信息.如天气、心情、食物等.这些大量存在的话题其实并不是我们关心的热点话题,因此如果仅仅采用以词频或者关键词为特征的传统话题抽取模型难以过滤掉这类信息[2].

1、分词中文文本的处理都涉及到分词,分词就是将连续的字符串序列按照一定的语法规范重新组合成词序列的过程.在中文的句子是由许多词组成,而词与词之间是没有一个形式上的分界符,因此中文分词要比英文分词复杂很多.现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法.本文选取基于统计的分词方法——结巴分词,其中包括三种形式:1)精确模式,将句子以最精确地方式切开;

2)全模式,把句子中所有的可以组成词的词语尽可能的分出来,效率高,但无法解决歧义问题;3)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,普遍适用于搜索引擎.由于聊天文本大多数为口语化用词且文本内容较短,选择结巴分词提供的自定义词典可以获得较好的分词效果.

2、热点挖掘作为热点词语有两个显著特性[3]:一是必然在一个时间窗口内有着比较高的出现频率;二是作为舆情热点,就必然有产生和消亡的阶段[4].有些词属于伪热点词,虽然出现频率较高,甚至有可能超过真正热点词的出现频率[5],但由于这些词语在每天的文本中都有非常高的出现频率,且每天的分布中保持得比较平均,故不能作为热点词.

本文获取文本热点的步骤如下:将N个词按照每日的词频进行统计,形成向量Ai等于(ai1,ai2,ai3,….aim),…..AN等于 (an1,an2,an3,….anm)形式表示,其中aij表示第i个词语在第j天的文本里出现次数,m表示用来进行分析的文本时间跨度有m天[6].对N个词分别计算聊天文本中出现的平均数:mean(w) 等于 (ai1+ai2+ai3+….+aim) / m (1)并记录出现频次最大值max(w).

3)对所有词语使用下式进行得分计算,并去前L个词作为候选热点词:

Score 等于 √mean(w)×std(w) (2)式中使用根号值对词语词频进行降权,降低高频平凡词的影响,也可用log函数降权,即log(tf(w))+1,其中std(w)为向量标准差.4)对候选的L个词语使用下式进一步筛选[7],其中n取决于需要提取的热词的正确率和召回率.

max(w)>n×mean(w) (3)筛选后的热点词即为文本挖掘的最终热词.3、实验效果本文提取14天(8月1日~8月14日)的聊天文本数据,首先对每日的文本进行分词,以天为单位统计出现单词的词数,对每个词构造出一个14维的向量,并用(1)式计算每个词的均值、标准差,利用公式(2)计算每个词的最终得分;提取得分高的前2000个词作为候选词,然后利用公式(3)进行最后的筛选,实验发现取2时可以获得较好的效果,最终结果如下所示,top10关键词:

由实验结果看出,排在最前的是与“四川九寨沟地震”相关的词语,而九寨沟地震正是发生在8月8号的事件,其次当前热播的剧集“楚乔传”也是当前热点之一,另外8月1日建军节也同样作为热点词被挖掘出来.由此可以看出本文所提出的算法在聊天文本的挖掘中有着较好的效果.

4、结论与展望本文提出了一种针对大数据聊天文本的热点词挖掘算法,通过实验可以证明算法具有良好的挖掘效果,对文本中短时出现的热点词语能够较为准确的定位,并且对日常使用的高频非热点词有很好的过滤效果,能够从海量的词语中挖掘热点.本文提出的算法也具有一定的局限性,对时间窗口的选择依赖较大,如果时间窗口内的文本无较大变化,由于计算的标准差较小,会存在误判的可能,导致即使是热点词也会被判定为高频非热点词的情况出现.因此选择合适的时间窗口才能准确的判断相应时间窗口下出现的热点词.

后续工作可以从考虑弱化窗口的依赖,由于在大数据环境下文本的主题非常分散,有很多热点词的出现并不一定伴随着较大的词频变化,挖掘此类热点还需要更多的研究工作.

此文结论,此文为一篇大学硕士与大数据本科大数据毕业论文开题报告范文和相关优秀学术职称论文参考文献资料,关于免费教你怎么写新词和舆情和聊天方面论文范文.

大数据时代网络舆情管理
摘要互联网技术的飞速发展,大数据时代的来临,无一不彰显着互联网作为一种信息传播渠道,已逐渐深入到人们的学习、工作以及生活的点点滴滴 网络舆情也变成了一股政府不得不管理把控的对社会稳定具有重大影响的力量.

大数据视阈下舆情考评模型
大数据时代的来临,不仅意味着信息技术的迅猛发展和社会变革的日新月异,还重塑了公众的认知和实践模式,影响着公众对公共问题、现象、观点的政治态度、信念及价值观表达 较其他社会领域而言,大数据对政府治理领域.

不良商家利用大数据杀熟
300 元的酒店房间,老客户就要380 元过去货比三家,如今还要“货比三人”,一些手握大数据工具的商家正在真实上演“坑人新骗术” 大数据说我认得你,所以.

大数据带来大变化
贵州推进大数据战略行动,充分挖掘大数据商用、政用、民用价值,更好地以大数据引领经济转型升级,提升政府治理能力,服务民生社会事业,用信息化发展新阶段的新成果,进一步展示贵州坚持改革开放的决心和信心 改革.

论文大全