当前位置:大学毕业论文> 专科论文>材料浏览

关于云计算方面硕士论文范文 跟大数据云计算互联互通背景下的当代在线汉语程度、行为和悬疑表达的语义摆度方面硕士毕业论文范文

主题:云计算论文写作 时间:2024-02-08

大数据云计算互联互通背景下的当代在线汉语程度、行为和悬疑表达的语义摆度,该文是关于云计算方面参考文献格式范文和互联互通和云计算和语义有关在职研究生论文范文.

云计算论文参考文献:

云计算论文参考文献 大数据时代论文关于大数据的论文大数据杂志有关大数据的论文

周静,杨海明

[摘 要]当代在线汉语近年来有不少的发展变化,从大数据云计算互联互通背景讨论三个问题:大数据与语言学反思;当代在线汉语与大数据;具象化、扩张与悬疑表达.在这三个方面统计静态语料库、动态在线数据的总词频、实际观察频次,从云计算基础上看预期搭配频次、理论预期与实用比差、互为信息值以及活力对数值等数据背后的语义摆度,揭示当代在线汉语的程度、行为和悬疑表达背后的语言运用规则、倾向与可能性.

[关键词]大数据;云计算;互联互通;在线汉语;语义摆度

[作者简介]周静,广州暨南大学华文学院华文教育系主任,教授,博士;杨海明,广州暨南大学华文学院汉语系教授,博士,广东广州510610

[中图分类号]#H0-05 [文献标识码]A [文章编号]1004- 4434(2017)03- 0008 -06

朦胧的大数据概念出现时间已经不短了(Alvin Toffler,1980),但正式提出则是近十来年的事(apache org HUTCH,2005)①.但短短的十来年,人们对于数据的天量挖掘和海量运用,不仅获得了出人意料的回报,同时也标志着大数据时代的到来.虽然在人文科学领域大数据的运用稍显迟到,但并未缺席,很多学者以敏锐的眼光抓住苗头进行研究并取得了丰硕成果.

今天人们所说的大数据已不是传统意义上的以数字为主要载体的信息.大数据信息几乎囊括了从数字到真实视频以及三维动画的全部信息格式.大数据(Big Data)有数据量大(Volume)、信息类型多(Variety)、价值密度低(Value)、处理时效高(Velocity)、在线(Online)等特点.而云计算(cloudcomputing)有搜索访问方便、加工处理高效、储存安全、提取快捷、空间巨大等特点.在二者互联互通背景下, 利用大数据来进行人文社科领域的量化研究,正在成为一种趋势.语义摆度(semanticstraner)是指跨越认知域的语义投射,本文只涉及三个方面:(1)抽象程度的具象化(很好:巨好、超好、爆好);(2)行为对象的扩大化(吃饭:吃人、吃单)[1];(3)悬疑结构的信息溢出(overflow)与覆盖(contain)(谁:尴尬了谁、方便了谁、火了谁)[2].本文拟在前人研究基础上,从大数据云计算互联互通角度讨论与语义摆度相关的三个问题.

一、大数据与语言学反思

(一)大数据与当代汉语

从大数据角度看,宇宙的本质是物质,物质的本质是信息,信息的本质是数据[3].既然语言的本质是符号、是系统,那么符号系统的本质是什么?还是数据.因为语言的三大要素语音、语义、语法最终都体现为数据.特别是当代在线汉语有涉及面广、来源复杂、类型多样、语义摆度幅度大等特点.这就构成了当代在线汉语有多样化和不确定性(uncertainty)的特点.尽管如此,汉语并非不可知, 正如我们可以用分析一滴海水的分子结构的方法去了解整个海洋水分子的结构一样,也可以通过大数据、云计算、互联互通,去发现词语搭配的预期出现频次、理论与运用差比、互为信息值、词语搭配活跃对数值等,从而窥见当代汉语运用的一些核心信息.因为从大数据角度看,语言运用最终都体现为数据,结合云计算和互联互通,监测与分析这些数据就可从一个全新的角度去突破,从观察监测到的大数据出发,排除当代在线汉语的不确定性,最终揭示其基本规律、发展趋势和个体倾向.

(二)语言学界的反思

传统的语言研究多集中于语法单位、词类划分、句子分析、语用特点等.功能语法学则集中在研究语言的概念功能、人际功能和语篇功能.认知语言学认为语法规则是人类认知客观世界规则的体现.构式语法重在研究语素、词、短语、句子的组成规则上.语用研究则是结合语境研究人们是如何进行语言活动的.随着这些研究的深入,儿童母语习得,儿童或成年人的二语习得、语言使用、计算机自然语言处理,语言规划、语言生态以及开发语言资源等的研究也在展开.

语言学家从传统角度研究的方法到结果都进展缓慢,而计算语言学从计算机、数学、逻辑学角度研究则突飞猛进.现在基于大数据统计方法的语言处理系统效率越来越高,成了该领域的主流,因此基于传统语言规则的处理方法被许多学者摈弃.目前,大数据、云计算、互联互通兴起,信息网络化、网络终端个人化、信息发布自媒体化已经成为常态,这促使人们进行语言学的反思.

20世纪IBM负责机器翻译的Frederick Jelinek说过一句名言:我每解雇一位语言学家,我的系统表现都会有所改善.这是对语言学家的全盘否定,为什么会是这样? 人们现在说“大数据就是力量”“大数据就是财富”,循此思路,人们只要研制出语法检查程序(grammar checker)就能自动改正语法错误,而节省了培养母语者的语感的十多二十年时间[4].而这一程序的核心是词语搭配的研究与编程.

二、当代在线汉语与大数据

(一)从计算机研究到大数据

从技术层面上讲,当代在线汉语研究有三个特点:(1)全覆盖.大数据覆盖了静态与动态、正式与非正式、自媒体与非自媒体等数据.(2)全接纳.接纳纸质非纸质、音像非音像、网络非网络的所有数据.(3)全兼容.兼容语感与计算、规范与不规范、可接受与不可接受等数据,通过云计算用数据揭示当代在线汉语的规则、趋势与倾向.

1.静态数据库.本文选取三个:(1)现当代纸质书面语.《北京大学语料库》(http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir等于gudai).语料规模字符数783463175字符(本文1字符为1汉字).现代汉语581794456字符(1978~2004).古代汉语201668719字符(-3000~1912)(2)国家语委现代汉语通用平衡语料库(http://www.cncorpus.org/index.aspx).语料规模1亿字(1919~2002).(3)《台湾研究院平衡语料库》(http://rocling.iis.sinica.edu.tw/CKIP/20corpus.htm;4.0版).语料规模11245330词、17554089字、19247篇(1981~2007).

2.动态在线数据.本文选取三个:(1)即时学术标题语线数据(中国知网www.cnki.net).(2)即时在线书面语数据(人民网http://www.people.com.cn/cnpeople/ news/index.html).(3)即时自媒体在线数据(新浪微博http://s.weibo.com/).

(二)计算项

近一二十年,人们提出了“惯用语原则”(idiomprinciple)及类似的观点,为语言研究提供了新思路.如用总词频(total hits)、实际搭配频次(observedcollocate frequency)[4]大数据监测在线汉语通过MI云计算,准确计算出在线页面数据库预期搭配频次(expected collocate frequency)、预期实际搭配频次比、活跃度对数值(collocational activity)等指标来衡量,从而揭示词语搭配的内在因素[5].

1.A预期搭配频次计算.这是预期假设:如果两个词的配置不搭配,即不具亲和力时,概率的配置在定义的跨度上会发生与在语料库中偶然发生的单词的概率一样.如假设“巨”与“好”跟“巨”与“啊”同样不具亲和力,它们概率的配置在定义的跨度上(为6个字符)概率一样.如假设x,y是语料库中的两个随机词,语料库规模为的总标记为n,它们的在语料库中观察到的实际频率是F(x)和F(y)预期搭配概率为:f(E)=f(x)*f(y)*S/N①,即f(E)=[f(x巨)×f(y好)×S]÷N.

2.B预期频次与实际观察频次比.用于直观反映理论预期与实际运用之间的倍数差.计算公式为:Ob÷f(E).

3.C互为信息值MI.反映两个词语之间的实际亲和力.计算MI公式为:MI(x,y)等于log2(P(x,y)/P(x)*P(y)).具有亲和力:MI(x,y)>0;不具亲和力:MI(x, y)≈0、无关MI(x,y)<0[6].

4.D活跃程度对数值.实际预期与观察频次的以10为底数的对数,即等于log10实际观察频次,1为最大值,越接近1活跃程度越高.

三、大数据背景下在线汉语的发展趋势:具象化、扩张与悬疑表达

(一)具象化

1.程度的具象化.汉语高程度的具象化(con鄄creteness)表达,是假设汉语性状的抽象高程度“很”是众多高程度表达的概括化(generalizations)代表.抽象的“很”可具象化,如用喻指化(metaphoricalexpression)[1]手法来实现.“很”[程度相当高]是独立、无须背景或比较的抽象高程度.“巨、超、爆”分别从静态的空间体量、动态的破阵跃出、动态的瞬间爆发角度来具象化性状高程度,以满足人们对表达要丰富多彩的需求.2.程度具象化基本数据与云计算.“好”与具象化高程度“巨、超、爆”组合的基本数据见表1.“不会撒谎的大数据”真实反映了抽象程度的具象化的基本情况.

(1)A预期搭配频次大数据显示,静态语料库的预期频次远远低于在线动态数据.“巨好”有一库缺数据,从小型现当代纸质汉语的24.08到自媒体的680多万.“超好”有一库缺数据,从小型现当代语料库的33.26例到自媒体的41211多万例.“爆好”有一库缺数据,从小型纸质现代汉语语料库的11.06到自媒体的2495万多.这表明,抽象程度的具象化表达已经在很多领域普遍存在.(2)B理论预测与实际运用比差.最大值为1,绝对值离1越大差异也越大.数据显示:“巨好”有三库缺数据,从纸质书面语相差724.51倍到自媒体相差12.19倍.“超好”从学术标题语相差554倍到自媒体的相差1.24倍.“爆好”有三库缺数据,从纸质书面语的相差439.47倍到自媒体的63倍.这表明,理论预期与实际运用之间的差异在有的库已经相当接近,有的库相差巨大.(3)C互信值.如目标项与搭配项的MI≥3亲和力极强.MI≈0亲和力极弱.≤0为互补分布无亲和力.数据显示:“巨好”从纸质书面语的-2.08到最高自媒体的-1.09.“超好”从纸质书面语的-1.55到自媒体的0.68.“爆好”从纸质书面语的-1.86到自媒体的-1.03.数据显示当今在线数据中的互信值高于过去纸质书面语.(4)D对数比是1最为最大值,绝对值超1越多越不活跃.对数比显示:“巨好”从纸质书面语的2.86到自媒体的1.09.“超好”从学术标题语的2.74到在线书面语的0.91.“爆好”从纸质书面语的2.64到自媒体的1.80.这表明相对活跃的除“超好”外,都是自媒体大数据靠前.

(二)行为表达“吃”

1.大数据.汉语VO结构生存需求行为“吃饭”基准定位义为[入口咀嚼咽下]特征;“电梯吃人”的语义特征为[致使丧失生命];“癌症吃人”[原因丧失生命].“吃罚单”有[遭受处罚]特征.大数据表明,汉语目标项“吃”与搭配项之间有极强的兼容性,是一个具有不同频次、不同互信值的结构系统,动宾结构有极强的兼容性.从而也出现了多种语义摆度.在线汉语表达有跨越语义和结构、载体类型、社会领域与语体等方面的跨界, 使一些简单的结构负载了较多的语义内容, 因此就出现了一些类似“吃人、吃单”的低频词出现高负载信息的结构.大数据见表2.

2.大数据的颠覆.不会撒谎的大数据颠覆了我们建立在语感或百科知识上的认知:汉语行为“吃”原来不是那样的.(1)A预期搭配频次大数据显示:“吃饭”从学术标题汉语的1.09到自媒体的1842万多.“吃人”从学术标题汉语的156.32到自媒体的175万多.“吃单”小型纸质汉语的22.45到自媒体的11万多.这表明领域的制约强烈,分布差异巨大.理论预期在纸质媒体中序列为:吃人>吃单>吃饭,这脱离了语感.(2)B理论预测与实际运用的差异的频次比,最大值为1,绝对值越大差异越大.数据显示:“吃饭”差异从学术标题语的0.0004倍到自媒体的0.03倍,理论实际比差巨大.“吃人”从自媒体的相差83倍到学术标题语相差0.41倍.“吃单”三个领域无数据,从在线书面语的181.39位到学术标题语的48.62倍.(3)C互信值显示:“吃饭”从比值最大的纸质书面语3.00到最小的学术标题语4.18.“吃人”从比值最小的自媒体-1.14到最大的学术标题语1.16.“吃单”缺三个领域的数据,从比值最小的在线书面语-1.48到最大的学术标题语-0.91.这表明,“吃”与“饭”的亲和力最大而与“单”的亲和力最小.(4)D活跃对数比显示:“吃饭”从最小的自媒体1.51到最大的学术标题语3.40.“吃人”从最小的学术标题语-0.38到最大的自媒体语1.92.“吃单”从最小的学术标题语1.69到最大的在线书面语2.26.这些差异表明:动作行为的扩张与摆度是普遍存在的,但因领域的不同而存在巨大差异.

3.大数据揭示的规律.那么就行为“吃”而言,一些本来已经存在的符合经济原则低认知成本的搭配弃而不用,反而用一些不符合经济原则高认知成本的搭配.如不说“被开了罚单”,而说有多种含义的“吃单”加上一大堆的背景解释.这就是在蓄势,储存认知信息为后来的表达经济作铺垫,以便让搭配“吃单”成为常态.

从当代汉语动词“吃”动宾结构的大数据云计算可以看出,这种研究方法体现了独有的优势:(1)真实客观地观察当代汉语使用的全貌,使我们的认识比较全面科学.(2)通过云计算和网络平台,用计算机的超强计算能力,使大数据的获取迅速而准确.(3)可以验证我们对语言认识的假设.(4)可以发现一些新的用法和语言的发展趋势.这也说明这个结构是一个正在发展的搭配,有时间推移、科技发展和社会变化三大动因.人们对语言运用的宽容也是一个重要因素,只要不妨碍理解,比较注重带有个人特色的语用效果,因此对语言表达形式的选择就比较随意.

(三)悬疑表达

1.悬疑结构“~了谁”悬疑结构“~了谁”基准定位义为[使得什么~了]特征;“~尴尬了谁”有[使得~尴尬了]特征;“~方便了谁”有[使得~方便了]特征;“火了谁”的语义特征为[致使~流行了].大数据表明,汉语“~了谁”表达特点非常明显,整个结构在于吸引听者的注意,激发人们的好奇心,以实现言者的语用目的.其出现时间不长,但发展很快,进入这一结构的性状词语也越来越多.不同的性状进入这一结构,会有不同的倾向.句式的主要作用在于引起听者注意,思考并试图回答[2].贬义性状目标项“尴尬”构成“尴尬了谁”的责问语气.褒义性状“方便”构成“方便了谁”有凸显与提醒作用.中性的“火”构成进入这一句式,“火了谁”有强调与总结作用.具体数据如表3.2.大数据的颠覆.同样是“不会撒谎的大数据”揭示了悬疑表达与我们语感所不同的一面.

(1)A预期搭配频次大数据显示:(a)贬义性状的悬疑表达“尴尬了谁”从0.00039到91万多,相差1亿多倍,这表明地域影响巨大.(b)褒义性状的“方便了谁”从0.03到17万多,相差5600多万倍,这表明领域影响巨大.(c)中性的悬疑“火了谁”从0.01到1167多,相差11万多倍,这反映出悬疑结构:贬义的问责高于褒义的追因,褒义的追因高于中性的关注.这表明悬疑结构本身有贬斥义.(2)B理论与实际运用的差异的频次比,最大值为1,绝对值越大差异越大.数据显示:(a)“尴尬了谁”从0.0007倍到32.75倍,相差很大.(b)“方便了谁”从0.0007倍到3.34倍,相差也大.(c)“火了谁”从3.65倍到89.77倍,相差不太大.这表明在线书面语领域对悬疑结构接受度高,出现预期与实用差异小,而自媒体则的预期与实用差异巨大.说明这一结构是一个书面语结构,常作标题用而不大作口语交际.(3)两个词的亲和力在不同领域存在巨大差异.C互信值显示(a)“尴尬了”与“谁”从-8.00到7.43,差异巨大.(b)“方便了”与“谁”从-7.93到2.30,差异大.(c)“火了”与“谁”有三个领域无数据,从-3.90到0.72亲和力差异不太大.这表明领域对词语之间的亲和力影响巨大.(4)D对数比显示:(a)不同领域目标项与搭配项的组合的活跃程度差异:“尴尬了谁” 三个领域缺数据,从-10.58到4.85,表明不同领域活跃程度相差巨大.(b)“方便了谁”两个领域缺数据,从-10.51到1.78表明不太活跃.(c)“火了谁”三个领域缺数据,从-6.49到-1.87,表明极不活跃.3.大数据揭示的动因(1)科技动因.网络普及、信息爆炸、社交软件层出不穷, 这一波又一波的冲击使得安心阅读成了一种奢侈.同时管理人性化,满足读者需要成了媒体的第一要务,最简单的往往最有效,新颖别致、生动有趣、惊心吓人的语义组合就成为首选.(2)以人为本.人的自主和参与意识增强,媒体对人的吸引成了主要任务.但商人逐利与经济驱动是本性:市场经济,客户为王,盈利为主,媒体只有抓住了读者才能成功.悬疑结构就成为吸引眼球、增加点击率的首选.(3)社会动因.当代社会,人们的选择多了,代劳的产品多了,读图、省力省心成为普遍要求.同时,求新求奇也带来了副作用:快餐文化、阅后即焚、寻求刺激成为普遍现象.满足人的这一新变化就得在吸引眼球上下功夫,所以动词的语义摆度也有其客观基础.(4)语言动因.语言有自身的发展规律,但现在什么都一味求新:新词语、新格式、新说法、新用法、新标题.这些追赶科技的步伐,有时过了头———由新而奇,由奇而怪,由怪而刺激———最大限度地消费了人的好奇心和认知底线.这种关联是更容易解读了还是比过去差了? 悬疑结构使解读更难,但对人的吸引更强了,网络与纸质媒体结合,点击率更高了.总之,悬疑结构是在全民需求更离谱与更靠谱之间摆度,从而获得最大的社会、语言、认知和心理效益.

新异化追求是人们应用语言的一种积极态度,也是语言发展演变的主要动因之一.路径是用转指(tranormation) 与隐指(metaphorical -designa-tion),来扩散式激活(spreading activation)(Collins& Loftus,1975)[7]人们的认知联想,是在性状程度领域用显著度高、关联容易、活跃度高的概念转喻显著度低、关联困难、活跃度低的概念.这种隐指也是在用常见、具体、形象、普通的程度概念隐喻罕见、概括、抽象、特殊的程度概念.

从大数据、云计算、互联互通角度来观察当今汉语运用的走向,洞察语言运用与各行各业的关系,并运用这些大数据来观察不同人群的语言运用特点,展示汉语的流变,可对一些长期争论不休的汉语语法难题作出相应的判断.大数据是全面的、客观的、即时的、在线的,具有毋庸置疑的说服力,在此基础上就能在当今社会的海量高增长、多样化的语言信息中分辨出汉语运用的一般规则、主要倾向与可能性,同时洞察发现汉语运用的摆度和不确定性.

(感谢郑州电力高等专科学校余云定副教授、广东工业大学自动化学院董博博士、郑州航空工业管理学院外事处余唯达教师, 对本文提供的大力帮助)

[参考文献]

[1]杨海明.汉语事件表达的喻指化路径与交际动因———以“吃”的基准定位与语义摆度为例[ J ].当代修辞学,2016(3).

[2]杨海明,周静.使因悬疑标题的语义与语篇功研究[ J ].当代修辞学,2014(6).

[3]凯文·凯利.失控:全人类的最终命运和结局[M].东西文库,译.北京:新星出版社,2010:3.(Kevin·Kelly Out ofControl: The New Biology of Machines, Social Systems,and the Economic World).

[4]陈平.系统中的对———谈现代语言学的理论基础[ J ].当代修辞学,2015(2).

[5]卫乃兴,李文中,濮建忠,等.语料库应用研究[M].上海:上海外语教育出版社,2005:113-129.

[6]马广惠.外国语言学及应用语言学统计方法[M].西安:西北农林科技大学出版社,2003:108-115.

[7] Collins, A. M. & Loftus, E. F. A spreading ActivationTheory of Semantic Processing [ J ].Psychological Review,1975(82).

[责任编辑:戴庆瑄]

上文汇总:这是适合互联互通和云计算和语义论文写作的大学硕士及关于云计算本科毕业论文,相关云计算开题报告范文和学术职称论文参考文献.

港珠澳大桥支持受理银联支付产品粤港澳大湾区移动支付互联互通更进一步
10月24日,粤港澳大湾区重点项目、世界最长的跨海大桥——港珠澳大桥正式通车 港珠澳大桥正式通车之际,周边配套设施同步启用 以过桥通行为例,车主可通过银联支付产品缴纳大桥通行费.

大数据背景下学术期刊影响力提升路径
【摘要】大数据技术的应用对学术期刊的发展产生了较大的影响 本文在分析大数据环境下学术期刊困境以及其影响力构成要素的基础上,认为学术期刊应积极利用大数据和数字出版……工具,继续强化期刊内容的前沿性、创新.

大数据背景下网络和新媒体教育 困境与应对
【摘要】大数据背景下的网络与新媒体教育具有融合性、数据性、实战性、开放性的特征,但也面临着培养理念模糊、课程设置陈旧、师资力量不足、专业实践匮乏、教材缺乏……困境,这要求网络与新媒体教育厘清培养理念,.

一带一路互联互通背景下的语言互通实现途径
摘要互联互通是“一带一路”建设的主要内容与目标之一,在整个“一带一路”建设中占有重要的基础、战略地位;语言互通作为“一带一路”互.

论文大全