当前位置:大学毕业论文> 本科论文>材料浏览

语言类毕业论文怎么写 和基于多语言领域本体的知识挖掘方面本科论文开题报告范文

主题:语言论文写作 时间:2024-01-15

基于多语言领域本体的知识挖掘,该文是语言相关本科论文开题报告范文与本体和知识挖掘研究和语言方面毕业论文怎么写.

语言论文参考文献:

语言论文参考文献 知识窗杂志数据挖掘论文电脑知识和技术杂志电脑知识和技术期刊

司莉,李鑫

摘 要 文章提出基于多语言领域本体的知识挖掘框架,选取和利用知识挖掘方法中基于规则的语义推理方法对该框架进行实现.实验过程包括构建一个实验型的中英双语本体,定义本体实例的规则并对规则进行形式化处理,实现基于规则的语义推理,即利用编程工具和算法完成对中英双语本体的知识挖掘.

关键词 知识挖掘 语义推理 多语言本体

引用本文格式司莉,李鑫.基于多语言领域本体的知识挖掘研究Ⅱ1.图书馆论坛,?016 (2):27-34

本文系教育部人文社会科学重点研究基地重大项目“基于内容的多语言信息组织与检索研究”(项目编号:14D870001)研究成果之一

O引言

当前,网络信息资源的多语种化和网络用户分布国际化两大趋势日渐凸显,用户获取多语言信息资源面临的语言壁垒以及用户对多语言语义信息资源的需求亟需解决,多语言的信息组织与检索和知识挖掘将逐渐成为研究热点.一方面,多语言信息检索至今仍停留在基于关键词匹配的文献检索阶段,且以文本检索为主.多语言检索系统的概念识别能力较弱,无法精确化地识别用户查询请求中的语义,无法准确分析目标对象与查询请求中语义相关性,检索结果冗余度高、相关性较低、效率和精度还不够理想,尚未实现细粒度、语义化的知识检索.另一方面,知识挖掘虽然已经形成了较完整理论与技术体系,但如何将这些理论与技术运用于多语言领域,进行多语言、动态化、细粒度的知识抽取与组织,进而实现基于语义的挖掘,尚需进行深入探究.而基于多语言领域本体的语义知识挖掘从多语言信息资源中抽取隐含的、细粒度和语义(关联)化的知识,克服了传统知识挖掘与多语言信息检索在隐含信息、语义关联信息的挖掘与检索等方面的不足.本研究的目的是构建一个基于多语言领域本体的知识挖掘框架,在此基础上,选取和利用知识挖掘方法中合适的技术与方法对所设计的框架进行实现.

1 基于多语言领域本体的知识挖掘框架构建

笔者遵循系统设计原则,提出基于多语言领域本体的知识挖掘的框架与内容,并阐述实现该框架的关键技术.

1.1 多语言领域本体知识挖掘框架的构成

基于多语言领域本体知识挖掘的框架如图1所示,包括原始数据层、语义知识表示层、知识挖掘层、知识服务与应用层.

(1)原始数据层.该层主要存放来自不同数据源的、不同类型的、异构的多语言信息资源.涉及多个语种,包含图像、文本、视频、音频等多种类型.覆盖不同学科、不同领域的结构化、半结构化和非结构化信息资源:在进行知识挖掘时,需要对其中的数据进行抽取和预处理.

(2)语义知识表示层.数据层中的数据缺乏明确的、形式化的语义表示,因此需要对其隐含的、潜在的概念、知识和语义进行规范化、形式化的表达和处理.语义知识表示层主要包括了语义网技术、自然语言处理技术、多语言领域本体、多语言领域本体规则库、专家经验本体、用户偏好本体及其他的本体和知识库等,其主要功能有四个一是对多语言信息资源进行语义化表示.主要借助语义网技术以及自然语言处理技术等对多语言信息资源进行语义层面的初步分析和处理,并利用多语言本体进行语义标注,识别信息资源中有意义的、能够表达信息资源内容和特征的概念和实体及其之间的关系.二是根据多语言领域本体和领域知识,建立基于多语言领域本体的规则库.三是为知识挖掘层提供语义数据.利用多语言本体对不同类型的多语言信息资源进行知识表示和语义标注等,识别和抽取信息资源中的概念及其关系,并以机器可理解(如RDF)的形式编码后存储在信息资源语义元数据库中,实现对多语言信息资源内容的准确理解和表达,从而为知识挖掘提供良好的数据基础.四是检验知识挖掘结果.利用本体的推理功能对知识挖掘的结果进行语义推理,去掉无用或冗余的规则或知识.

(3)知识挖掘层.经过规范化和形式化处理的多语言信息资源,对资源间的深层次或隐含的相互关系以及细粒度的语义知识还是缺乏揭示.知识挖掘层的功能包括两个方面第一,知识发现.知识挖掘技术能够充分利用多语言领域本体、用户偏好本体、规则库等提供的丰富的概念层次结构和领域先验知识对其进行语义层面的深度知识挖掘,获得深层次或多维度的知识、规则等.第二,不断更新语义知识表示层中的本体.利用知识挖掘层的挖掘所得的语义关联知识、规则等,并结合专家经验知识指导多语言本体的动态构建和多语言本体学习.

(4)知识服务与应用层.该层的主要功能是利用知识挖掘层中获取的知识或规则,实现多种知识服务如多语言知识挖掘、多语言信息检索、知识导航、个性化推荐服务等,以及各种应用如多语言问答系统、多语言领域本体的学习和构建.用户可采用任一种自然语言提问,利用多语言本体的术语服务机制中的查询词扩展与精炼功能以及本体间的映射关系和推理功能,在语义层面上精确地表达自己的信息需求,并利用知识挖掘结果修正信息检索的范围和结果.

1.2基于多语言领域本体的知识挖掘特征

1 2 1信息资源的语义化表示

实现在语义层面上的知识挖掘是提高挖掘结果质量的关键问题,语义网技术、本体的出现为解决这一问题提供了一种新的思路.多语言领域本体主要提供学科领域内的核心概念、知识和概念间的关系,为语义分析和标注、知识挖掘、语义推理等提供可靠的先验知识.利用多语言领域本体可以实现对多语言信息资源的一致性解释和表示,表达信息资源内部隐含的语义知识及其关联关系,并解决了多语言信息资源的异构问题.

1 2 2挖掘准确度与共享性高

利用语义网、本体技术从语义层面对知识进行表示,通过导入多语言领域本体等提供的语义概念,实现对信息资源进行语义层面的知识挖掘,利用知识挖掘技术与方法提供给用户高度相关的挖掘结果,提高了挖掘过程中知识抽取的可靠性,从而提高知识挖掘的准确性.同时,实现了知识的无障碍共享.多语言领域本体、用户偏好本体等为个人、组织以及机器间的相互理解和交流提供了共同的、规范的概念定义和关系描述,消除了人们对语义的概念或知识的表达差异,从而实现挖掘所得知识、规则的无障碍共享.

1 2 3注重用户偏好

笔者在建立知识挖掘过程中应用多语言领域本体、用户偏好本体等.用户偏好本体由高层次的抽象概念组成,全面真实地反映了用户的需求类信息如个性化服务、用户的行为类信息如信息检索记录、用户反馈类信息如用户服务评价信息等,提高了用户的参与度,使挖掘的结果更易符合用户的需求,减少无意义或无效的结果.

1.3实现多语言领域本体知识挖掘的关键技术

1 3 1 构建多语言领域本体技术

多语言本体的构建有三种途径:一是从头开始构建新的语言本体;二是合并两种或多种现有不同语言的本体成为一种新的多语言本体,即多语言本体间的映射:三是将现有的一种语言的本体翻译成其他语言的本体从而构建多语言本体,即本体翻译或本地化.在本文的实验部分构建了一个小型的实验本体,主要采用手工方法从头开始构建中英双语本体.通过设置数据属性(DataProperty)实现双语本体相同语义概念的映射,包括相同语言中同义概念间的映射以及不同语言间的同义概念之间的映射.

1 3 2基于规则的推理技术

该技术是依靠推理工具或推理引擎利用规则推理算法,从已有的领域知识库或本体库中推理出隐含的知识、关系的过程.首先要在领域知识库或本体库的基础上结合规则推理技术建立适用于领域知识的规则库,然后推理系统借助推理工具或推理引擎以及利用一定的推理算法完成知识库、规则库的加载与解析,在此基础上完成本体库或基于本体库的推理.规则库主要有两种来源:一是本体库中本体自身蕴含的规则:二是在本体库和知识库的基础上建立适用于领域的规则.在定义了领域规则后,采用合适的规则描述语言对所构建的规则进行形式化描述,从语言的权威性、表达能力和推理引擎的支持等角度考虑,选用SWRL作为规则描述语言.

2基于多语言领域本体知识挖掘的实现

2.1实验环境

本实验的计算机操作系统是Win7,所需要的工具包括本体构构建与编辑工具Protege、Ja集成开发环境与工具Eclipse、基于Ja的开源代码本体操作工具包Jena以及Jena自带的推理机.Protege作为本体的编辑工具是一个免费和开源的工具,界面友好,用户不用掌握本体描述语言也可以直接对类、属性等进行检查、浏览、编辑和修改等操作,它支持RDF、OWL等多种本体描述语言.Eclipse是一个开放源代码的、基于Ja可扩展的开发框架与平台,可以将Eclipse作为Ja的集成开发环境(IDE)使用.Jena是由惠普实验室开发的Ja开发开源工具包,用于语义网中应用程序的开发.Jena框架功能主要包括:以RDF/XML、三元组形式解析RDF文件;对RDFS、OWL、DAM L+OIL等本体进行操作,利用数据库保存数据,提供查询模型.基于Jena推理引擎进行基于规则的推理等.

2 2实验内容

本实验中知识挖掘对象包括两方面,即构建的中英双语领域本体以及中英双语对照信息资源,所使用的知识挖掘技术为基于规则的语义推理技术.

遵循本体构建原则,利用上文*绍的本体构建的技术体系,使用本体编辑工具Protege构建中英双语本体,给定一段中英对照文本,对文本中的实体及其关系进行分析,利用本体对文本进行标注,并将标注的结果作为本体的实例添加在本体中并进行存储.分析文本中实体之间的关系,在此基础上建立实例的规则并使用SWRL规则描述语言对其进行形式化形成规则库文件.在Eclipse环境下加载本体和相应的规则库文件,采用Ja语言编程,利用规则进行本体的语义推理,从而实现中英双语本体的知识挖掘.

2 3实现过程

2 3 1 多语言领域本体的构建

本实验使用Protege4.3.0手工构建双语本体,步骤如下:

(1)确定主要的概念,建立类及类的层次.构建大学课程教育的中英双语本体,该本体包括1个一级类为大学教育,5个二级类为课程、教师、教师职称、学生、教育层次,6个类,在课程类型下建立3个类,分别为本科课程、硕士课程、博士课程;在教育层次下建立3个类,分别为本科教育、硕士教育和博士教育.利用Protege建立类以及类与类之间的等级结构,完成后选择“OWLViz”,本体的结构图如图2所示.

笔者通过设置数据属性(Data Property)实现双语本体相同语义概念的映射,包括相同语言中同义概念间的映射和不同语言间的同义概念之间的映射,从而构建中英双语本体.具体而言,在数据属性中的Annotation Properties(注释属性)选项下建立数据属性hasName,利用hasName属性添加不同语言的同义概念.利用hasName属性下建立的子属性hasSynonymous;可添加每个类的同义中文和英文的概念或词汇.

在数据属性中的Annotation Properties下建立类的数据属性hasName属性,对建立的本体中的每一个类分别添加hasName属性,输入属性值为相应的类的中文和英文名称,从而完成中英概念类的对照.以“课程”类为例,在Protege中选择Annotation选项卡,选择属性“hasName”,在属性值Value中输入“Course”,在Lang中输入“en”以表示为英文类名,则完成英文类名的添加(见图3).采用同样的方式添加类的中文名称,只需在Lang中输入“zh”以表示中文即可.“课程”类建立的中英文对照类名如图4所示.采用上述方式对构建的中英双语本体中的每一个类添加相应的中英文类名,即完成大学课程教育中英双语本体的构建.

(2)建立属性及属性的约束.在OWL本体中,属性关系可以分为对象属性(Object Property)和数据属性(Data Property),前者表示概念之间的关系,后者表示每个概念的基本信息.大学课程教育中英双语本体中各个概念之间的语义关系是通过设置对象的属性完成的,共建立了30个对象属性(见表1),具有互逆关系的对象属性在Protege中通过设置“Inverse Of”来实现.在Protege中对相应的类分别设置其对象属性,对于具有属性约束的要设置相应的属性约束.

(3)本体存储,将已构建的本体存储为OWL文件,以便用于语义推理和挖掘.

2 3 2语义标注与本体规则库的构建

给定图5所示中英双语对照文本,分析并提取文本中的实体以及实体间的关系,利用上面构建的学校本体对其进行语义标注,标注的结果作为本体的实例添加在本体中.

笔者抽取中英对照实体18对36个,分别在本体类本科课程下建立信息管理、图书馆学概论2个实例,在硕士课程下建立信息检索、信息资源建设2个实例,在博士课程下建立数据挖掘、信息服务2个实例,在教师下建立杨静、裴蓓和刘然3个实例,在学生下李静、李娜和萧涵3个实例.以同样的方法对在相应的概念类中分别建立相应的英文实例,然后分别对每一个实例设置其对象属性和属性的约束,并保存为owl格式的文件,作为下面语义推理与挖掘的输入.由于实例以及实例之间的对象关系较多,不再一一赘述.

对构建的学校教育双语本体中实例之间的关系进行分析,定义本体的推理规则.对分析的规则采用SWRL规则描述语言形式化描述,可得到多语言本体实例的完整的规则库文件,其中包含64条实例的对象属性推理规则.因篇幅有限,本文仅给出部分形式化的SWRL规则库文件(见图6).在此基础上,利用Jena包中的推理引擎中绑定所建立的规则库文件以及所建立的学校教育中英双语本体文件,然后进行多语言领域本体的基于规则推理的知识挖掘.

2 3 3基于语义推理的知识挖掘

笔者主要利用Ja编程工具E-clipse、Jena工具包进行基于本体规则的语义推理,挖掘实例中隐含的知识和关系,实现知识的挖掘.在Eclipse中通过修改工程的Ja创建路径的方法导入Jena jar文件,可以在Eclipse中调用Jena API完成本体知识库(文件)和规则库(文件)的加载、解析和处理.然后编写相应的程序处理本体库和规则库,实现基于规则的语义推理,关键的代码如下:

2.4实验结果与分析

运行该程序,可得到基于规则的语义推理的部分结果,见图7.

由于Eclipse界面有限,无法展示全部推理结果,且推理结果中包含一些无用的结果,因此得到的结果进行整理并剔除部分无用结果,得到推理的结果见表2(篇幅有限,仅列出部分结果).由表2可知,基于规则的语义推理挖掘出了李静(Jing Leel可以上的课程有信息管理、Informa-tion Management、图书馆学概论、Library In-troduction,副教授裴蓓(Bee Pei)可以教的课程有信息管理、Information Management、图书馆学概论、Library Introduction、信息资源建设、Information Construction、信息检索、Infor-mation Retrieval等实体之间隐含的知识与关系,实现了基于规则推理的中英双语本体的知识挖掘.

2.5多语言领域本体知识挖掘的应用

(1)应用于知识服务.基于多语言领域本体的知识挖掘技术可对多语言信息资源进行处理,以挖掘其隐含的、具有潜在价值的知识,分析知识内容之间的关联,从而提供基于语义的、面向内容的知识服务.这种深层次的知识服务依靠多语言领域本体进行语义特征的提取,利用知识挖掘技术进行分类、聚类分析等处理,从而挖掘出多语言信息资源中隐藏的知识及其之间的语义关联关系.图书馆可以利用基于多语言领域本体的知识挖掘结果开展学科知识服务,对用户的需求进行收集、分析、规范化处理和表达;采用多语言知识挖掘技术对图书馆数据库进行知识挖掘,获取隐藏的、深层次的学科知识以及知识之间的语义关联,将满足用户需求的知识挖掘的结果提供给用户.

(2)应用于多语言信息检索.将知识挖掘技术应用于多语言信息检索,挖掘并分析用户需求与多语言信息资源之间主题的相关性,有助于实现用户需求和多语言信息资源之间的精确匹配,提高检索效率并优化检索结果,具体方法有:①提高检索效率.利用基于多语言领域本体的知识挖掘技术可以对检索对象进行预处理,例如利用知识挖掘中的聚类分析技术将文档按照其语义聚类到特定的类别,在进行多语言信息检索时可以直接将检索目标定位到具体的类别,只需对该类别进行处理和检索,从而减少了检索所需的时间并提高了检索效率.②优化多语言检索结果.多语言信息检索是用户需求与多语言信息资源的自动匹配过程,这一过程中以及在检索的结果中利用知识挖掘技术可以获取细粒度语义知识,解决检索结果的优化问题.检索结果优化的过程可抽象成对目标数据库进行知识挖掘的过程,即将检索结果的文档集看作目标数据库.多语言信息检索结果中符合用户需求的目标往往会频繁出现,可以利用基于本体的知识挖掘技术对结果进行挖掘,提取其中有价值的频繁模式或规则等,然后利用其对检索结果进行过滤和优化.

3总结与展望

笔者把基于多语言本体的知识挖掘作为研究目标,旨在利用知识挖掘技术从多语言信息资源挖掘出隐含的、未知的、有潜在应用价值的细粒度的语义知识,围绕着该主题进行了相关研究,具体来说有两方面,第一,构建了一个实验型的中英双语本体.利用Protege构建了一个实验型的中英双语本体,实现了对多语言信息资源语义化、关联化的组织与揭示.第二,提出了一个基于多语言本体的知识挖掘的框架并对其进行实现.首先,构建了一个实验型的中英双语本体.其次,利用该中英双语本体对一段给定的中英对照文本进行语义标注,标注结果作为实例存储在本体中,并在此基础上构建了该中英双语本体的规则库.最后,选取Eclipse作为编程环境与工具,利用Jena本体推理机解析本体和规则文件,对文本中隐藏的知识和关系进行基于规则推理的知识挖掘.本文选取了基于规则的语义推理技术作为主要的实现技术,未来还可以探究其他传统的知识挖掘技术在多语言语义知识挖掘中应用,具体的内容包括基于内容的多语言关联挖掘研究、基于语义的概念挖掘研究、关联规则、决策树技术、神经网络技术以及机器学习技术在基于内容的多语言知识挖掘中的应用研究.

作者简介

司莉,博士生导师,武汉大学信息资源研究中心教授,图书馆学系主任;李鑫,武汉大学信息管理学院硕士研究生.

收稿日期2015-10-22

该文结束语:本文是关于对写作本体和知识挖掘研究和语言论文范文与课题研究的大学硕士、语言本科毕业论文语言论文开题报告范文和相关文献综述及职称论文参考文献资料有帮助.

挖掘文本资源引导语言学习《孔子学琴》教学实录和评析
一初识孔子,揣摩课题师请同学们看屏幕 (课件呈现孔子像)认识他吗念出他的名字 生孔子 师根据预习能猜出他就是孔子,不足为奇 老师要表扬你的是,你知道这里的“子”念第三声 那么,.

运用自媒体平台的影视材料培养学生英语语言知识
【摘要】本文阐述,自媒体平台下的各种英文影视材料为语言学习者提供了可模仿的一手资料、生动有效的实例与完整的语篇语用素材,丰富了学习内容,扩宽了学习渠道 但是,在自媒体平台下运用影视材料构建学生英语知识.

信息技术在玉米抗病育种领域应用知识图谱分析
摘 要本文在运用文献计量学的基础上,利用信息分析软件,对信息技术在玉米抗病育种领域应用研究进行主题聚类分析,得出各研究主题发文量、演化路径及发展趋势 关键词玉米;抗病育种;信息技术;信息分析对信息技术.

深化知识产权领域改革需要全链条打通
文 小康记者 靳晶——专访全国人大代表、国家知识产权局副局长何志敏知识产权综合管理改革的目标应由分散向综合转变,由管理向治理转变,构建与创新驱动发展要求相匹配、与加快政府职能转.

论文大全