当前位置:大学毕业论文> 专科论文>材料浏览

案例研究方面论文范文集 跟内存计算框架下的图书馆文献服务与案例有关毕业论文格式范文

主题:案例研究论文写作 时间:2024-03-03

内存计算框架下的图书馆文献服务与案例,本文是案例研究方面毕业论文模板范文与案例研究和内存计算框架和图书馆文献有关毕业论文模板范文.

案例研究论文参考文献:

案例研究论文参考文献 图书馆文献文献检索网站论文中怎么引用文献书籍参考文献

0 引言

  数据共享和知识创新背景下,为师生提供高效精准的文献服务是高校图书馆面临的主要任务.文献服务涵盖文献检索、推荐和可视化等方面内容[1]141.近年来由于图书馆资源数字化过程加速推进,馆藏书目库和论文数据库等各类文献资源迅猛增加,具有“总量巨大(Volume),数据增加迅速(Velocity),种类多(Variety),高价值低密度(Value)”的4V大数据特点[2-4].如何基于海量文献资源和有限硬件条件,设计切实可行的文献服务方案并付诸实施,对于图书馆大数据应用落地具有重要理论和实践意义.

  内存计算(In-memory Computing)是大数据快速分析的主流技术.其中,开源组织Apache提出的Spark系统是内存计算的主要框架[5],广泛用于商业大数据分析和挖掘,新浪、网易、阿里巴巴等企业采用该框架开展用户分析、个性化推荐和智能决策.弹性分布式数据集(Resilient Distributed Datasets,RDD)是Spark数据存储的主要技术,具备数据容错机制;Spark开发了用于数据分析的机器学习库(Machine Learning Library,MLlib),其中致力于图计算(Graph Computing)的函数库GraphX提供了一整套图分析和图挖掘工具包,可用于海量图节点的实时运算;另外,Spark可以在中低配置的计算设备(如普通的个人电脑)上构建分布式计算集群,节省硬件投入成本.

1 图书馆文献服务研究现状

1.1 文献大数据的收集与聚合

  数据收集和聚合是文献服务的基础.大数据环境下文献来源多样化,而对收集的多类型资源进行聚合是研究热点[1]138[6].赵蓉英等[1]138指出,海量馆藏资源的聚合应涵盖存储与集成、挖掘和分析以及知识发现三个过程;邱均平等[7]以资源本体理论为基础,提出以馆藏电子资源的关联聚合为主要内容的资源本体存储模式;张玉峰等[8]构建包括数据资源层、信息描述层、资源聚合层和应用可视化层的馆藏资源深度聚合可视化模型;黄文碧[9]探讨了利用元数据关联实现馆藏资源聚合的方法,提出具有元数据仓库构建、映射和关联三个过程的聚合方案,并进行实例分析;常娥等[10]应用关联数据(Linked Open Data,LOD)技术,提出包括“资源层、知识层和中间层”的馆藏资源数据整体关联的通用聚合架构.

1.2 文献大数据的分析和挖掘

  文献分析和挖掘力图从海量数据中提炼有价值的知识,以提高文献检索和推荐的质量,是文献大数据应用的主要环节[11-12].Tsuji等[13]采用支持向量机方法对用户借阅日志和图书主题进行挖掘和分类,开发系统并评估检索和推荐效果;施亮等[14]认为,应结合用户的实际需求和个性习惯,引进大数据技术提升文献检索水平,以高效利用学术资源;汪志伟等[15]引入“文献活跃度”概念,提出了多维检索排序法,在保证准确率的同时提高检索效率.

  应用图计算技术开展文献分析的方法也受到学界的关注.Musto等[12]从海量的RDF格式的关联数据“云”(Linked of Data Cloud)免费获取数据,结合图计算搭建图书推荐系统,结果表明该系统能兼顾推荐的多样性和准确性;Huang等[16]用图模型表示基础数据,设计包括直接检索、关联挖掘和高度关联检索的三种推荐方案,将文献内容与用户历史信息融合起来,实现协同推荐;袁虎声等[17]利用复杂网络理论中的二分图及BA无标度网络模型,提出加权借阅网络的图书推荐算法.

1.3 运行环境的提升与实践

  能否开发高性能分析系统,并开展实时的大数据检索、推荐和可视化等服务是图书馆能否为用户提供高效服务的关键.近年来,学界引入Hadoop等云计算平台以提高海量文献分析的效率.Huwe[18]总结大数据发展趋势,认为Hadoop+ Spark框架实时高效,是支撑图书馆数据服务的重要技术;樊伟红[3]和张兴旺[19]等认为,由于用来购买硬件设备的资金有限,图书馆大数据应用面临基础设施落后挑战,建议利用中低端硬件来构建廉价的Hadoop大数据运算集群;Teets等[20]提出应用WorldCat数据库的图书馆大数据应用框架;赵彦辉等[21]分析用户借阅日志以获取借阅偏好值,搭建Hadoop分布式平台并运用MapReduce算法测试系统性能与图书推荐效果的关系.

  综上所述,学界深入研究了图书馆文献数据的聚合理论,并从实践角度探讨资源聚合基础上数据分析和挖掘方法,取得了较大进展;学界还特别关注图书馆大数据应用的成本高昂问题,提出应对方法.但在如何充分利用现有硬件资源,并满足大数据高强度计算的解决方案的设计,以及开展案例研究的相关文献不多.为此本研究结合大数据4V特征,在分析图书馆文献服务面临的困境基础上探讨Spark框架下的应对策略,然后提出图书文献服务方案及应用案例设计.

2 图书馆文献服务困境及应对策略

  本研究密切结合大数据环境下图书馆文献服务面临的3大困境,针对性地提出Spark技术框架下的应对策略(见图1).

  (1)文献大数据“种类多”的特征使得数据整合困难.例如,当用户检索某文献(图书或论文)时,期望获取与该文献内容高度相似的其他文献,这需要整合来源不同的多类型数据,构建统一的知识库.Spark RDD数据技术能够将不同种类的文献数据关联成RDD三元组,在不同类型数据间建立联系,并实现分布式存储.

  (2)文献大数据“高价值低密度”的特征挑战传统的数据分析和挖掘方法.图书馆文献服务需要信息系统工具能够支持从海量馆藏文献资源中筛选、挖掘出有价值的知识.Spark MLlib中拥有丰富的数据挖掘函数,其中GraphX函数库能高效应用于大规模网络的分析.

  (3)文献大数据“数据量大”“增长迅速”的特征对硬件平台性能提出较高要求.由于图书馆资金有限,不宜过多购置昂贵的高性能服务器等计算设备,而Spark是开源软件,可以搭建在中低端的计算设备上,不仅节省大量硬件设备和软件平台购置资金,而且能满足高性能计算的需要.

3 文献大数据服务方案

  在上述分析的基础上,本研究提出一种应用Spark技术的图书馆文献服务方案,包括文献数据库聚合、文献大数据分析和挖掘以及文献服务平台3个部分,见图2.

3.1 文献数据库聚合

  本体和关联数据技术是数据资源聚合的主要技术,也是本方案中数据库聚合的工具.其中,本体是某一领域的概念及相互关系的形式化表达,由规范化术语组建;关联数据能将本体规范下的异构数据库链接起来,形成统一的结构化关联知识库.本方案中首先建立数据模型,然后选取相应元数据实施关联,从而将各类馆藏数据库和互联网知识库聚合起来.Spark RDD有大量算法(如Map、Join和Groupby等函数)支持元数据的关联和文献资源的聚合.

3.2 文献大数据分析和挖掘

以元数据关联形式聚合而成的文献资源知识库具有“高价值低密度”的特征,需要应用计算机领域的相关算法挖掘有价值的信息.比如,对用户日志挖掘以分析用户偏好,对学科数据挖掘以发现学科热点,通过大规模网络分析对知识列表排名.Spark中有自带的MLlib和GraphX函数库,支持海量数据快速分析.

3.3 文献服务平台开发

文献服务平台一般以Web系统形式提供在线服务.例如,用户输入检索词后,搜索和推荐引擎从已关联的文献知识库中识别检索词涉及的实体或属性,并依据已关联的Spark RDD线索,找到“高相关度”的资源并排名.文献可视化则通过可视化软件,将文献之间的动态联系和脉络关系以清晰易懂的视图方式显示出来.

4 案例设计及结果分析

  为验证方案的可行性,本研究设计了一个以文献资源聚合模式和Spark技术为支撑的图书馆文献服务的实践案例.在该案例中,以Web信息系统方式为用户提供文献检索和推荐服务,系统开发过程包括文献数据库聚合和文献排名两部分.

4.1 案例设计方法和过程

4.1.1 文献数据库聚合

  以学术论文数据库(简称“论文库”)和馆藏书目数据库(简称“馆藏书目库”)为基础数据库,采用关联数据技术实现二者聚合,为文献大数据的分析和应用提供“高相关度”的关联知识库.聚合过程见图3,包括本体模型构建和元数据关联两部分.

  (1)本体模型构建.本体模型由“学术论文”和“图书”两个类(class)构成,各类的属性及关联关系见图3,属性对应的数据值来自于领域本体数据库.经过调研,选择W3C组织推荐的知识本体库(图例部分)确定关联关系和属性类别.

  (2)元数据关联.为了实现论文库和馆藏书目库中“高相关度”文献的关联,首先分析文献之间的相关度.本文采取“字符比较”和“相似度计算”两种关联方式,前者适用于较短字符串的元数据,后者适用于有较长文本的元数据.

  ①“字符比较”关联.选取论文库中的元数据“论文作者”“论文关键词”,对应馆藏书目库中的“图书作者”“中图法分类名”.二者的共同特点是字符串简短,可通过字符比较的方式实现关联:如果两者字符相同,就将两条记录的id号关联起来,并定义权重wchar,权重值的大小反映该类关联的重要程度.

  ②“相似度计算”关联.选取论文库中的元数据“论文篇名”和“论文摘 要”,对应馆藏书目库中的“图书书名”和“图书内容简介”,其共同特点是文档较长,可通过计算文档相似度的方法实现关联:首先应用软件NLPIR,将文档拆成分词,应用Spark函数统计分词词频作为分词权重,构建分词向量空间模型(其中ci表示第i个分词,wi表示该分词的权重),然后应用公式(1)计算文档相似度Sim(D1,D2)并归一化,将其结果作为该类型关联的权重wSim .公式(1)中l为上述向量空间模型{<c1,w1>,<c2,w2>,…<ci,wi>,…}中分词列表长度,wi1、wi2分别为文档D1、D2中对应分词的权重.

Sim(D1,D2)等于■wi1*wi2■(1)

  ③构建Spark RDD三元组.三元组格式为(文献id1,文献id2,W),其中id1和id2是文献的id号,W等于两类关联权重wchar与wSim之和.在代码实现过程中,引入Spark的RDD函数包(import org.apache.spark.rdd.RDD),调用Map函数的filter和flatmap等方法实施元数据与RDD的映射和交互操作,调用Join、Reducebykey和Groupby等函数实现文献id之间的关联.

4.1.2 文献排名

  在上一步骤中,系统产生海量的文献关联记录.由于用户难以判断各文献的价值,需要对其排名:将与用户当前浏览记录(即用户感兴趣的文献)内容高度相关的文献排在TOP N位置.Spark GraphX图分析工具包可以用于海量文献的快速排名.作为分布式共享内存的图处理框架,Spark GraphX在主从式集群上实现了图的内存计算,在图的加载、节点和边处理以及相邻节点计算等方面更加优化,因而性能有较大提升.应用GraphX技术的排名包含以下四个过程:

  (1)创建图Graph(vertices,edges)并初始化为空图.

  (2)将文献聚合产生的RDD转换为节点和边:从图书RDD和论文RDD文件分离出“图书id”或“论文id”,作为节点vertices(文献id,节点权重)中的文献id,其节点权重的初始值暂时设置为0;将RDD中格式为(文献id1,文献id2, W)的每一条记录对应转换为边 edges(文献id1,文献id2,边权重),边权重初始值为RDD记录中的W值.

  (3)对图中Graph(vertices,edges)所有节点,计算其所连接的边的总权重,并将总权重设置为节点vertices的权重值.

  (4)按照节点的总权重值从大到小排序.在检索界面的列表中按权重值大小显示检索结果.代码实现过程中,引入Spark GraphX包(即:import org.apache.spark.graphx.{Edge,Graph,VertexId,VertexRDD}),调用其中的Graph(vertices,edges)方法构建图,用aggregate Messages函数计算总权重,调用Ordering函数对节点总权重进行排序.

4.2 实验结果及分析

  实验采用如下数据:(1)江苏理工学院图书馆馆藏图书库完整数据,共1,227,724条;(2)由自行开发的爬虫软件从互联网获取论文数据,经过去重处理,共得到473,432条.首先是Spark关联计算,将馆藏图书数据库和论文数据库聚合,构建RDD关联三元组;然后转换为GraphX图计算,实现对关联结果排名并保存到数据库中;最后开发Web实时系统显示文献查询结果.

4.2.1 Spark关联计算

  因为Spark RDD关联三元组数目庞大,计算耗时较长,因而采用分布式集群离线计算方式.两类关联模式中,“相似度计算”的复杂度估计:馆藏的一百多万条图书数据(数量级106)需要与论文数据(数量级105)实现“图书与图书”“论文与论文”“图书与论文”三种不同方式的文献相似度计算,每种类型都通过双重循环,两两计算相似度,计算总复杂度为O(106*106+106*105+ 105*105)等于O(1012);通过“字符比较”成功匹配而聚合形成的三元组数目见表1,其中,“图书与图书”通过“中图法分类名”(也称为关联媒介)关联的三元组数目最大,达到14亿多条.因为每个“中图法分类名”下包括的文献非常多,这些文献都要建立关联,因而数量最多;同理,“论文与论文”通过“关键词”建立的关联也占整个关联数目的较大比例.这两类关联占三元组总数的比例近95%,共同构成“字符比较”关联的主体部分.可以看出,“图书与论文”在“作者”上的关联数目最小,但此类关联跨越不同的数据库,是图书到论文交叉查询的基础.

4.2.2 Spark性能分析

  将Spark与大数据平台MapReduce比较,以评估计算性能.实验中所构建的分布式集群硬件配置:由16个节点PC机(型号:DELL Vostro 3667 -R1838;单台配置:i5-6400/8G内存/1000GB硬盘)和连接分布式系统的交换机(1000M,24个接口)构成.以“字符比较”关联作为计算任务在两类平台上分别运行.Spark和MapReduce的计算时间见图4.相比MapReduce,Spark优势非常明显:如对于输出20*109数量级的RDD三元组,Spark耗时约40分钟,而MapReduce需要近900分钟,约为20多倍.这是因为计算过程中Spark中间结果存储在内存中,提高了性能.

4.2.3 Web实时显示系统

  图5为本研究开发的Web原型系统界面截图,显示内容为用户所查找文献的TOP 10列表,虚线部分是为了方便说明,作者手动添加上去的标记.标记①是用户浏览初景利的著作《图书馆发展变革与服务转型》[22]时,点击该图书链接,系统自动查找与该图书密切相关的文献;标记②是图书查找结果,因为该图书数据库中没有初景利撰写的其他图书,系统依据文献资源的关联关系排名,自动推送与主题密切相关的图书;标记③是初景利撰写的“高相关度”论文列表.另外,以本文内容为基础开发的软件《基于内存计算技术的高校图书馆文献检索和推荐系统》1.0 版本已经取得国家版权局的软件著作权登记证书(登记号:2017SR231222).

5 结语

  由于Spark内存计算框架具备下列优点,可以将其作为未来图书馆大数据应用的重要工具,以促进图书馆文献服务的转型升级.

  (1)计算效率高.Spark内存计算技术的命名,源于其运算过程中产生的中间结果保留在计算机内存中,可避免传统大数据平台(如MapReduce)中内存和硬盘需反复交换数据而导致的延迟,因而在云计算平台家族中其计算速度和效率具有明显优势,成为当前大数据运算的主流工具之一.

  (2)硬件费用低.以Spark框架为代表的内存计算技术,能在中低端设备上搭建分布式集群,为图书馆文献服务提供高性能的硬件支撑平台.我国高校馆普遍面临经费紧缺问题,Spark内存计算框架面向中低端硬件的特点,能有效节省设备购置资金.

  (3)软件成本低.Spark框架特有的RDD存储机制和机器学习函数库有力地支撑了包括文献资源聚合、文献数据分析等图书馆大数据的关键应用和服务,方便图书馆文献服务软件系统的开发和维护,降低了软件投入成本.

  本文不足之处:在实证案例中,原型系统的开发和运行仅仅验证了Spark框架在图书馆文献检索和推荐等个性化服务领域的可行性.由于个性化检索和推荐所涉及的内容非常广泛而深入,特别是有关推荐结果准确率的有效提升和可用性的持续优化,尚有待开发更高效的推荐算法予以支撑.本文案例中的“相似度计算”效果也需要强化以提高推荐性能.如何在Spark框架下进一步改进相关算法并完善原型系统,是本文后续研究重点关注的问题.   

参考文献

[1] 赵蓉英,王嵩,董克. 国内馆藏资源聚合模式研究综述[J]. 图书情报工作,2014,58(18):138-143.

[2] 韩翠峰. 大数据时代图书馆的服务创新与发展[J]. 图书馆,2013(1):121-122.

[3] 樊伟红,李晨晖,张兴旺,等. 图书馆需要怎样的“大数据”[J]. 图书馆杂志,2012,31(11):63-68.

[4] 何胜,熊太纯,周冰,等. 高校图书馆大数据服务现实困境与应用模式分析[J]. 图书情报工作,2015,59(22):50-55.

[5] Spark [EB/OL].[ 2017-06-27]. http://spark.apache.org/.

[6] 曹树金,马翠嫦. 信息聚合概念的构成与聚合模式研究[J]. 中国图书馆学报,2016,42(223):4-19.

[7] 邱均平,楼雯,余凡,等.基于资源本体的馆藏资源语义化研究[J]. 图书馆论坛,2013(6):1-7.

[8] 张玉峰,曾奕棠.语义环境下馆藏资源深度聚合结果可视化框架研究[J]. 图书情报知识,2014(5):65-71.

[9] 黄文碧. 基于元数据关联的馆藏资源聚合研究[J]. 情报理论与实践,2015,38(4):74-79.

[10] 常娥,华苏永. 馆藏资源底层通用整体数据关联模型研究[J]. 图书馆论坛,2016(8):7-12.

[11] 柳益君,何胜,冯新翎,等.大数据挖掘在高校图书馆个性化服务中应用研究[J].图书馆工作与研究,2017(5):23-29.

[12 ] Musto C,Basile P,Lops P,et al. Introducing linked open data in graph-based recommender systems[J]. Information Processing and Management,2017,53(2):405-435.

[13] Tsuji K,Takizawa N,Sato S,et al. Book Recommendation Based on Library Loan Records and Bibliographic Information[J]. Procedia - Social and Behioral Sciences,2014(147):478-486.

[14] 施亮,魏凤萍. 大数据背景下我国高校图书馆检索服务应用研究[J]. 现代情报,2014,34(6):139-142.

[15] 汪志伟,邹艳妮,吴舒霞. PageRank 算法应用在文献检索排序中的研究及改进[J]. 情报理论与实践,2016,39(11):126-130.

[16] Huang Z,Chung W,Chen H. A Graph Model for E-Commerce Recommender Systems[J]. Journal of the Association for Information Science and Technology,2004,55(3):259-274.

[17] 袁虎声,赵洗尘. 基于加权借阅网络的个性化推荐算法与实现[J]. 图书情报工作,2016,60(10):130-134.

[18] Huwe T K. Big Data and the Library:A Natural Fit[J]. Computers in Libraries,2014(3):17-18.

[19] 张兴旺,李晨晖,秦晓珠. 构建于廉价计算机集群上的云存储的研究与初步实现[J].情报杂志,2011,30(11):166-171.

[20] Teets M,Goldner M. Libraries’ Role in Curating and Exposing Big Data[J]. Future Internet,2013(5):429-438.

[21] 赵彦辉,刘树春. Hadoop 平台在图书推荐应用中的性能分析[J]. 现代情报,2014,34(10):157-161.

[22] 初景利.图书馆发展变革与服务转型[M].北京:国家图书馆出版社,2012.

   

作者简介 何胜,博士,江苏理工学院计算机工程学院副教授;熊太纯,硕士,研究馆员,江苏理工学院图书馆党总支书记;柳益君,硕士,江苏理工学院计算机工程学院副教授;叶飞跃,博士,江苏理工学院计算机工程学院院长;赵小荣,硕士,江苏理工学院计算机工程学院高级实验员.

收稿日期 2017-06-28

(责任编辑:周坚宇;英文编辑:杨涛)

小结,上述文章是关于案例研究方面的大学硕士和本科毕业论文以及案例研究和内存计算框架和图书馆文献相关案例研究论文开题报告范文和职称论文写作参考文献资料.

高校图书馆社会化服务进程中的问题和
摘 要高校图书馆面向社会是当今社会发展所需要的贯彻落实的措施 高校图书馆为学校师生提供便利的同时应该对社会更广的区域开放,为社会培养人才提供便利条件 有助于社会与高校的信息资源共享,有助于促进社会发展.

云计算环境下高校图书馆安全策略
摘 要云计算已经成为当下时代一大特点,在许多行业的发展中云计算都有着一定的应用 在高校图书馆中引入云计算对其安全管理有着很大的作用,本文在对云计算进行了解的基础上又对高校图书馆数字化服务进行了分析,并.

论图书馆文献资料的收藏工作
在人类文明的发展过程中,自然科学与社会科学发挥着关键的作用,是推动人类文明进步的重要动力源泉 而文献资料是自然科学和社会科学开展和进步的关键所在,如果没有一定的文献资料作为基础,自然科学和社会科学工作.

谈新形势下党校图书馆如何服务教学与科研工作
党校是干部培训的熔炉和阵地,党校图书馆如何配合教学及科研工作, 是我们积极探索的一个重要课题 在新形势下,多种信息技术的问世和应用,虽然提高了信息利用效率,但于信息技术结合力度低的党校图书馆来说,在信.

论文大全