当前位置:大学毕业论文> 硕士论文>材料浏览

关于大学图书馆类本科论文开题报告范文 和大学图书馆学科服务专项搜索引擎关键技术类毕业论文格式范文

主题:大学图书馆论文写作 时间:2024-01-20

大学图书馆学科服务专项搜索引擎关键技术,本文是关于大学图书馆类毕业论文格式范文跟搜索引擎和大学图书馆和关键技术类本科论文开题报告范文.

大学图书馆论文参考文献:

大学图书馆论文参考文献 大学生涯规划论文计算机科学和技术专业导论论文大学心理论文电脑知识和技术期刊

王寒冰

(东北农业大学,哈尔滨黑龙江150036)

[摘 要]以承担“黑龙江省原料乳生产生物性风险来源分析与防控”研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎.描述了专项信息资源搜索引擎中的关键技术:即面向增量爬虫的网页更新频率预测技术,该技术使用泊松分布来预测特定网页更新变化情况,并通过实验验证了该技术的优越性能,为后续研究提供了基础.

[关键词]学科服务搜索引擎增量爬虫网页更新频率预测技术

[分类号]G252

特色专项信息资源是学科服务的基石,笔者以承担“黑龙江省原料乳生产生物性风险来源分析与防控”研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎.通过对科研团队的问卷调查和深入访谈,确立了建立专项信息搜索引擎需要涵盖的影响乳制品安全的化学性风险包括兽药、化学品、饲料、坏境污染、人为掺杂和生物性风险等9 大学科共12 个方向.由于专项信息资源所涉及的领域是一个热门的独立主题,及时的信息收集和入库对提升用户满意度具有重要的意义,当搜索引擎在新闻网站爬行页面时,必须时刻监控专项信息的更新情况,而传统的网络爬虫技术不能满足专项搜索引擎的设计需求,在这种情况下,笔者结合前人对网页更新频率的随机假设,提出了基于泊松分布的网页更新预测算法,来指导爬虫高效的爬取页面,提升爬虫性能.

1 爬虫设计概述

一般来说,爬虫的运行流程分析如下:首先选取若干URL 作为种子,在爬虫开始运行阶段将种子URL 放入爬行队列,然后某种优先级从爬行队列中依次取出URL,下载对应链接资源,并解析下载到网页中的新URL,将其放置下载队列中.不断重复上述过程,直到URL 队列为空或满足其他结束条件为止.图1 以伪代码的形式描述了基本的爬行算法.

从图1 的代码中可以看出,对于爬虫来说,关键的若干操作是网页URL 解析、抽取、去重,URL 过滤,URL 队列操作,下载内容保存等.通常在爬虫体系结构设计中将上述每个操作设计成独立的模块,因此系统中的统一爬虫体系结构如图2 所示.

其中,网页下载器的功能是:

解析HTTP以及其他网络协议,下载互联网页面;

网页内容去重器,通过算法判断下载到的互联网中页面是否重复;

链接抽取器可以解析下载到的网页中的URL;

URL 去重器可以判断URL 是否已被爬虫访问;

URL 队列告诉爬虫接下来应该爬行的队列.

笔者使用了循环数组来实现URL 队列,第一,循环数组符合爬虫下载先进先出的规则,并且数组的内存空间是一定的,当URL 保持增长的情况下,URL 队列的内存空间不变化.第二,实现了增量爬虫的断电回复机制,主要是采用了内外缓存系统加上定时恢复.

2 增量式网络爬虫

爬虫本质上是一种综合性的网页下载应用程序,设计中的最终目的都是有效和高效地下载有价值网页,涉及的技术面较广[1].随着网络资源的“爆炸性”增长,传统的对整个互联网信息进行抓取的网络爬虫已经不能满足专项信息检索工作,笔者将重点研究如何提高网络爬虫抓取页面的效率.

2.1 增量爬虫设计的问题

面对专项领域中网络URL 不变,而其中信息变更的情况,笔者将使用增量爬行技术.然而专项领域增量爬行技术实现存在以下的挑战[2,3].

(1)多次爬行:传统的下载器对每个独立的URL 只下载一次,而增量爬虫则根据需求对每个链接爬行多次.面对海量的链接如何选择合适的重爬时间是本研究遇到的挑战之一.

(2)爬行内容:当前千亿级别的网页使得网络下载器的全网爬行成本过高.本系统目的是在较短的时间内获取最新的、及时的专项网页.如何有选择地下载、存储到专项相关的信息是系统遇到的第二个挑战.

(3)礼貌爬行:下载器应该做到识别网络服务器规定的下载规则,尽可能的降低对目标服务器载荷的压力.

2.2 提升增量爬虫性能的方法

之前的研究者主要从网络带宽和网络访问量的大小去衡量增量爬虫的性能,从爬虫的下载策略去提升爬虫的工作性能.而笔者将优化爬虫的下载模块,提出新的基于网页更新频率预测的下载策略.

(1)网页更新检测方法

如何判断一个网页中的信息是否已经更新是所要面临的第一个问题.传统判断一个网页内容是否更新的方法是比较两个时间节点上网页HTML源码字符串的哈希值是否一致[4,5].集中常见的哈希算法包括:加法Hash、位运算Hash、乘法Hash、除法Hash、查表Hash、混合Hash 等.MD5 算法以其对字符串变化的敏感性被许多增量爬虫所采用.哈希法的特点是计算方式简单、运算复杂度低,非常适合对用户体验度要求较高的网络应用.但是哈希法也有其劣势.它对于内容字符串变化非常敏感.比如使用MD5 算法时,只要有一个字符不同,两个网页字符串哈希结果就会差距很大.而在现实的网络中,网页内容编码常常出现符号不同而内容相似的情况.比如说网页HTML code 中增加了一个空的“<div>”标签,或者网页中文本字体大小的变化.实际上,增加一些视觉标签或者格式字符,对于在网上冲浪的用户来说没事任何实质上的影响.再者,在网页中修改页面中的导航条或者广告块,也不会干扰冲浪者的阅读体验.所以说WEB 上的网页的内容更新具有局部化的特征,这主要是因为网页是半结构化的,一般网页的内容都放置在页面的正中间.衡量网络页面内容变化的主要指标是网页中间文本的变化.

表1 显示了许多国内外研究者对网页文本变化方式的定义.

将表1 中网页内容的变化转化成多维向量中各个分量值的变化.例如将文本块大小、图片个数、链接个数变化数量映射为多维向量.将网页的内容变化度投影到向量空间中,并使用欧式距离、Cosin 距离等方法,判断网页向量之间的相似度.

近来还有一些研究通过抽取网页中文本块来判断网页内容的重复性.Shingling 模式将网页中所有文本抽取出来,并将所有文本字符串都小写,然后通过查找两个文档中相同的n 个字符序列的个数来衡量网页的重复性.但是Shingling 模式的运行效率与n 的大小相关,太小的n 值是的算法精度不高,太大的n 是的算法执行太慢.

(2)增量爬虫的网页更新频率预测算法

本小节主要研究系统中的增量爬虫如何重爬网络页面.我们采取的思路是设置爬虫的重爬策略.在重爬策略中,科学家采用的类型大致分为3种:基于网页变化的方法、基于网页重要性的方法,以及基于信息生存周期的方法[6-10].

笔者采取了基于网页变化频率的爬行技术[11,12].该技术主要是假设网页内容更新符合泊松分布.通过对泊松分布参数的拟合来解决增量爬虫该何时去访问、下载网页.

对于一个URL 笔者使用X(t)来表示从特定时刻0 开始到t 时刻其网页内容的变化次数.网页变化频率为λ.同时假设互联网上的所有专项网页都是符合泊松过程的特点,即所有网页是独立同分布的.因此根据泊松分布的定义[13],可以得到公式(1).

图3 给出了算法模型的伪代码.在实现增量爬虫的过程中为了显示本文算法的优越性,在相等时间间隔内去计算估计网页更新频率的准确率,并与同类型算法进行了对比,在一个等时间间隔时刻监测专项网页发生变化的概率.

3 面向专项领域增量爬虫实验分析

在本小节中我们设计使用数据集来验证增量爬行策略的实际性能.由于食品安全网页更新预测没有标准的数据集,因此本实验将指定选取若干的相关站点(中国食品安全网、食品伙伴网等)以及若干新闻网站(网易、新浪)作为增量爬虫的初始链接种子来对网页数据进行抓取,监控的网站如表2所示.

经过一段时间的爬行我们在上述6 个网站中爬行到300000 条URL,并选择其中162398 条URL 进行追踪,记录网页变化情况,并根据变化工程进行算法分析.

3.1 对试验数据集的分析

监测增量爬虫运行性能指标有3 种:更新率、网页新鲜度与网页年龄、差别度(Divergence)[17-21].更新率是指系统检测到更新的网页数量占全部下载的网页数量的百分比.例如,有2000 个页面被下载到本地,其中1200 个网页被检测到更新,那么更新率为0.6(60%).网页的更新率公式优化为:

从上表3 可以看出新闻类网站信息比较丰富,绝大部分网页都在0.9-1.0 的变化率区间出现.国家专项网等网站,网页变化率较低,其最大的变化率出现在区间0.0~0.1 之间.

3.2 增量爬虫实验分析

通过分析文献发现目前针对网页更新预测的评价标准并没有国际标准,我们将参考传统的数据挖掘研究中,经常用来评价算法的查准率、查全率、F-measure[22-24].笔者将修改以上3 个指标,以便适合专项信息网页更新预测算法.我们将评价标准定义为准确度、命中度和覆盖率.

(1)准确度:实验中的准确度为正确预测专项网页更新次数与数据集汇总所有网页变化的次数之比:

通过表4 中的结果可以看出,基于泊松分布网页更新预测算法效果良好,在国家食品完全网站上的准确率、命中率、覆盖率都最高达90%以上.但是笔者的预测算法在新闻网站上的性能却最差,原因可能是新闻网站包含了许多不是专项领域的网页内容.

4 增量爬虫模块的设计与实现

增量爬虫模块的输入是专项领域种子库,输出是对于页面的HTML 源代码文件.首先,爬虫系统从数据库获取种子信息,这些种子信息包含了目标论坛的入口URL,以及指导爬虫的一些信息.爬虫系统获取种子信息后,便开始下载种子对应的主题列表页面,然后根据URL 抽取器抽取出主题的URL,并存放到内存队列中.为了使下载的时候各个内存队列能够满足负载均衡,因此必须有URL 队列管理来处理这个过程.当内存队列中有内容的时候,多线程下载器开始工作,通过发送HTTP 请求,将URL 指定的目标页面的源代码下载下来.

下面本文以Sina 为例展示本文增量爬虫的设置过程.

(1)增加种子.按“增加”按钮可以增加种子,本文输入一个种子http://www.sina.com.cn,种子类型为“域名”,优先级可以选择1-10 不同等级,此处选择默认5 级,后面都默认选择(因为此网站不需要登录,用户名和).同理增加种子http://www.163.com,此处选择优先级为10 级(最高级).

(2)导入种子.可以按“导入种子”导入已经存储的种子,选择导入种子为http://www.sina.com.cn,优先级为1 级(最低级).

(3)导出种子.按“导出全部种子”可以导出全部种子,此处本文选择导出全部种子,保存为test.xls,如图5 所示.

图5 增量爬虫系统设置种子

通过选中种子,可以对种子进行操作.

(4)下载参数

此处最大下载速度选择50KB/S,当下载速度大于50KB/S 时,系统会自动降低下载速度,在后台可以看到相应的提示信息.最大单个下载文件大小选择50KB,这项参数限定了下载的网页不可能大于50KB,可以从在下载页面中验证.

DNS 设置保持默认即可,使用者也可以根据自己的网络进行修改.

*服务器设置:可以通过设置*访问本文网络不能访问的网页,需要设置*服务器地址、端口号,对于特别的*服务器还要输入*服务器用户和,如图6 所示.

(5)爬寻范围

①扫描引擎.本系统有两种搜索引擎Dfa 和Irs,可以选择一种或多种扫描引擎,也可以不选择,此案例中选择默认方式即不另外选择扫描引擎.

②爬寻层数限定.此参数是选择扫描搜索能够搜索到达的层数,使用者可以根据需要选择设定自己的层数(种子层是0 层),此案例中选择4 层,即搜索到的网页最深不能超过4 层,也可以在result 数据库中t_result_file 表中Layor 数据项中查看,最大数不超过4,如图7 所示.

③IP 过滤.通过此项设置,可以设置需要爬寻的范围内必须包括或排除的IP 或IP 段,所以爬寻的时候在此范围内的IP 将不会爬寻,也可以在result数据库中查询验证,如图8 所示.

④站点过滤.此项可以设置需要爬寻的扩展域名,可以根据自己的需求设定爬寻范围,本案例的设置如图9 所示.

即爬寻的网页不会包含http://auto.sina.com.cn的站点.经过这些设置本系统正能量爬虫就可以在服务器上24 小时不停地运行,源源不断地为搜索平台提供原始数据.

5 结语

对于研究型大学图书馆来说,建立面向学科的专题性搜索引擎是深层次信息服务的基石,网页更新频率预测技术解决了增量爬虫何时增量爬行的关键问题,为后续建立其他学科的专题信息搜索引擎打下了基础,具有一定的现实意义.另一方面,本算法需要在未来进一步深入和扩展的方向有:(1)目前泊松分布的网页更新预测算法是基于所有网页的更新变化,是在对等时间间隔内的假设基础上.如何对随机时间事件的预测性扩展到连续区间是值得深入研究的方向.(2)在网页实际变化率为0.4~0.6 的范围内时,基于泊分布的网页更新预测算法的预测效果较差.因此如何提高在这个变化率区间中网页变化预测的效果,需要进一步研究.

参考文献:

[1] Kang C, DOM-based Web Pages to Determinethe Structure of the Similarity Algorithm[C]. In?telligent Information Technology Application,2009. IITA 2009. Third International Sympo?sium, 2009(2):245-248.

[2] Liu R, Xiong R, Gao K, Web Object Block Min?ing Based on Tag Similarity[C]. 2012 Internation?al Conference on Intelligent Computation Tech?nology and Automation (ICICTA),2012(3):1159-1162.

[3] Reis D C, Golgher P B, Silva A S, et al. Automat?ic Web News Extraction Using Tree Edit Distance[C]. Proceedings of the 13th international confer?ence on World Wide Web, 2004:502-511.

[4] Kim Y, Park J, Kim T, et al, Web Information Ex?traction by HTML Tree Edit Distance Matching[C]. Proceedings of the 2007 International Confer?ence on Convergence Information Technology,2012:2455-2460.

[5] Zhai Y H, Liu B. Web Data Extraction Based onPartial Tree Alignment[C]. Proceedings of the 14th International Conference on World WideWeb, 2005:76-85.

[6] Cai D, Yu S, Wen J R, et al. Vips: a VisionBased Page Segmentation Algorithm[R]. Micro?soft Technical Report. MSR- TR- 2003- 79,2003:10.

[7] Cai D, Yu S, Wen J R, et al. Extracting ContentStructure for Web Pages based on Visual Repre?sentation[C]. Proceedings of the 5th Asia-Pacificweb conference on Web technologies and appli?cations, 2003:406-417.

[8] Yu S, Cai D, Wen J R, et al. Improving Pseudo-Relevance Feedback In Web Information Retriev?al Using Web Page Segmentation[C]. Proceed?ings of the 12th International Conference onWorld Wide Web, 2003:11-18.

[9] Mehta R R, Mitra P, Karnick H, Extracting Se?mantic Structure of Web Documents Using Con?tent and Visual Information[C]. Special InterestTracks and Posters of the 14th International Con?ference on World Wide Web, 2005:928-929.

[10] Liu W, Yan H L, Yang J W, et al. A Unified Ap?proach for Extracting Multiple News Attributerom News Pages[C]. Proceedings of the 11th Pa?cific Rim International Conference on Trends inArtificial Intelligence, 2010:157-169.

[11] Liu W, Yan H L, Xiao J G, et al. Extracting mul?tiple news attributes based on visual features[J].Journal of Intelligent Information Systems, 2012(2):465-486.

[12] Wang J F, Chen C, Wang C, et al. Can WeLearn a Template- Independent Wrapper forNews Article Extraction from a Single TrainingSite[C]. Proceedings of the 15th ACM SIGKDDInternational Conference on Knowledge Discov?ery and Data Mining, 2009:1345-1353.

[13] Luo P, Fan J, Liu S, et al. Web Article Extrac?tion for Web Printing: a DOM+Visual based Ap?proach[C]. Proceedings of the 9th ACM Sympo?sium on Document Engineering, 2009:66-69.

[14] Flesca S, Manco G, Masciari E, et al. WebWrapper Induction: a brief survey[J]. AI Com?mun, 2012(2):57-61.

[15] Sahuguet A, Azant F. Building LightweightWrappers for Legacy Web Data-sources UsingW4F[C]. VLDB ´99 Proceedings of the 25th In?ternational Conference on Very Large Data Bas?es, 1999:738-741.

[16] Crescenzi V, Mecca G, Merialdo P. RoadRun?ner: Towards Automatic Data Extraction fromLarge Web Sites[C]. Proceedings of the 27th In?ternational Conference on Very Large Data Bas?es, 2001:109-118.

[17] Zhang C, Lin Z. Automatic Web News ContentExtraction Based on Similar Pages[C]. Proceed?ings of the 2010 International Conference onWeb Information Systems and Mining, 2012(1):232-236.

[18] Yan H, Yang J. A Very Efficient Approach toNews Title and Content Extraction on the Web[C]. Proceedings of the 11th Annual Internation?al ACM/IEEE Joint Conference on Digital Li?braries, 2011:389-390.

[19] Fan J, Luo P, Lim S H, et al. Article Clipper: ASystem for Web Article Extraction[C].Proceed?ings of the 17th ACM SIGKDD InternationalConference on Knowledge Discovery and DataMining, 2011:743-746.

[20] Xia Y, Zhang S, Yu H. Web Wrapper Genera?tion Using Tree Alignment and Traner Learn?ing[C]. software Engineering and Data Mining,2010:410-415.

[21] Guo Y, Tang H, Song L, et al. ECON: An Ap?proach to Extract Content from Web News Page[C]. Web Conference(APWEB), 2010:314-320.

[22] Thanadechteemapat W, Fung C C. AutomaticWeb Content Extraction For Generating TagClouds from Thai Web Sites [C]. In proceedingof IEEE 8th International Conference on EBusinessEngineering, 2011:85-89.

[23] Dalvi N, Kumar R, Soliman M. Automatic Wrap?pers for Large Scale Web Extraction[J]. Proceed?ings of the VLDB Endowment, 2011(4):219-230.

[24] Cardoso E, Jabour L, Laber E. An Efficient Lan?guage-Independent Method to Extract Contentfrom News Webpages[C]. In Proceeding of Pro?ceedings of the 2011 ACM Symposium on Docu?ment Engineering, 2011:121-127.

王寒冰女,1981年生.硕士,馆员.研究方向:图书馆网络信息技术及服务.

(收稿日期:2017-03-01;责编:姚雪梅.)

本文总结:上述文章是一篇关于经典大学图书馆专业范文可作为搜索引擎和大学图书馆和关键技术方面的大学硕士与本科毕业论文大学图书馆论文开题报告范文和职称论文论文写作参考文献.

农业院校的特色馆藏和服务模式以山西农业大学图书馆为例
摘要我国是农业大国,我国农业是大国农业,随着农业信息技术的发展和知识更新速度的加快,对信息的需求不断增强,文章以山西农业大学图书馆为例综述了图书馆在资源、环境、人才、技术……方面具有的得天独厚的优势和.

RFID技术对高校图书馆流通服务的影响分析即应对方法
【摘要】 随着RFID 技术的日益成熟和逐年降低,其应用日益广泛,如在图书馆领域,很多高校图书馆通过RFID 技术提高了服务效率 但对于流通部来说,RFID 技术引入的同时,又带来了新的问题,即岗位设.

渭南地区设施葡萄促早栽培优质高效生产关键技术
摘 要陕西渭南地区设施葡萄种植面积发展迅速,优质、高效的设施葡萄生产管理技术是渭南设施葡萄产业健康发展的必然要求 本文从设施建造、品种选择、休眠期管理、光照调控、温湿度调控、病虫害防治……方面对设施葡.

食品质量安全可追溯关键技术
李晟张家口市食品药品监督管理局稽查局食 品质量安全可追溯关键技术的研发对 于大众来说有重要意义,可以有效保 证食物的来源和安全问题,对于有安全问题的 食品能够快速定位,保证问题食物都能召回并 .

论文大全