当前位置:大学毕业论文> 硕士论文>材料浏览

检索方面有关本科论文开题报告范文 跟对XML文档检索结果的聚类算法相关毕业论文提纲范文

主题:检索论文写作 时间:2024-04-12

对XML文档检索结果的聚类算法,本文是检索类有关本科论文开题报告范文跟聚类算法和检索结果和文档类毕业论文提纲范文.

检索论文参考文献:

检索论文参考文献 毕业设计文档word文档论文格式聚类分析论文文献检索网站

邹元杰

本文从XML 检索结果聚类、XML 检索结果文档建模、XML 文档关键词相关度的计算方法、相似性度量和聚类算法的伪代码描述五方面来说明对XML文档检索结果进行聚类的设计思想.

一、 XML 检索结果聚类

基于XML 检索结果聚类的研究还不多见,但传统意义上的在一给定的信息空间中对XML 文档聚类的方法大体可分为以下两大类( 根据聚类时对XML 文档建模方法的不同) :基于树的表示的方法和基于向量表示的方法.前者将XML 文档建模为标签树,主要采用树的编辑距离作为相似性度量.该类方法的特点是只考虑了文档结构,没有考虑内容,且计算编辑距离的时间复杂度大;后者应用向量模型表示XML 的特征,往往将XML 文档的多个“粒度”层及它们间的关系一同考虑,形成一个二维矩阵或三维矩阵,没有将结构特征与内容特征分开表示.该类方法一个突出问题是产生的相似性矩阵是稀疏的.

二、XML 检索结果文档建模

在实现XML 文档聚类的算法中要用到文档之间的相似度,而在相似性度量的定义中,必须指出在哪些对象上进行度量评价,及这些对象间存在的关系.也就是如何对结果文档(片段)建模,即选取哪些特征、用什么方法来表示文档最本质的部分.XML 文档(片段)本质上是层次性的,可把它视为简单成分要素,诸如元素、属性、链接和扁平文本的组合.这些成分要素的层次性非常丰富:属性和文本包含在元素中;元素本身组织成路径和子树结构.

三、XML 文档关键词相关度的计算方法

在XML 文档d 中,影响关键词k 的权值wk(d) 的因素主要有两个:一是关键词在XML 文档不同树节点中出现的频率,XML 文档的关键词信息只包含在叶节点中;另一个是关键词在文档中出现的位置及位置权重.分析XML 文档的树形结构时,我们发现在XML 树中,通常不同树层越靠近根节点的层次中的叶节点关键词对XML 文档划分类别的影响越大,反之就越小.因此在对XML 聚类时除考虑文档结构本身的影响外,还应考虑文档关键词出现的位置、位置的相关度以及关键词出现的频率.

著名的tf-idf 语词加权方案为:

式(3-1) 中的tf 因子用于衡量关键词k 描述文档内容的好坏程度(如内部聚类(intra-cluster) 的相似度(similarity)),而idf 因子用于度量交叉聚类(inter-cluster)的相异度(dissimilarity) .

四、相似性度量

本文采用传统的Cosine 度量及其扩展来捕获两个XML 结果片段P 和Q 之间公共的标签路径、元素特征及关键词.两个片段P 和Q 之间的相似性包括三部分:标签路径相似性TPS(P, Q)、元素特征相似性TAGS(P, Q)和内容相似性CS(P, Q).三者计算公式如下:

五、聚类算法的伪代码描述

我们对经典的k-means 算法进行改进,使其适应检索结果聚类的需求.首先用最小最大原则选取初始聚点,聚类最终簇的数目根据相似度动态确定,并且还应该满足检索结果聚类应为软聚类的要求.具体如下:

输入:N 个待聚类的文档

输出:K 个簇,使得同一簇内文档之间相似度较大,不同簇的文档相似度较小.

Step1:

定义相似度阈值λ

定义合并簇阈值Merge_threshold

获取样本相似度矩阵,矩阵中保存任意两个文档之间的相似度,相似度采用公式计算.

Step2:

根据相似度阈值λ 过滤掉不相关的文档.如果文档α 与其它任何一篇文档β 的相似度sim(α ,β ) < λ ,则将α 过滤掉,以改善最终结果的精度.

Step3:

用最大最小原则的初值选取算法选取初始聚点.该算法要求预先输入聚点的个数,我们可以取初始聚点数M 等于 N (N 为待聚类的文档数)的整数部分.因为有

汇总,上述文章是关于对写作聚类算法和检索结果和文档论文范文与课题研究的大学硕士、检索本科毕业论文检索论文开题报告范文和相关文献综述及职称论文参考文献资料有帮助.

科室医疗管理文档标准化建设实践
【摘要】梳理科室医疗管理文档目录,分为一、二、,制定建设、使用和保管流程,定期整理,及时更新与完善,并持续改进,形成了标准化文档管理机制,提高了科室质量管理效能 【关键词】科室;医疗管理文档;标准化S.

按需管理让PDF文档适合自己
文牧马人伴随着平板电脑的日益普及,通过平板电脑随时随地访问PDF文档,正成为不少用户的一种阅读习惯 而PDF文档也凭借着原汁原味展示内容的特点,正出现在越来越多的应用场合下 然而,无论是自制的PDF文.

文档打印省钱学问大
文利文也许大家会认为,文档打印操作不就是打开文档编辑界面,执行打印命令这么简单嘛,这能有多大学问事实上,文档打印操作是一场需要长期消耗成本的持久战,是单位办公成本控制的重点 如果想有效节省文档打印耗材.

技术写作规范对技术文档翻译的指导作用
【摘 要】随着科学技术和全球化的迅猛发展,各大跨国大企业对包括产品说明书、技术说明书在内的技术文档的要求越来越严格,开始设立专门的technical writer职位负责技术文档的写作与管理,也与之.

论文大全