基于Nutch的农业垂直搜索引擎研究【澳门威斯尼斯wns888入口】

点击量：448 时间：2023-12-13

本文摘要：使用基于中文词典的相反仅次于给定中文分词方法的JE分词改良Nutch中文分词，使其反对中文分词。

使用基于中文词典的相反仅次于给定中文分词方法的JE分词改良Nutch中文分词，使其反对中文分词。最后，使用PAGERANK排序算法改良Nutch原先的基于Lucene的页面排序算法。

目前，“专、精、浅”的横向搜索引擎、智能化语义简化的搜索引擎沦为人们研究的热点。在理解和分析Nutch工作原理的基础上对Nutch开源搜索引擎展开拓展和改动来研发基于Nutch的农业横向搜索引擎。

在基于Nutch的农业横向搜索引擎研究的基础上融合项目背景市场需求，设计并构建了该系统管理平台。第一章，绪论部分。主要阐释了本论文研究的目的、意义及本文要解决问题的问题、国内和国外的研究状况、核心研究内容以及本文章的的组织结构。主要阐述系统结构以及研发过程牵涉到到的关键技术，最后对其展开测试和分析。

总结论文的主要工作和不存在的缺失之处，并对以后的研究工作展开了未来发展。本章阐释了本论文研究的目的及意义，阐述了国内和国外的研究状况，得出论文核心研究内容及文章的的组织结构。

横向搜索引擎是专门面向于一个特定行业、特定领域、特定人群而产生的工具，因此，横向搜索引擎也称作专业搜索引擎、专题搜索引擎或是主题搜索引擎，是标准化搜索引擎更加粗的区分和拓展（王文钧和李巍2010；李晓明等2007）。它不仅不具备“专、精、浅”的特点，而且在这一领域具备典型的领域特色。

明确而言，横向搜索引擎就是把Web信息资源中的某类学科信息以定向分字段地形式提取出所须要的数据，将要非结构化的网页数据提取成一定的结构化的网页数据的过程，然后对数据展开去轻、分类、分词、索引等处置，最后再行以查找的方式来超过用户的信息市场需求。横向搜索引擎和标准化搜索引擎的产生其目的是完全相同的，都是协助广大用户搜寻信息的涉及工具，但其信息的服务形式有相当大变化，横向搜索引擎更加侧重信息的“专、精、浅”。由图2-1由此可知，横向搜索引擎的基本工作原理是：首先网络蜘蛛根据初始URL收集互联网上的网页；其次对收集到的网页展开处置，通过分析网页萃取出有网页中的内容和网页中不存在的URL链接，并对网页中的内容和网页中的URL链接展开过滤器，把与主题涉及的页面现金网页数据库，同时把网页中的URL链接重新加入URL数据库，等候网络蜘蛛更进一步爬取；最后根据网页数据库创建索引，将该索引留存到索引库。

此外，用户通过用户模块展开检索催促，检索器根据用户输出的条件到索引库展开检索，其结果被展开一定的有效地的组织后回到给检索用户（周鹏等2009）。因此，下面主要讲解网页库级的横向搜索引擎研发过程中中用的主要技术，其主要技术主要还包括：信息采集技术、网页信息提取技术、信息处理技术、分词技术、索引技术等。横向搜索引擎的信息提取是把非结构化的网页数据根据特定的市场需求提取成结构化网页数据，获取专业的查找服务，这也是横向搜索引擎与标准化搜索引擎之间的仅次于不同之处，因此，取决于横向搜索引擎优劣的一个核心技术指标就是信息提取技术。

目前，信息提取技术的方式多种多样，主要有基于纸盒器的信息提取方式、基于自然语言的提取方式、基于HTML网页结构的提取方式（郭来德等2007）。横向搜索引擎的网页信息过滤器技术要求着该搜索引擎的专业性，网页信息过滤器就是指通过分析网页内容及结构，保有与主题涉及的网页，而弃置与主题不相关的网页。目前，主要的网页信息过滤器技术有基于布尔模型的网页信息过滤器方法、基于VSM的网页信息过滤器方法、基于潜在语义模型的网页信息过滤器方法等（罗德一2007）。

VSM是被上世纪60年代的Salton等人明确提出用作传达特征的模型，SMART（文本检索系统）是它的典型应用于。中文分词即中文切词，是所指将汉字序列拆分成代表一定含义的词。基于字符串给定的机器中文分词算法、基于词频统计资料的中文分词算法以及基于科学知识解读的中文分词算法（李东和张湘辉2006）。

基于字符串给定的机器中文分词算法也称作词典中文分词算法、机械中文分词算法，它是依据一定的方法把所要分词的汉字串同词典来已完成词条给定，如果在该词典中需要找到该字符串，则回应重复出有一个汉字串。如相反、逆向、最久、大于最短等给定算法，一般来说情况都是将以上各种形式的分词方法互相人组用于。

常用的几种互相人组的分词方法主要是：相反仅次于、逆向仅次于、双向等给定算法以及最多重复算法；基于科学知识解读的中文分词方法是力求使计算机需要不具备人类分析句子的能力，从而需要辨识出有词。它主要由总控部分、句法语义子系统、分词子系统这三部分包含，通过总控部分来调停语义子系统、分词子系统展开歧义分词的判断。

目前，索引技术主要分成四类，分别是线性索引、倒排索引、静态索引、动态索引。倒排索引是指按照属性的值来检索文件记录，它的索引表中的给定一项是由属性值和对应的记录的地址包含，因此它是用属性值来证实记录的方位，而不是用记录证实属性值；动态索引和静态索引在索引结构的分解上类似于，唯一有所不同的是索引结构的转变有所不同，动态索引是在系统展开放入或移除记录时其索引结构需要转变。

Nutch的两个核心部分分别是：crawler（即爬虫）、searcher（即查找）Crawler的核心是用作从Internet上爬所取网页到索引库的创建。Searcher的核心是根据用户的查找词到索引库展开检索来分解查找结果。首先是索引其文件格式比较应用于平台具备独立性；此外，Lucene的系统架构具备面向对象的特点，使其对它的自学深浅程度大大降低，也便利了拓展其他新功能。爬取部分主要是爬取网页信息并将网页信息展开偏移索引，搜寻部分是依据用户的搜寻催促展开偏移索引，并将其结果回到给用户。

将多个索引拆分为一个大的索引库，为用户搜寻时获取服务；根据用户查找条件，检索器将用户的查找切换为Lucene的查找查询索引库；现有的URL过滤器规则很多，有基于正则表达式的URL过滤器规则、有基于网页内容的URL过滤器规则等。本研究首先对样本数据使用聚类技术提供样本文件，其中样本数据是人工手动取得；分类是预先等价类别数目，在类别数目一定的情况下，手动展开对分类训练语料的标示，然后训练提供分类器。聚类是把数据对象展开归类，将相近度较小的数据对象不属于一类，不出同一个类中的数据对象相近度差距较为大，归属于无监督自学不道德，需要自动的区分数据集。k-means聚类算法需要输出聚类数量k，然后依据聚类个数k区分n个数据对象来符合聚类市场需求，聚为一类的数据对象有较高的相近度低，不出同一个类中的数据对象相近度有较为大的差异。

聚类相近度是搭配每一类中数据对象的平均值作为该类的“中心”展开计算出来相近度（李慧等2004；HearstMA1997）。它明确的归类流程是首先从所有数据对象n中随便挑选K个数据对象，作为K个类的首次聚类中心对象；其次，计算出来剩下数据对象与聚类中心对象的相近度（即距离），将最相近的不属于一类；然后新的计算出来每个类中数据对象的平均值（即该聚类中心对象）；最后仍然循环上述过程，当皆方差（常用的标准测度函数）发散于某一个值，暂停循环。

这样使k个聚类相互之间需要尽仅次于有可能的拆分，而和K个聚类自身需要尽仅次于有可能的挤满（毛国君和段丽娟2007）。分类是一种最重要的数据挖掘技术。分类是为了依据数据中对象的特征结构出有分类器（即分类模型）。

K最近邻分类算法也称之为KNN分类算法，它使用欧几里得计算出来距离的公式来计算出来两个样本间的间隔（即距离），如公式3-1右图。其中回应第i个样本对象的第k维向量特征，回应第j个训练对象的第k维向量特征，M回应向量特征的总维数，回应第i个和第j个对象间的相近度。

基于Nutch的农业横向搜索引擎是利用开源搜索引擎Nutch研发的，因此本研中中文分词也是十分关键的一个技术。Analysis包内的NutchAnalyzer定义了Nutch分析器，NutchAnalyzer承继了Analyzer，也是Nutch里对文本分析展开拓展的一个很好的拓展点。NutchAnalyzer类是Nutch中配置文件的字符串分词和分析检索模块，它是通过JavaCC来编译器NutchAnalysis.jj文件分解的代码，其中NutchAnalysis.jj文件是分解代码的规则文件。

其次将其与词典展开给定，如果给定告终则去除Ｗ最右边的这个字符，之后给定，否则给定顺利，从左起去除S1的前M个字符，将给定顺利的词新增到字符串S2；接着大大循环前面的操作者，直到字符串S1为空为止；最后输入切词结果S2。对于一个面向中文的搜索引擎来讲，只有在捕捉信息和检索信息时用于一样的中文分词算法，目前，本体库的建构针对自身的应用领域有有所不同的建构策略，但其建构过程都遵循一定的规律性。

传统基于关键词的VSM主题相关性判断是通过解析网页，萃取出有网页内容，然后融合关键词统计资料网页词频来辨别网页的相关度。解析网页前，再行提供特征词子集和向量特征，其中回应特征词所对应的权值。下面对改良中用的涉及算法和改良的明确过程展开分析。

tf(t_in_d)：回应查找词（t）在网页（d）中总共经常出现的次数，查找词（t）在网页（d）中经常出现的成倍越高，网页（d）的分数就越高。若网页中包括查找词的个数就越多，则其网页分数越高；其缺点为：该算法精确度较低，网页的权威性不需要几乎反映。它的基本思想是“如果网页就是指许多质量低的网页中链接获得该网页，那么该网页一定还是质量低的网页”。

（5）d：回应阻尼系数，d的给定为0到1，一般来说给定是0.85。PageRank算法有一个特点就是PageRank值之和与网页的总数大于，可以通过下面图3-6展开解释。

网页的向分析回应是指萃取页面中不存在的特征词，并计算出来其权值。首先对包括标记的网页展开切词处置，去除停车用词；搜索引擎对于用户来说是用来展开信息搜寻的工具，用户展开信息搜寻通过搜索引擎对用户对外开放的用户检索模块来展开。

由图3-7可以看见基于Nutch的农业横向搜索引擎用户检索模块不仅获取用户检索的基本功能，即用户输出搜索词，通过查找词到索引库展开检索，将检索结果按照上小节阐释的改良策略展开排序，将排序结果回到给搜寻用户；传统取决于搜索引擎优劣的指标是查全率、查准率，查全率是搜寻出有的网页数与网页库中总的涉及网页数的比值；一般来讲，当查全率低的情况下，查准率就较低，而当查准率低的情况下，查全率就比较较低。关键词结果总数挑选数涉及数非涉及数主题涉及亲率其中n为网页的总个数，A(i)为网页的质量等级，B(i)为网页与检索词的相关度。其中A(i)给定如下右图：其中N为检索关键词的个数，n为网页的个数（即60），为与用户市场需求有关的网页个数。

本章主要针对系统市场需求、体系结构以及系统功能展开阐释，最后展开系统的测试和评价。B/S、C/S模式检索模块归属于有所不同平台下完全相同搜索引擎模块，用户从该模块展开搜寻，输出搜索词，并对其搜索词展开中文分词融合农业领域本体库展开查找拓展，最后转入索引库展开检索，将其结果按一定排序策略排序后呈现出给用户。性能测试是一种用测试工具展开模拟系统的长时间、出现异常以及峰值等条件来展开系统测试。常用的压力测试方法是阻抗测试、压力测试。

阻抗测试是用来测试系统工作在各种条件下的性能情况。压力测试是测试系统的极值（即瓶颈），以此来确认系统需要长时间工作的无限大。目前性能测试工具十分多，本实验搭配QALoad这种工具展开压力测试。经测试本系统管理平台性能较好。

除此之外，还需要便利用户展开农业涉及信息的搜寻。（2）Nutch中文分词的改良。

使用基于中文词典的相反仅次于给定中文分词方法的JE分词改良Nutch中文分词，符合基于Nutch的农业横向搜索引擎中文分词的拒绝。系统管理平台。

本文关键词：澳门威斯尼斯wns888入口

本文来源：澳门威斯尼斯wns888入口-www.tangxiaoran.com