基于lucene的垂直搜索引擎的研究与设计论文
摘要:随着互联网技术的不断发展,通用搜索引擎就须要采集的更多的信息和内容,并且面对巨大的搜索结果,用户要想确切找到她们所须要的信息,这样将会花费很大的精力。为此,须要以数据的特定领域为重点,全面进行深入的研究,重视专业化的垂直搜索引擎就形成了,它就能确切、及时返回用户须要的信息。本文主要剖析垂直搜索引擎的特性和结构,并剖析了基于Lucene的垂直引擎的研究和设计,对提升互联网信息的搜索速率具效率具有重要的意义。
随着互联网的急速发展,互联网信息迅猛下降,人们早已习惯从互联网上获取她们所需的信息。但是,一些通用搜索引擎未能及时确切地反馈给人们须要的信息,不能否做到有针对性的搜索一些信息,难以满足人们的基本需求。在进行搜索的过程中,想搜索一件物品,系统将会提供给你好多的搜索结果。并且,这种搜索引擎返回结果中有大量排在后面的信息可能不是我们须要的,这样才会让人觉得烦躁,得不到自己想要的信息。并且,60%的搜索引擎没有机会收录一些有价值的的信息,须要用户进行注册才才能得到一些更有价值的信息。基于lucene的垂直搜索引擎,就能及时、准确给用户反馈出她们须要的信息。
1垂直搜索引擎的概述
垂直搜索引擎才能在一些专业领域得到广泛的应用,为用户提供愈发方便的搜索服务。垂直搜索引擎才能在某一特定领域内启动一些网路爬虫,在进行网页下载的时侯,才能找到和本地网页库中相关的信息,之后对这种信息进行处理,将一些数据转化为结构化数据,最后反馈给用户的搜索入口。垂直搜索才能有针对性进行搜索,才能依据用户的具体要求进行搜索和检查,为她们提供具有极其鲜明特色的搜索服务,这些搜索引擎一个特别突出的特征就是深入、详细。因为通用搜索引擎搜索的范围非常广泛,因而,它不能满足细致的搜索工作,不能否将确切的信息反馈给须要的特定人群[2]。按照市场需求的多元化,搜索引擎必须进行细分,给人们提供确切的搜索服务。
2垂直搜索引擎的特征和框架结构设计
2.1垂直搜索的特征垂直搜索引擎才能有针对性进行搜索,才能确切提供给人们须要的信息。通用的搜索引擎愈发重视数据分离和关键词搜索,垂直搜索更多重视文本的分离,对数据信息进行处理,致使数据才能满足人们的'需求,通用的搜索引擎就不须要考虑数据结构。因为相关信息垂直搜索引擎只须要捕捉到一些某个特定的行业,这样的信息采集方法的使用只须要爬虫找题相关信息,垂直搜索引擎具有以下特性。一是垂直搜索引擎的爬虫具有订制性,才能深入抓取特定行业的一些信息。二是垂直搜索引擎是针对行业的特性来进行抓取信息的,以网站的数据为例,各类人才网数据源的来始于求职的网站,从股票网站中搜索到相关的信息。三是垂直搜索引擎更倾向于捉住一些结构化数据和元数据,比如,在找寻一所房屋的过程中,其才能捕捉到相关的地理位置、价格、小区环境、房地产价位等一些系统的信息[3]。
2.2垂直搜索引擎的框架设计垂直搜索引擎的建设须要做好以下几个方面的工作。一是网站剖析。追捕器须要设置所需的网站信息,而且还要结合特定的行业模板进行追捕工作。二是站点初始化剖析。一些网站须要用户登入之后才才能获得详尽信息,为此,有必要在垂直搜索引擎中,设置这个注册和登陆过程,这样才才能建立详尽的信息。三是页面爬虫。网路爬虫主要负责抓取一些web数据。四是数据剖析。剖析有用的链接和数据,而且借助爬虫来提取这种新的数据。五是构建索引。将爬虫抓取到的信息进行整理和剖析,将这种信息进行选择并储存在数据库中当中,并结合数据库来构建索引,便于就能快速获取信息。六是搜索查询。设计一个个性化的应用程序,或融合一些其他网站,才能搜索到其他网站的一些信息。
3基于Lucene的垂直引擎的设计
3.1lucene全文搜索框架Lucene是一个子项目,才能有效借助开放源代码来对全文的搜索,它还能给开发人员提供了大量的外部插口,这是一个便于使用的工具。在垂直搜索引擎的部件当中,构建基于Lucene的索引和查询,用户只须要根据该方式来进行操作,就能否实现对全文进行检索。由于Lucene是开源的,具有面向全体对象的特性,程序员还能否在此基础
【基于lucene的垂直搜索引擎的研究与设计论文】相关文章:
垂直绿化的设计研究论文11-04
垂直搜索引擎核心技术研究及展望论文11-07
基于手持设备的智能球研究与设计论文11-02
关于搜索引擎的研究论文11-04
基于严寒地区公共空间设计方式研究论文11-01
基于无障碍设计理念的扶梯设计讨论与研究论文10-29
基于语义技术的搜索引擎平台搭建的可行性研究论文10-26
基于环境科学优化城市景区的设计研究论文04-14
基于校园饭堂旧式餐具改建升级的设计研究论文11-02