搜索引擎技术核心技术

搜索引擎技术核心技术: 核心; 搜索引擎起源于传统的信息全文检索理论。它包括3个主要过程： 1)搜集Web信息：发现、搜集Web上的网页信息。需要有高性能的搜集器自动的在Web中搜索信息。Web信息搜集器是下载Web上网页的程序。它顺着网页之间的链接移动，自动地下载所经过的网页。给定起始URL集合S，Web搜集器不停的从S中移除URL，下载相应的网页，解析出网页中的超链接URL，将未访问过的URL加入集合S。Web搜集器也称作Web机器人或Web 蜘蛛。搜集器把所获得的信息保存下来以备建立索引库，供用户检索。 2)索引库的建立：对搜集到的Web信息提取和组织，建立索引库。这关系到用户能否迅速地找到准确、广泛的信息。对搜集器抓来的网页信息快速地建立索引，通常采用倒排表技术。如果在建立索引库的过程中对用户在检索端搜索的查询串进行跟踪，并对查询频率高的查询串建立Cache，可以在检索端请求时，加快索引库的响应速度。 3)检索端的查询：根据用户输入的查询字串，在索引库中快速检索出。采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价，客观地对检索出的网页进行排序，从而尽量保证搜索出的结果与用户的查询串相一致。然后将输出的结果返回给用户。为了加快检索端的响应速度，可以根据最近用户查询信息建立检索端Cache。针对你的问题：看来你是没有建索引文件，关键词来了现到数据库匹配，当然慢。索引文件是不需要数据库保存的，利用倒排表建好每个词的索引网页，查询的时候几乎是一下命中，当然在秒级下完成了。