Web地图服务搜索引擎的工作原理和体系结构-泰伯网

Web地图服务搜索引擎的工作原理和体系结构

中国电子商务研究中心 2009-12-29 10:30

本文主要从Web地图服务搜索引擎的工作步骤以及主要工作流程方面阐述了其工作的原理以及体系结构。

　　OGC WMS规范定义了三个接口，分别是GetCapabilities、GetMap和GetFeatureInfo。其中前两个接口是必须实现的。GetCapabilities接口用来获取服务器元数据，它是计算机和人都可以理解的、关于WMS的信息内容和可以接受的请求参数的描述。当向一个WMS服务器发送GetCapabilities请求时，返回服务级元数据的XML文档，是对服务信息内容和可接受请求参数的一种描述。这些文档是根据Web地图服务规范所规定的DTD的格式编写的，同时，文档中各图层都是以相同的方式进行描述的。这样，我们就可以对服务器返回的信息做统一的处理。

　　基于上述分析，在理论上，我们可以让一个高效的网络蜘蛛程序对互联网中所有的URL发送GetCapabilities请求。通过对响应信息的分析来判断对方是否是符合OGC WMS规范的网络地图服务器。这样，我们就可以提取出整个互联网中几乎所有的WMS服务器信息。Web地图服务搜索引擎主要有如下两个步骤：

　　(1)从互联网上发现、搜集有用URL信息，利用高性能的Spider程序去自动地在互联网中搜索信息。“网络蜘蛛”工作的方式，是查看一个页面，并从中提取出相关URL详细，然后它再从该页面的所有URL中出发，爬行到相关页面，重复这过程，直到把爬过的所有URL信息都收集回来。

　　(2)对收集回来的所有URL地址都发送一个符合GetCapabilities规范的HTTP请求，收集所有的请求响应文档。对响应文档进行解析，再以结构化的形式将其存储到本地数据库中供用户检索。

　　上面简述了Web地图服务搜索引擎的工作原理，从这里不难看出Web地图服务搜索引擎的基本构成是URL搜索器(Web Spider)、WMS响应文档解析与存储器和用于结构化存储WMS服务器元数据信息的Capabilities数据库。Web地图服务搜索引擎体系结构如图3-1所示。

泰伯网

　　图3-1 Web地图服务搜索引擎体系结构图

　　URL搜索器主要负责从互联网中搜索到所有可以搜索到的URL链接地址，并将其储存到临时数据库中。URL搜索器主要以一个网络蜘蛛为基础，周期性的对整个互联网进行全面的爬行。

　　WMS响应文档解析与存储器主要负责对临时数据库中的URL发送符合GetCapabilities规范的HTTP请求，判断出有效的WMS链接，再对WMS响应文档进行解析，并提取出相关的信息存储于Capabilities数据库中。

　　Capabilities数据库负责以结构化的形式储存和管理WMS原数据信息。

　　WEB地图服务搜索引擎的主要工作流程是：首先从网络蜘蛛开始，Spider程序每隔一定的时间自动启动并读取网页URL服务器上的URL列表，抓取各URL所指定的网页，解析出该网页中的URL地址，并将当前页上的所有超链接存入到URL服务器中。在进行网页抓取的同时，对当前URL地址发送GetCapabilities请求，再由WMS响应文档解析储存器对响应文档进行解析然后将解析结构以结构化的形式存入数据库。（李轩）

声明：泰伯网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，文章内容仅供参考。