基于嵌套FSM的URL解析方法.pdf


文档分类:IT计算机
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:文档预览什么样,下载就是什么样。举报非法文档有奖

1/12
1/12
下载所得到的文件列表
基于嵌套FSM的URL解析方法.pdf
文档介绍
Evaluation Warning : The document was created with Spire.PDF .
中国科技论文在线 http://www.paper.edu.cn
基于嵌套 FSM 的 URL 解析方法
刘艳敏
北京邮电大学计算机学院,北京(100876)
摘 要:为了定位和查询互联网上的资源,很多 Web 技术都提供了 URL 解析方法,但这些
方法普遍存在着效率低、功能不齐全、容错性差等缺点。本文在详细分析 RFC 3986 - Uniform
Resource Identifier 对 URL 语法结构定义的基础上,利用 FSM 快速处理字符串的特性,提出
了一种新型的 URL 解析方法。并给出该方法的设计思想和具体实现。同时通过与现存方法
的比较以及对一系列 URL 解析结果的分析验证了本方法的可行有效。
关键词:URL 解析;URL 语法结构;嵌套 FSM

1 引言
随着 Web 技术的发展,互联网上的信息资源越来越庞大,逐步成为人们日常生活信息
的主要来源。近年来,为了满足用户各种各样的新需求,新型 Web 技术的研究进行的如火
如荼,如 Ajax 技术、JavaScript 技术等,这些技术的应用极大优化了用户的上网感受,成为
Web 技术专家的新宠。
尽管如此,Web 技术的最基本的原理仍是不变的。URL,即统一资源定位器,仍是描
述和定位浩瀚的网络资源的标识符。成功完成一次服务器客户端通信,必须对 URL 进行解
析,具体 URL 解析的概念在本文第二节会详细介绍。
很多 Web 开发技术都提供了自己的 URL 解析方法,比如 PHP、Java 等。PHP 作为一
种越来越被广泛应用的 Web 开发技术,提供了自己的 URL 解析函数,函数中裸扫描 URL
字符串,利用库函数确定分割字符的位置,以此逐步确定 URL 各个域。同样,Java 作为
Web 服务器端开发语言也有一套自己的 URL 解析方法。但这些算法普遍的问题是多次扫描
URL 字符串,效率低,资源消耗大,而且对 URL 解析进行的不彻底。鉴于这些现存技术的
缺点和不足,本文在详细分析 URL 结构以及了解有限状态自动机的原理的基础上提出了一
种基于嵌套有限状态自动机的 URL 解析方法。
2 URL 解析概述
URL 地址是因特网上标准的资源地址,用于完整地描述 Internet 上的网页和其他资源。
这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是 Internet 上的站点。
利用 URL 地址,Internet 上的每一
内容来自淘豆网www.taodocs.com转载请标明出处.