下载此文档

下一代互联网技术-2015试卷李楚煌.doc


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
学院专业姓名学号座号
( 密封线内不答题)
……………………………………………………密………………………………………………封………………………………………线……………………………………线………………………………………
_____________ ________

深圳大学期末考试试卷
开/闭卷
综述报告
A/B卷
课程编号
1502320001
课程名称
下一代互联网技术
学分

命题人(签字) 崔来中审题人(签字) 年月日
题号










基本题总分
附加题
得分
评卷人
《下一代互联网技术》课程综述报告要求:
课程综述报告由个人独立完成。
要求学生从教师的授课专题,包括:
下一代互联网过渡技术(翻译技术和隧道技术)
云计算(资源调度、存储、安全)
社交网络(推荐、影响力分析、传播模型)
物联网(无线传感器网络、节能技术)
搜索技术(爬虫技术、图片搜索、语义搜索)
P2P(文件下载、流媒体分发)
大数据处理与分析技术(网络与机器学****br/>多媒体网络(多媒体网络与SDN、流媒体与机器学****br/>软件定义网络(SDN与安全、SDN与流量优化、SDN与网络管理)
选择一个专题中的具体技术问题(上述括号内为推荐的问题内容)作为综述报告主题,综述报告名称自拟,参照附件一“综述报告格式模板”与附件二“综述报告写作指导完成综述报告”;评分标准见附件三。
提交的课程综述报告要符合深圳大学相关的格式规范。
第17周提交课程综述报告电子版到blackboard系统,纸质版交到任课老师处。
附件一综述报告格式模板
深圳大学考试答题纸
(以论文、报告等形式考核专用)
二○一~二○一学年度第学期
课程编号
1502320001
课程名称
下一代互联网技术
主讲教师
崔来中
评分
学号
2013150383
姓名
李楚煌
专业年级
大三网络工程01
教师评语:
题目:
网页搜索中爬虫技术的若干研究
前言
在21世纪互联网高速发展的背景下,搜索引擎在人们生活中有着举足轻重的作用,而网络爬虫是搜索引擎中的重要的信息采集器,是搜索引擎技术的核心部分。
本文是对爬虫技术在现今网络环境中出现不同的问题、漏洞提出一些针对性的探究方法,并对各种方法进行实验分析,主要研究分析工作如下:
网络爬虫中的核心技术部分,即网络爬虫系统的多线程设计与实现,详细介绍网络爬虫的概念及信息分类涉及到的算法,技术要点,并探讨实现对漏洞平台当中的爬虫技术的聚焦。
网络爬虫的核心在于,以端口接通为设计基础,依据HTTP协议,使用SOCKET套接字相关函数向服务器端发送HTTP请求,得到目标URL对应的网页内容,再从该网页提取出未爬取过的URL,将该URL重新作为源URL进行新的一轮向下爬取搜索工作,按照各种优先算法向下爬行,从而完成网络爬虫系统的爬行工作。
在互联网中有着很多协议,它们彼此联系着,支持着许多网络程序的运行。网络爬虫系统是基于SOCKET协议的,而SOCKET协议的基础建立在TCP/IP协议之上。由此,网络爬虫是基于最原始的协议,依靠算法技术,组织分布式系统,非常有潜力进行强有力的数据探索与挖掘。既然网络爬虫的优势潜能如此巨大,接下来我会详细讨论近期我对这个技术的若干研究。
阅读文献概述
基于此次希望探讨的研究方向:网络爬虫,在中文文献方面,主要有以下阅读:多线程进行网络爬虫的
过程优化,基于网络爬虫的Web信息采集技术,爬虫对漏洞管理平台核心帮助。在英文文献方面主要有:《A Cloud-based Web Crawler Architecture》,《A Spatial Web Crawler for Discovering》,《Design of improved focused web crawler》。这几篇文献探究的层次在于如何对信息进行有效地采集、采集的量如何够快够大、以漏洞管理平台为切口,看爬虫技术有哪方面的发展潜力。
多线程爬虫又可以理解为分布式爬虫,主要阅读的部分有分布式网络爬虫结构设计,其中又细分为爬行节点的结构设计,控制节点的结构设计。分布式网络爬虫的关键技术在于,种子集合的优化选取,分布函数的选择。有这些分布式策略来带领多线程下载。而对网络信息的阅读,在于有效采集,需要对信息检索引擎有所划分:全文检索、目录索引型检索、元检索。再深入到网络爬虫的搜索策略,有深度优先搜索策略、宽度优先搜索策略、聚焦搜索策略。针对信息的实质内容,爬虫有其特***质:布告栏的数据分类及并联式关联、视频的可预览及真实寻址、论坛的自动动态更新实现。对漏洞平台的爬虫聚焦技术的阅读,首先了解的

下一代互联网技术-2015试卷李楚煌 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人s0012230
  • 文件大小99 KB
  • 时间2018-01-24