教育论文网

基于Hadoop分布式环境下垂直爬虫的研究与实现

硕士博士毕业论文站内搜索    
分类1:教育论文网→工业技术论文→自动化技术、计算机技术论文计算技术、计算机技术论文计算机的应用论文计算机网络论文一般性问题论文
分类2:教育论文网→工业技术论文→自动化技术、计算机技术论文计算技术、计算机技术论文计算机软件论文程序设计、软件工程论文软件工程论文
基于Hadoop分布式环境下垂直爬虫的研究与实现
论文目录
 
摘要第4-5页
ABSTRACT第5-10页
第一章 绪论第10-16页
  1.1 研究背景第10-11页
  1.2 研究现状第11-13页
  1.3 论文主要内容第13页
  1.4 论文的组织结构第13-16页
第二章 分布式垂直爬虫相关技术介绍第16-24页
  2.1 网络爬虫介绍第16-17页
    2.1.1 爬虫原理介绍第16页
    2.1.2 分布式网络爬虫第16-17页
  2.2 Hadoop相关技术第17-20页
    2.2.1 MapReduce介绍第17-18页
    2.2.2 ChainMapper/ChainReducer实现原理第18-19页
    2.2.3 HDFS介绍第19-20页
  2.3 动态网页爬虫技术第20-22页
    2.3.1 JavaScript介绍第20-21页
    2.3.2 Ajax技术介绍第21-22页
  2.4 其他相关技术介绍第22-23页
    2.4.1 Redis数据库第22-23页
  2.5 本章总结第23-24页
第三章 分布式垂直爬虫框架ChainMR Crawler设计与实现第24-38页
  3.1 ChainMR Crawler整体设计第24-29页
    3.1.1 Robots协议第24-25页
    3.1.2 下载模块设计第25-26页
    3.1.3 URL管理模块设计第26-27页
    3.1.4 解析模块设计第27-28页
    3.1.5 存储模块设计第28-29页
  3.2 基于ChainMapper/ChainReducer的爬虫实现第29-36页
    3.2.1 基于ChainMapper/ChainReducer爬虫总体实现第29-30页
    3.2.2 下载模块实现第30-32页
    3.2.3 URL管理模块实现第32-33页
    3.2.4 解析模块实现第33-34页
    3.2.5 存储模块实现第34-35页
    3.2.6 RedisInputFormat输入模块实现第35页
    3.2.7 爬虫任务Job实现第35-36页
  3.3 ChainMR Crawler框架实验分析第36-37页
  3.4 本章总结第37-38页
第四章 基于状态转换图的动态网页处理第38-46页
  4.1 传统爬取算法不足分析第38页
  4.2 基于状态转换图的动态网页处理算法第38-41页
    4.2.1 状态转换图第39-40页
    4.2.2 基于状态转换图的爬取算法第40-41页
  4.3 算法存在的问题第41页
  4.4 基于状态转换图的动态网页处理算法改进第41-43页
    4.4.1 针对页面主体模块进行页面相似性判定第41-42页
    4.4.2 触发有效元素第42-43页
    4.4.3 改进后基于状态转换图的广度优先爬取算法第43页
  4.5 基于状态转换图的动态网页改进算法实验第43-45页
  4.6 本章总结第45-46页
第五章 基于ChainMR Crawler的手机App信息爬虫系统第46-54页
  5.1 手机App信息爬虫系统设计实现第46-49页
    5.1.1 手机App信息爬虫系统内部架构第46-47页
    5.1.2 手机App信息爬虫系统的工作流程第47页
    5.1.3 手机App爬虫系统具体实现第47-49页
  5.2 手机App信息爬虫系统展示第49-50页
  5.3 系统测试第50-53页
    5.3.1 实验环境第50-51页
    5.3.2 系统功能测试第51页
    5.3.3 系统性能测试第51-52页
    5.3.4 扩展性测试第52-53页
  5.4 本章总结第53-54页
第六章 总结与展望第54-56页
  6.1 本文工作总结第54页
  6.2 进一步研究方向第54-56页
参考文献第56-60页
致谢第60-62页
攻读学位期间发表的学术论文第62页

本篇论文共62页,点击这进入下载页面
 
更多论文
基于Hadoop分布式环境下垂直爬虫的
基于Mashup的态势呈现系统的设计与
汽车后服务O2O平台的设计与实现
基于信令的人员移动信息分析系统的
基于移动互联网海量数据的用户App使
基于SSH框架的健康管理服务系统的设
应用性能管理系统中数据处理子系统
呼叫中心CRM系统服务端的设计与实现
基于Web Service的围棋赛事直播系统
实现技术无关的Web Services动态调
满足差分隐私的频繁子图挖掘算法研
基于Spark的大规模矩阵算法研究
基于微信的图片打印分享平台
基于Android平台的在线外语互助学习
Android应用自动化测试研究和改进
基于Android LBS的农村电网导航软件
虹膜识别系统服务器端的设计与实现
基于混合算法的个性化推荐系统
基于不平衡数据集的分类预测算法的
结合用户兴趣模型的垂直搜索引擎的
社会学习网络中的信息预测和内容推
基于HTML5的工作流业务生成系统的设
基于Thrift框架的网络设备审计系统
多元信息共享的停车场管理及评价系
基于相似数据来源的警报关联技术研
自适应主题模型及其在推荐系统中的
Java应用软件的安全加固技术研究
基于扩散模型及统计优化的显著性区
基于草图的跨风格人脸检索框架研究
聚类算法的研究与改进
基于卷积神经网络的虚假评论识别技
应用性能管理系统中应用性能瓶颈分
基于分类算法的用户推荐方法研究及
面向“和对讲”业务的电信业务运营
短信变体分词与提取方法研究
开放式搜索服务的设计实现及优化
基于SDN安全交换子系统的设计与实现
可扩展的信息模型数据服务自动化生
分布式测量系统中优化机制研究
基于SDN的发布/订阅系统拓扑维护及
基于OpenDaylight的通用网络配置系
基于国产平台的网络管理工具的设计
互联网地址跳变机制的设计与实现
网络设备识别系统的设计与实现
基于ICN网络的服务迁移与调用的研究
基于SDN的混合网络链路资源调度系统
基于NFV的安全服务系统与应用研究
多维自适应Web异常检测系统研究与实
基于SDN多控制器的协同系统研究和设
基于通用路由架构的多拓扑路由协议
NDN网络中缓存策略的研究
海量网络流量分析平台的作业调度及
匿名网络环境下审查规避技术研究
基于Web的网络配置管理关键技术研究
内容中心网络缓存放置策略研究
基于WebRTC的会议服务的研究与实现
分布式网络环境下基于行为时空特征
基于集中控制的协作缓存关键技术研
SDN控制平面可拓展接口协议研究及其
基于WebRTC的多媒体互动平台的研究
基于复合规则描述的应用层协议识别
基于JavaEE平台的校园网认证计费系
模型驱动的仿真数据生成和应用框架
虚拟化环境中基于服务负荷测算和预
IaaS云主机性能测试评估系统的设计
单向链路下高可靠数据传输方法研究
面向HTTP/2协议的高速数据还原方法
基于ROA的融合通信服务浏览器终端的
WebRTC系统中通信模块的研究与实现
云平台下多用户应用并发部署机制的
 
Hadoop论文 ChainMapper/ChainReducer Redis论文 动态网页论文 Ajax论文
版权申明:目录由用户ynztmalil**提供,www.51papers.com仅收录目录,作者需要删除这篇论文目录请点击这里
| 设为首页||加入收藏||站内搜索引擎||站点地图||在线购卡|
版权所有 教育论文网 Copyright(C) All Rights Reserved