基于标签分析的网页正文提取技术研究



基于标签分析的网页正文提取技术研究

分类：教育论文网→工业技术论文→自动化技术、计算机技术论文→计算技术、计算机技术论文→计算机的应用论文→计算机网络论文→一般性问题论文

基于标签分析的网页正文提取技术研究

论文目录
中文摘要	第1-4 页
英文摘要	第4-8 页
1 绪论	第8-14 页
· 选题背景与研究意义	第8-9 页
· 网页正文提取研究现状	第9-12 页
· 国内外网页正文提取的现状	第9-11 页
· 选题意义及改进思路	第11-12 页
· 论文组织结构	第12-13 页
· 本章小结	第13-14 页
2 八大网站中网页的基本特征及结构分析	第14-28 页
· HTML 语法分析	第14-19 页
· HTML 简介	第14-19 页
· HTML 结构分析	第19 页
· XML 语法分析	第19-21 页
· XML 简介	第19-20 页
· XML 的结构分析	第20-21 页
· XHTML 语法分析	第21-23 页
· XHTML 简介	第21 页
· XHTML 结构分析	第21-23 页
· 传统的网页特征描述与提取方法	第23-26 页
· 网页特征描述模型	第23-24 页
· 网页特征抽取方法	第24-26 页
· 八大门户网站中网页的相似结构及提取方法	第26-27 页
· 本章小结	第27-28 页
3 与网页正文相关的文字和图像超链接分析	第28-36 页
· 网页中的文字和图像超链接分析	第28-30 页
· 出现文字链接的原因及其特点	第28 页
· 出现图像链接的原因及其特点	第28-30 页
· 与网页正文无关的广告超链接判定方法	第30-32 页
· 超链接地址URL 的语法	第30-32 页
· 判定广告超链接的计算模型	第32 页
· 基于超链接分析的网页正文内容判定	第32-35 页
· 网页正文判定的启发式规则	第32-33 页
· 网页正文判定算法	第33-35 页
· 本章小结	第35-36 页
4 基于区域分块的 HTML 网页正文提取技术	第36-49 页
· 基于区域分块的HTML 的元素删除法提取网页正文	第37-47 页
· Head 和Body 区域块	第37 页
· 取出head 区域块中的网页标题	第37-39 页
· 取出Body 区域块中的网页正文标题	第39-43 页
· 基于区域分块的HTML 元素删除法提取网页正文的算法描述	第43-47 页
· 该算法的部分关键程序实现（参考附录C）	第47 页
· 基于区域分块的HTML 元素嵌入式提取法提取网页正文内容	第47-48 页
· Head 和Body 区域块	第47 页
· 确定网页标题的位置	第47 页
· 确定网页正文标题的位置	第47 页
· 确定网页正文内容的位置	第47 页
· 算法描述	第47-48 页
· 本章小结	第48-49 页
5 实验与分析	第49-58 页
· 基于区域分块的HTML 元素删除法提取网页正文	第49-53 页
· 对比实验一	第49-51 页
· 对比实验二	第51-53 页
· 基于区域分块的HTML 元素嵌入式提取法提取网页正文	第53-57 页
· 对比实验一	第53-55 页
· 对比实验二	第55-57 页
· 本章小结	第57-58 页
6 总结与展望	第58-60 页
· 论文创新点总结	第58-59 页
· 研究展望	第59-60 页
致谢	第60-61 页
参考文献	第61-64 页
附录	第64-68 页
A. 作者在攻读硕士学位期间发表的论文目录	第64 页
B. 作者在攻读学位期间取得的科研成果目录	第64-65 页
C. 基于HTML(以及XHTML 或XML)算法的部分关键程序实现	第65-68页

本篇论文共68页，点击这进入下载页面。

更多论文
基于标签分析的网页正文提取技术研
基于JXTA的P2P网络搜索机制的研究
基于正文结构和长句提取的网页去重
语义Web服务目标递进组合方法的研究
基于遗传多蚁群算法的QoS组播路由算
基于OWL-S的语义化Web服务检索模型
基于人工免疫原理的入侵检测模型研
基于遗传算法的网格任务调度研究
基于径向基函数(RBF)神经网络的入侵
服务组合中基于混合QoS模型的服务选
基于结点异构的结构化对等网络资源
基于QoS和语义的WEB服务组合的研究
IPv4/v6过渡技术的研究与应用
结合服务协商的Web服务属性访问控制
基于信任与零知识证明的Kerberos跨
网络拥塞控制中的接纳控制技术研究
基于聚类分析的入侵检测技术研究
IPv6下的DDoS防御研究
网络蠕虫的检测技术研究与系统设计
谱聚类研究及其在入侵检测中的应用
Web服务环境下的信任评估模型研究
基于兴趣域的非结构化P2P搜索算法研
基于Web日志和网页特征内容的个性化
业务规则技术在分布式环境下的应用
入侵检测与蜜罐协作模型的研究
基于拒绝服务攻击追踪的概率包标记
SOA中基于负载均衡的语义Web服务匹
邮件网络建模与恶意代码传播模型研
建筑智能化系统网络安全体系研究
可信电子商务体系研究
基于改进Kerberos协议的单点登录系
基于BP神经网络的智能入侵检测研究
语义Web服务发现框架的研究
基于改进趋近律的离散时间系统变结
基于DSP的船舶机舱自动化系统控制器
光纤法布里-珀罗传感器腔长解调新方
实验模态分析中结构建模的研究及虚
基于改进人工势场法的移动机器人路
虚拟式数控机床在线测量系统的开发
基于ARM的汽车传动轴安全监测系统研
仿人机器人多控制器通信系统的研究
危险废弃物处理控制系统设计与实现
光纤法珀传感器在冰冻及冻土监测中
知识管理系统的关键技术研究
基于WCF和Portal的建筑智能化系统集
嵌入式机电控制系统启动过程时间分
三关节单杠体操机器人的建模与控制
基于NX的覆盖件模具参数化设计研究
基于单目视觉的移动机器人目标定位
基于S3C2410的包装秤无线控制系统研
X射线探测与前端处理模块测试系统开
热丝法炉渣分析仪的智能温度测控系
改进型灰色神经网络模型在水质预测
MSDF在山地城市排水管网监测系统中
基于法拉第磁光效应的光学电流传感
高原寒区导弹部队营级监视系统的研
基于宏指令的数控加工过程进度提取
电气设备在线监测的无线传感器网络
多镀种电镀生产线控制系统的研制与
压电多维力传感器的静动态标定系统
基于WSN的穿戴式人体姿态与健康监护
移动机器人的非接触充电装置及策略
基于射频技术的高速公路车辆监控及
基于无线传感器网络的边境信息监测
IEC61850标准在电力参数监控中的应
三隔离压力变送器温补系统的研发与
数控车铣加工干涉检测及工艺参数优
基于SEP4020的嵌入式多面菱体磨削控

区域分块论文网页正文论文图像标签论文 HTML文档论文
版权申明：目录由用户a3048034a**提供，www.51papers.com仅收录目录，作者需要删除这篇论文目录请点击这里。
\| 设为首页\|\|加入收藏\|\|站内搜索引擎\|\|站点地图\|\|在线购卡\|
版权所有教育论文网 Copyright(C) All Rights Reserved