[忘记密码] [免费注册]   服务电话:0771-5885053
您正在浏览 : 科技成果> 科技成果信息 » 机械制造与装备 » 自动控制、计算机制造

基于爬虫的数据采集监视系统的研究与实现

成果基本信息
关键词: 数据抽取;正则表达式;分布式数据采集;采集规则;爬虫
成果类别: 技术成熟度:
体现形式(基础理论类): 体现形式(应用技术类):
成果登记号: 9412016Y1464 资源采集日期: 2016-11-20
研究情况
单位名称: 洛阳理工学院 技术水平:
评价证书号: 豫科鉴委字[2016]第1254号 评价单位: 河南省科技厅
评价日期: 2016.09.19 评价证书号: 豫科鉴委字[2016]第1254号
转化情况
转让范围: 推广形式:
已转让企业数(个): 0
联系方式
联系人(平台): 玉女士 联系人(平台)电话: 0771-5885053
*成果单位详细联系方式请登录会员;还不是会员,马上注册!
成果简介
面向互联网的数据采集监视系统,通过定时或不定时地监视互联网信息发布网页,及时获悉信息的发布;通过解析,获得发布的信息,并通知相应的信息需求者。面向互联网的数据采集监视系统在信息发布者和信息需求者之间搭起了桥梁,简化了信息发布者的负担,使其专注于信息发布,而信息需求者也能够及时获知感兴趣的信息。 系统借鉴互联网数据个性化采集和分布式采集的思想,利用XML、正则表达式、多线程、Web页面信息抽取、存储过程分页等技术手段开发。本系统由三大模块构成,即数据采集模块、数据存储模块和信息展示模块。数据采集模块利用网页编码适配器获取网页源码,通过数据抽取和加工,利用正则表达式构造器,实现了网页数据的有效清洗和整理。同时,该模块支持采集任务、采集规则的动态配置,并可自定义任务监听器的监听频率;数据存储模块支持多种数据存储形式,包括在线网站、数据库、Excel表格、Txt文本;信息展示模块实现了信息分类显示、分页显示、快速索引等功能。系统设计时,重点考虑了系统运行效率的问题,通过使用事件、多线程、存储过程分页等技术,使系统在信息采集和信息查询方面的效率得到了保障。 本系统界面友好、功能完备、运行稳定,系统目前已成功地应用于公司,具有较强的商业应用价值和应用前景。
成果名称: 基于爬虫的数据采集监视系统的研究与实现 关键词: 数据抽取;正则表达式;分布式数据采集;采集规则;爬虫
成果类别: 一级分类名称: 装备制造
二级分类名称: 自动控制、计算机制造 三级分类名称:
研究起止时间: 2014.07 至2016.03 成果体现形式(应用技术类):
成果属性: 成果体现形式(基础理论类):
技术成熟度: 技术水平:
研究形式: 学科分类1:
单位名称: 洛阳理工学院 学科分类2:
中图分类号1: 所属高新技术类别:
中图分类号2: 课题来源:
应用行业: 课题立项名称:
国家科技计划子类别: 课题立项编号:
经费实际投入额 (万元): 1.00 评价单位: 河南省科技厅
评价形式: 应用状态:
评价日期: 2016.09.19 转让范围:
评价证书号: 豫科鉴委字[2016]第1254号 推荐单位: 河南省教育厅
推广形式: 成果登记号: 9412016Y1464
成果简介: 面向互联网的数据采集监视系统,通过定时或不定时地监视互联网信息发布网页,及时获悉信息的发布;通过解析,获得发布的信息,并通知相应的信息需求者。面向互联网的数据采集监视系统在信息发布者和信息需求者之间搭起了桥梁,简化了信息发布者的负担,使其专注于信息发布,而信息需求者也能够及时获知感兴趣的信息。 系统借鉴互联网数据个性化采集和分布式采集的思想,利用XML、正则表达式、多线程、Web页面信息抽取、存储过程分页等技术手段开发。本系统由三大模块构成,即数据采集模块、数据存储模块和信息展示模块。数据采集模块利用网页编码适配器获取网页源码,通过数据抽取和加工,利用正则表达式构造器,实现了网页数据的有效清洗和整理。同时,该模块支持采集任务、采集规则的动态配置,并可自定义任务监听器的监听频率;数据存储模块支持多种数据存储形式,包括在线网站、数据库、Excel表格、Txt文本;信息展示模块实现了信息分类显示、分页显示、快速索引等功能。系统设计时,重点考虑了系统运行效率的问题,通过使用事件、多线程、存储过程分页等技术,使系统在信息采集和信息查询方面的效率得到了保障。 本系统界面友好、功能完备、运行稳定,系统目前已成功地应用于公司,具有较强的商业应用价值和应用前景。
联系人: 陶荣 成果登记日期: 2016-09-26
联系人email: 465998223@qq.com 单位代码: 94101118
邮政编码222: 471023 联系人电话: 0379-65929100
单位传真: 0379-65620200 单位通讯地址: 河南省洛阳市洛龙区王城大道90号
单位所在省市: 单位电话: 0379-65620266
转让收入(万元): 0 单位属性:
合作完成单位: 已转让企业数(个): 0
成果发布年份: 2016 知识产权形式:
成果完成人: 陶荣;姬孟洛;刁文广;鲁军;齐萌;孙泽宇;闫奔;王雅丽;彭慧伶;白桂梅 资源采集日期: 2016-11-20

 友情链接

国科网 广西科学技术厅 南宁市科学技术局 孵化圈 南宁高新区双创服务云平台 中国-东盟技术转移中心 佛山知识产权网 广西农业科学院 广西知识产权交易中心 广西机械工业研究院