成果基本信息 | ||||||
关键词: | 数据抽取;正则表达式;分布式数据采集;采集规则;爬虫 | |||||
成果类别: | 技术成熟度: | |||||
体现形式(基础理论类): | 体现形式(应用技术类): | 无 | ||||
成果登记号: | 9412016Y1464 | 资源采集日期: | 2016-11-20 |
研究情况 | |||||
单位名称: | 洛阳理工学院 | 技术水平: | |||
评价证书号: | 豫科鉴委字[2016]第1254号 | 评价单位: | 河南省科技厅 | ||
评价日期: | 2016.09.19 | 评价证书号: | 豫科鉴委字[2016]第1254号 |
转化情况 | |||||
转让范围: | 推广形式: | 无 | |||
已转让企业数(个): | 0 |
联系方式 | |||||
联系人(平台): | 玉女士 | 联系人(平台)电话: | 0771-5885053 | ||
*成果单位详细联系方式请登录会员;还不是会员,马上注册! |
成果简介 | |||||
面向互联网的数据采集监视系统,通过定时或不定时地监视互联网信息发布网页,及时获悉信息的发布;通过解析,获得发布的信息,并通知相应的信息需求者。面向互联网的数据采集监视系统在信息发布者和信息需求者之间搭起了桥梁,简化了信息发布者的负担,使其专注于信息发布,而信息需求者也能够及时获知感兴趣的信息。 系统借鉴互联网数据个性化采集和分布式采集的思想,利用XML、正则表达式、多线程、Web页面信息抽取、存储过程分页等技术手段开发。本系统由三大模块构成,即数据采集模块、数据存储模块和信息展示模块。数据采集模块利用网页编码适配器获取网页源码,通过数据抽取和加工,利用正则表达式构造器,实现了网页数据的有效清洗和整理。同时,该模块支持采集任务、采集规则的动态配置,并可自定义任务监听器的监听频率;数据存储模块支持多种数据存储形式,包括在线网站、数据库、Excel表格、Txt文本;信息展示模块实现了信息分类显示、分页显示、快速索引等功能。系统设计时,重点考虑了系统运行效率的问题,通过使用事件、多线程、存储过程分页等技术,使系统在信息采集和信息查询方面的效率得到了保障。 本系统界面友好、功能完备、运行稳定,系统目前已成功地应用于公司,具有较强的商业应用价值和应用前景。 |