⑴火车采集器是一款功能强大的数据采集软件,用户可以通过软件进行数据各式各样的数据采集,用户还可以自行设置时间及参数,随后一键启动即可,操作十分简单,对于提高我们的工作效率非常有帮助 ,如果有需要的用户就快来下载吧。
⑵无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
⑶五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
⑷、扩展性强、适用范围广
⑸自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及。外部编程接口处理数据,让数据都能为你所用。
⑹、支持所有网站编码
⑺完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
⑻支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
⑼无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
⑽本地可视化编辑已采集的数据。
⑾这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
⑿使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
⒀通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
⒁、多任务,多线程
⒂可以同时进行多个信息采集任务,每个任务可以使用多个线程。
⒃任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
⒄数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
⒅信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
⒆支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
⒇通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
⒈可以根据采集的深度和网址的标识来限制采集的范围。
⒉可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等下载到本地磁盘或者采集结果数据库中。
⒊可以将采集的结果根据规则替换成你定义的内容。
⒋可以根据某个条件来决定那些信息保存,那些信息过滤。
⒌软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
⒍运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
⒎可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(aess, sql server,my sql,oracle ,静态htm文件。
⒏定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
⒐新建一个任务分组,选择所属分组,确定分组名称和备注。
⒑确定所属分组,新建一个任务,填写任务名称并保存。
⒒、Web发布配置
⒓Web发布配置定义了如何登陆一个网站以及向该网站提交数据。
⒔主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。
⒕、Web发布模块
⒖可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。
⒗、数据库发布配置
⒘数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
⒙、数据库发布模块
⒚用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
⒛火车采集器可选mysql、sqlserver、oracle、aess四种数据库类型,在文本输入框中填写sql语句
①(需有数据库相关知识,并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
②设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,
③(Cron表达式的写法可参考相关术语中的介绍。保存设置后,任务即可按照设置执行。
④插件是可以用来扩展火车采集器功能的程序
⑤火车采集器V支持PHP源码、C#源码、C#类库三种类型的插件,
⑥可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。
⑦、http二级代理
⑧网络中的服务器,可以让网络用户去取得所需要的网络信息。
⑨代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,
⑩突破电信的ip封锁和隐藏真实的ip等。
Ⅰ火车采集器V支持http代理、socket和socket代理。
Ⅱ、http模拟请求
Ⅲ可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。
Ⅳ火车采集器V.版
Ⅴ、自动获取cookie功能优化。
Ⅵ、数据库发布增加事务,优化数据库发布速度。
Ⅶ、数据转换速度优化(针对Mysql和SqlServer数据库的导入), 同时去除网址库的清空逻辑。
Ⅷ、html标签处理错误问题处理。
Ⅸ、json提取关于数字转换为科学计数法问题处理。
Ⅹ、发布测试时,图片上传无效的问题处理。
㈠、采集内容页处理错误时,增加对于当前出错标签的提示,以便快速定位出错标签。
㈡、任务批量编辑,增加可操作范围。
㈢、循环匹配匹配空格问题处理。
㈣、刷新分组中增加统计数据的刷新。
㈤、post分页处理。
㈥、部分功能逻辑优化。
㈦火车采集器V.版
㈧、优化效率修复运行大量任务时运行卡顿问题。
㈨、修复大量代理时配置文件锁死程序退出问题。
㈩、修复部分情况下mysql链接不上问题。
、其它界面和功能优化。
火车采集器V.版
、“远程管理” 正式升级为 “私有云”,全面优化调整。
、布模块增加自定义头信息的增加。
、采集线程间隔调整,增加自定义区间设置。
、长时间使用后的运行卡顿问题修复。
、二级代理,IP输入框修改为普通TextBox。增加代理免验证的功能。
、分组丢失、死循环问题修复。
、ftp上传,增加超时处理。