火车采集器 V2008 官方正式最新版
今天也是火车采集器又一个新高度的版本-V2008版发布的日子,多少个日夜的不懈努力,我们赶上了这个日子,希望能为广大站长,以及即将开幕的北京奥运献上一份薄利!
LocoySpiderV2008是公司成立后发布的第一个版本,有了正规化团队开发和销 售,我们有信心更好地保证软件质量的同时,做好对商业用户的服务。
①安装说明
1、火车采集器V2008版要求:您的电脑必须安装.net framework2.0框架
附windows .net framework 2.0下载地址://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
2、下载附件内程序包直接解压即可使用。
②升级说明
如果您想保存原3.2SP5版软件的规则或采集数据,并直接升级到2008版,请在使用前执行程序目录下面的Update325To2008.exe按说明进行升级,该升级程序免费版及商业版通用
③2008版功能更新
修改功能
1、重写的自动更新模块,新增自动更新调度管理器,可计算各任务下次启动时间,管理更加直观
2、重写的任务运行管理器,不再采集定时刷新的方式管理任务队列
3、更新了中文分词模块,加入了对词性和词频的分析,使提取的关键字更加准确,并可以挂接用户词库
4、修改了多页设置内在默认页采集得到地址不再使用正则规则,而使用[参数]标签组合结果的简单方法设置
5、WEB发布模块发布地址和引用地址内加入了随机登录值标签的支持
6、修正了时间转换标签已存在的bug,支持更多种时间格式的转换
7、修复了数据库入库超过两次后出现索引超出范围。必须为非负值并小于集合大小的错误
8、修正了随机登录值标签UrlEncode不成功的问题
9、去除了任务完成后的提示音
10、去除了系统设置内标题内容标签是否不得为空的设置,改为可以对任意标签进行设置
11、加入了对更多种下载文件格式的支持
12、修改单个标签可设置是否在分页中匹配的功能,分页与多页不再冲突,至此可以完美采集论坛的所有楼层及分页回复
新增功能 (部分功能分配到免费版及个人版)
1、加入了对Sqlite数据库的支持,本地数据采用Sqlite保存,相比Access性能得到巨大提高
2、加入了外部编程接口,用户可以火车采集器内使用自己编写的php接口文件处理标签数据
3、加入了可视化编辑器及高亮文本编辑框,对本地数据的后期编辑更加快速和直观
4、加入了内置FTP上传文件的功能,特别在自动更新时保证下载的文件同步更新到服务器
5、加入了对采集内容简体转繁体,繁体转简体及火星文之间的转换的功能
6、加入了对单个标签可设置必须包含不得包含,采集结果是否允许为空的设置,使采集结果更加精确
7、加入了对单个标签是否补全相对网址的功能
8、加入了对需要POST数据才能采集的列表类的网站的支持,实例中已能完美采集51job.com
9、加入了采集时可选是否检测重复网址的功能,增加采集的速度
10、加入了发布时可选随机发布的功能,实现文章的乱序排列
11、加入了分词测试工具、翻译测试工具
12、加入了自动识别网页编码和自己加载本地登录信息的功能,使设置更加简单,可实现采集多编码的多页网页