火车头采集器的术语介绍
发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。
(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。) 发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。
方式一:Web在线发布到网站 这种发布方式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。
方式二:保存为本地文件 这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
方式三:导入到自定义数据库 这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,采集器支持连接Mysql、Access、Oracle、MSsql数据库。
方式四:保存为本地Sql文件(Insert语句) 这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。 采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。