河东软件园:绿色免费的软件下载站! 最新软件|软件分类|软件专题|软件发布

所在位置:首页 > 网络软件 > 网页辅助 > 网络神采下载 6.2.16 免费版

网络神采下载

 6.2.16 免费版
  • 软件大小:5.91 MB
  • 更新日期:2018-07-31
  • 软件语言:简体中文
  • 软件类别:网页辅助
  • 软件授权:免费软件
  • 软件官网:
  • 适用平台:WinXP, Win7, Win8, Win10, WinAll
  • 软件厂商:

8.9
软件评分

本地下载文件大小:5.91 MB 高速下载需下载高速下载器,提速50%

软件介绍人气软件相关文章网友评论下载地址

为您推荐:网页辅助

  网络神采款在电脑上运行的采集工具;用户将软件安装成功之后,点击快捷方式进入软件的主界面,对相关的采集信息进行设置完成,点击开始的按钮,就能完成任务的采集;软件对网页的数据下载,并且是免费的提供给大家使用,智能的采集功能,让您节约许多的时间,而且对二次开发的功能注册,采用了分布式的部署,感兴趣的朋友不要错过!

网络神采下载 6.2.16 免费版

软件功能

  源文件查看器

  设置采集任务时,需要分析网页源文件,以确定如何提取里面的信息。源文件查看器为软件附带的一个工具,其文件名为:htmlview.exe。

  正则式测试器

  软件附带的一个正则表达式测试工具。

  网址编码器

  用于把带有汉字的URL进行编码,或对已编码的URL解码。

  任务升级器

  可以将低版本的任务文件升级到新版。

  在线发布器

  可以将本地数据在线发布到网站

  HTML标记

  采集时,软件将自动剔除内容中HTML标记,然而,用户可以选择保留一些标记。在这里维护一个标记库,以供编辑任务时选择。

  正则表达式

  在这里维护预置正则表达式,供“采集结果替换”使用。

  插入“增量式变量”

  在起始地址中,除了可以使用“页码变量”外还可以使用增量,例如:http://www.aaa.com/search.asp?keyword=北京&start={0,1000,20},表示start参数将从0变到1000,每次递增20。

  插入“倒序页码变量”

  适用于倒序采集,即先采集排在后面的页面。例如:http://www.aaa.com/search.asp?keyword=北京&page={100,1,-1},表示page参数将从100变到1,每次减1。

  插入POST参数的前后辍

  假设这是一个查询信息的页面:http://www.aaa.com/query.asp,在这个网站进行查询后,URL中并不显视任何参数,因为它们以POST方式被提交。在软件中,如果将参数包括在{post}与{/post}之间,就表示模拟POST方式提交。例如:http://www.aaa.com/query.asp?{post}keyword=北京&page={1,100}{/post},表示将其中的keyword和page参数以POST方式提交。其中的page参数就是上面提到的页码参数,在这里表示采集1到100页。

  插入年、月、天、日期变量

  假设这是一个带有“日期变量”的起始地址:http://www.aaa.com/news/{time:yyyy-MM-dd}/news_list.asp,采集时其“日期变量”会被替换为当前日期,如:http://www.aaa.com/news/2007-05-24/news_list.asp。

  编码/解码选中部分

  对起始地址文本框的选中部分进行了URL编码或解码。注意:起始地址中如果有汉字,一般必须要对URL进行编码。

  捕获网址

  当访问某些网站时,URL中并不显视任何参数,因为这些参数都以POST方式被提交。如果得不到这些POST参数,则不能通过软件进行访问并查询。在这里可以捕获POST网址,其中包括隐藏的POST参数。捕获后,网址会被自动填写到起始地址文本框中。

软件特色

  发布结果

  软件默认将采集结果保存到结果文件,发布结果是指将结果文件中的采集结果发布到你现有的数据库。

  结果导出为

  将结果文件中的采集结果导出为ACCESS、EXCEL、文本文件。

  查看结果

  查看结果文件中的采集结果。

  清空结果

  清空结果文件中的采集结果。

  发布时重复行

  将采集结果发布到数据库时,可以做数据重复性检查,以避免重复采集。这里的“重复行”是指发布时与数据库中现有记录重复的数据行。为便于日后查看,可以选择将这些重复行保存到文件。在这里可以查看、清空重复行。

  发布时出错行

  将采集结果发布到数据库时,可能会产生错误,例如,由于现有数据字段长度太小装不下采集的信息等。为便于日后查看,可以选择将这些发布失败的数据行,也就是“出错行”,保存到文件。在这里可以查看、清空出错行。

  历史记录

  软件在采集时支持历史记录对比,即通过检查历史记录判断该地址是否已经采集过,如果已经采集过,则不再采集。在这里可以查看和管理历史记录。

  任务日志

  可以选择将任务的运行日志保存到文件,在这里可以查看日志。

使用方法

  1、在本站河东软件园将软件下载完成之后解压成功,点击poster.exe运行软件;

网络神采下载 6.2.16 免费版

  2、点击应用程序图标即可进入软件的主界面,可以对相关的选项进行设置;

网络神采下载 6.2.16 免费版

  3、点击文件夹的图标即可对本地数据库文件选择;

网络神采下载 6.2.16 免费版

  4、发布之后是否对本地数据进行删除,也支持对缓存的大小进行设置;

网络神采下载 6.2.16 免费版

  5、目标地址编辑窗口,快速的完成对参数名称的查找设置;

网络神采下载 6.2.16 免费版

  6、可以对捕获的地址参数等进行查看;

网络神采下载 6.2.16 免费版

  7、对自定义的错误进行设置,包括了错误列表的显示;

网络神采下载 6.2.16 免费版

  8、设置完成之后,点击开始发布的按钮,即可对发布的状态信息查看;

网络神采下载 6.2.16 免费版

  9、对软件的关于信息进行查看;

网络神采下载 6.2.16 免费版

  10、支持用户对工作流程进行查看;

网络神采下载 6.2.16 免费版

使用说明

  入门采集示例

  示例分析

  新闻采集是最常用的,也是最容易理解的,我们就拿一个简单的新闻采集任务作为入门示例。该任务有两层:“新闻列表”和“新闻内容”。我们将新闻列表作为“起始地址”,然后通过“导航规则”从“新闻列表”提取“新闻内容”的网址,最后根据“采集规则”采集所需内容。

  创建任务

  在软件主窗口,单击菜单“任务”->“新建”,打开“任务编辑”对话框来创建一个任务。下面通过图文混合,一步步讨论如何填写设置:

  第一步:任务概述

网络神采下载 6.2.16 免费版

  在“任务概述”中,我们只填写一个任务名称即可:郑州大学新闻信息。其它设置暂且不讨论,等您熟练以后再参考我们的帮助文档。

  第二步:起始地址

网络神采下载 6.2.16 免费版

  起始地址就是我们要采集内容的入口地址,在这里是“新闻列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=x&lan=202&tts=&tops=&pn={1,100}。其中,“pn”是分页变量名,这个可以通过在浏览时“新闻列表”时对其进行翻页并观察得出。如果“pn=1”就表示第1页,“pn=2”表示第2页,以此类推。我们为“pn”指定一个变量值:{1,100},就表示将要采集1到100页。这种分页变量格式是我们软件定义的,可以通过点击“插入”按钮插入预置分页变量(详见这里)。

  第三步:导航规则

网络神采下载 6.2.16 免费版

  因为该任务有两层,所以需要建两条“导航规则”,分别命名为:“新闻列表”和“新闻内容”。我们需要从“新闻列表”提取“新闻内容”的网址,以实现导航。因此,设“新闻列表”为“中间层”,并填写“下一层网址模板”以提取网址。而“新闻内容”只需选中“最终页面”,然后保存即可。

  那如何确定“新闻列表”的“下一层网址模板”呢?请看下图。

网络神采下载 6.2.16 免费版

  通过查看“新闻列表”的源文件,我们可以找出“新闻内容”的网址,即黄色部分所示。我们把网址中的变量部分替换成“*”(通配符),便是“下一层网址模板”,即:http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=* 。这样,我们在提取时就有了一个依据:只提取匹配模板的网址,而跳过其它网址。

  “导航规则”最终设置如下:

网络神采下载 6.2.16 免费版

  第四步:采集规则

网络神采下载 6.2.16 免费版

  通过“导航规则”我们一路走到了“最终页面”,也就是“新闻内容”,接下来就需要根据“采集规则”采集所需内容了。如上图所示,一条“采集规则”对应一个数据库字段,也就是一种信息类型,如:标题、发布者、供稿人、内容等。“数据库字段”可以不填,默认为其规则名称。而“所属层次”为跨层采集功能,本示例用不到,保持默认即可。

  下面就是最重要的:“信息前标志”和“信息后标志”,软件通过在源文件中查找“前后标志”来定位要采集的信息。那么如何取得信息的前后标志呢?请看下图。

网络神采下载 6.2.16 免费版

  如图所示,“红色部分”表示信息的前标志,而“黄色部分”为后标志,被夹在中间的“蓝色部分”就是我们需要采集的内容。依次为:“标题”、、“发布者”、“供稿人”、“发布日期”、“阅读次数”、“内容”。

  “采集规则”最终设置如下:

网络神采下载 6.2.16 免费版

  注意:

  1、如果使用“前后标志”采集信息,必须与“网页源文件”中出现的顺序一致。

  2、一条“采集规则”应用后,会将“采集内容”的尾部作为“当前位置”,然后从“当前位置”查找下一条“采集规则”的“信息前标志”。

  3、如果选中了“全局规则”、“静态规则”,则再不受“当前位置”影响。

  第五步:采集结果

网络神采下载 6.2.16 免费版

  如图所示,我们不在这里做任何设置,采集后直接将结果导出即可。

使用技巧

  1、 自动填写“采集规则名称”

  设置采集规则时,如果“信息前标志”中包含“汉字或字母”,则自动提取为“采集规则名称”。例如:

网络神采下载 6.2.16 免费版

  2、导入导出任务

  可免费注册两个神采帐号,不同帐号之间“导出/导入”任务,导入后简单修改即可实现自己的采集需求。

  导出时,可按住 Ctrl 键选中多个任务。运行或暂停任务也是一样,可多选。

网络神采下载 6.2.16 免费版

  3、复制任务

  同一种任务(例如,同一个网站下的不同栏目),或智能采集任务(不需要配规则,只要修改起始地址),非常适合复制一个任务,然后再修改:

网络神采下载 6.2.16 免费版

  4、采集后的内容,保留换行、图片等

  默认时,采集后的内容不保留任何HTML标记,所以换行、图片等无法显示。在采集规则设置中,可明确保留哪些HTML标记:

网络神采下载 6.2.16 免费版

  “HTML标记”库是可以维护的,软件菜单:设置 -> HTML标记:

网络神采下载 6.2.16 免费版

  5、预置规则名称

网络神采下载 6.2.16 免费版

  6、将固定值作为结果

  手工设置一个固定值,可用于指定分类、地区等。截图示例:

网络神采下载 6.2.16 免费版

  、

  7、默认结果替换

  在采集规则中,可以设置“采集结果替换”,对采集后的内容进行替换。如果需要经常替换一些内容,如将“ ”替换为“空格”({sapce}),可在软件设置中设置一个默认替换:

网络神采下载 6.2.16 免费版

  其中“默认结果替换.xml”是从“任务编辑 -> 采集规则 -> 采集结果替换”导出的。

  8、手动修改任务状态

  采集任务只有“暂停”时,才可以继续采集,即断点续采,如果“停止”任务,则必须从头采集。

  如果不小心停止了任务,可在任务的XML文件中,将任务状态手动修改为“暂停”:

网络神采下载 6.2.16 免费版

  任务名称

网络神采下载 6.2.16 免费版

  9、源文件替换

  “源文件替换”是神采最灵活的设置之一,可将“JS脚本链接”替换成普通链接,以方便“提取下一层网址”,进行导航。源文件替换,实际上是“动态改变”网页的源文件,以方便导航、采集。

  例如,如果“列表”页面源文件中存在这种“JS脚本链接”:文章标题,文章内容的实际地址,就需要用到源文件替换。

  源文件替换设置为:

  旧值中的“{id}”表示一个参数,用来表示文章的ID(即 220433);

  新值中的“${id}”表示引用旧值中的参数“{id}”,在替换后组成新的URL。

网络神采下载 6.2.16 免费版

  10、查看源文件替换效果

  源文件替换后,不确定是否替换成功,可以采集整个“网页源文件”,以查看替换后的样子:

网络神采下载 6.2.16 免费版

  如果仍然有疑问,还可将采集到的“网页源文件”复制到“工具 -> 正则式测试器”(RegexTester.exe),实际测试一下。因为源文件替换中的“旧值”,可直接转换为“正则表达式” :

网络神采下载 6.2.16 免费版

  11、正则表达式应用:采集规则

  正则表达式非常灵活,采集规则中的“前后标志”、导航规则中的“下一层网址模板”,最终都会被软件转换成正则式。

  如果需要手写“正则表达式”进行提取内容,可在“采集规则-> 采集结果替换”中使用正则式:

网络神采下载 6.2.16 免费版

  12、正则表达式应用:导航规则

  “下一层网址模板”中使用“*”通配符,是软件定义的一种规则。也可以直接使用标准的“正则表达式”提取“下一层网址”,使匹配更准确、更灵活:

网络神采下载 6.2.16 免费版

常见问题

  如果进行循环采集?

  循环采集原理:

网络神采下载 6.2.16 免费版

  以百度新闻搜索为例:

网络神采下载 6.2.16 免费版

  取“循环标志”、限制采集范围:

网络神采下载 6.2.16 免费版

下载地址

  • 网络神采下载 6.2.16 免费版

    本地高速下载

人气软件

查看所有评论>>网友评论0

发表评论

您的评论需要经过审核才能显示

精彩评论

最新评论

盖楼回复X

(您的评论需要经过审核才能显示)