
XPath2Doc(通用网站数据采集及Doc生成工具)
1.0.0.0 免费版- 软件大小:14.6 MB
- 更新日期:2019-06-25
- 软件语言:简体中文
- 软件类别:办公软件
- 软件授权:免费软件
- 软件官网:未知
- 适用平台:WinXP, Win7, Win8, Win10, WinAll
- 软件厂商:
软件介绍人气软件相关文章网友评论下载地址
XPath2Doc是一款可以帮助用户在网页上采集数据并且填写doc文件的软件,这款软件使用简单,软件界面没有太多功能,用户点击采集就可以开始查询网页上的数据,从而执行填充,对于需要编辑doc文件的朋友很有帮助,您可以在软件添加需要编辑的doc文件,可以在软件配置需要填充以及需要采集网站数据的的规则,结合XPath语句就可以获取您需要采集的网页内容,软件提供详细的操作桌面,用户可以在帮助界面查看教程!

软件功能
1、XPath2Doc可以帮助用户在电脑上采集你需要的网页数据
2、可以立即采集数据填写到文件中,从而完成文件编辑
3、如果你觉得编辑doc文件很复杂,可以使用这款软件立即采集网站资源
4、软件可以指定内容采集,软件界面显示网页内容
5、当您添加网页以后就可以查询指定的内容,仅仅对需要填写的内容采集
6、支持采集功能,立即在网页界面采集需要的文字内容
7、可以多次采集内容,一个网页的内容可以多段采集
8、XPath2Doc帮助用户轻松找到数据所在的位置,从而快速采集
软件特色
1、XPath2Doc提供网页内容采集功能,在软件轻松读取网页内容
2、软件提供操作演示,用户可以查看自己需要操作的内容
3、支持模板设置功能,在软件可以配置用户需要采集的模板
4、支持采集地址添加,可以在配置文件中添加网页地址
5、支持指定的数据内容采集,在网页查看到文字以后就可以立即采集
6、采集的内容自动在软件右边显示,可以另外保存为doc文件
7、支持打开Word功能,编辑完毕可以在软件打开doc查看填写的内容
8、结合软件的教程以及操作说明就可以知道如何采集数据
使用说明
1、打开XPath2Doc软件提示您需要建立配置文件,用户需要在主程序地址找到配置文件并且修改

2、修改界面如图所示,软件使用比较复杂,如果你会设置就可以在这里填写参数

3、可选参数,INI文件所在的路径,例如D:INI,目录路径以结尾。默认为程序所在目录。

4、这里是软件的模板编辑界面,用户下载模板以后编辑新的内容,从而在软件采集数据

5、因为小编没有设置模板所以就不能在软件采集数据

6、小编不知道如何使用这款软件,如果你会使用就可以下载体验

7、这里是软件的采集界面,您可以选择一种模板,小编选择的是开发者提供的模板

8、这里是网页查看界面,在这里可以立即显示网页内容,可以查看多种数据

9、选择数据以后在这里填写需要采集的方式,例如可以将当前的文字内容采集为原告

10、采集的内容就在这里显示,现在就可以查看采集完毕的信息,doc也可以在软件界面显示

11、下方就是doc显示的界面,您需要填写的内容就在这里显示,随后继续采集内容

12、采集完毕就点击创建文件,这样就可以将文档保存,到这里文件数据就采集完毕了

13、提示保存界面,你可以将当前的文档另外保存在新的地方,保存完毕可以打印,也可以在软件界面选择备份

工作原理
网页的每个元素,都可以表示成为XPath语句,所以我们可以读取浏览器打开的网站页面源代码,通过XPath语句得到网页元素中的文本。
教程:http://www.w3school.com.cn/xpath/index.asp
XPath语句的获取办法
通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动可以看到网页内容被阴影覆盖,点开三角符号,可以更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本即可得到需要的XPath语句。
这里需要说明一点:如果拷贝出来的XPath语句中有/tbody会影响采集,程序内部对此问题进行了处理,但可能会在某些特殊情况下还是会影响数据采集,可以手工去掉。
软件运行环境(推荐Widnows10,无需安装组件):
Windows7 Sp1操作系统请安装下面的组件(重要:VC库如果不安装,本程序无法启动):
1、.Net Framework 4.5.2。https://www.microsoft.com/en-us/download/details.aspx?id=42642
2、32位 VC2017(或更高版本)运行库 。 https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads
下载vc_redist.x86.exe
在Windows10系统下上述组件一般自带,不需要单独安装。本程序在Windows10 1903运行通过。
不支持Windows XP操作系统。
软件操作说明
1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。
General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。
自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。
2、使用本程序前,请先建立好你自己的INI配置文件和Docx模板文件。(具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板)
需要说明的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。目前模板文件暂不支持除Docx以外的格式。(预览窗口支持:.doc、.docx、.rtf、.htm、.html、.xaml、.txt,所以模板文件理论也可以支持这些格式。需要其他格式支持的,请百度联系作者。)
3、使用方法:
启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分。等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,如果网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。
如果前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,如果浏览器没有换页面,数据就错了。)如果某个部分需要重新采集,请先点击下拉菜单中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意改变浏览器的数据页面,得到的就是不同公司数据)。
列表中采集得到的数据结果如果有偏差,可以单击自行修改。XPath语句如果有什么错误,也可以自己修改看测试结果(XPath语句在修改后会立即重新抓取浏览器的数据,所以浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请自行手工保存。
如果列表中数据无误,预览窗口中的Docx模板内容也正确,则可以点击创建文档按钮,填写要生成的文件名,本软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。
需要说明的是,右下角的Docx预览窗口不能完整的支持Word文档,对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况,可以忽略,或者将模板文件改成规范的文本格式(单倍行距)。
下载地址
-
XPath2Doc(通用网站数据采集及Doc生成工具) 1.0.0.0 免费版
人气软件
501 MB
/简体中文1.58 GB
/简体中文143.0 MB
/简体中文Microsoft Office 2016精简三合一自定义版本279 MB
/简体中文55.1 MB
/简体中文501 MB
/简体中文605.92 MB
/简体中文20.9 MB
/简体中文3.47 GB
/简体中文92.5 MB
/简体中文
相关文章
查看所有评论>>网友评论共0条
精彩评论