AI教程网 - 未来以来,拥抱AI;新手入门,从AI教程网开始......

提取网页内容存储为word的方法

html转word AI君 54℃

应用需求

word是我们平常办公最常用的文字处理软件之一了,但是我们第一手阅读的材料却并不通常是用word来写就的(非doc格式),可能是txt文本,pdf文件,更多的可能就是网页内容了。我们希望有一种轻快便捷的方案可以很容易地将网页内容导出成doc格式的文件,这样我们就可以用word来处理它们了。

今天老师让我办件事,是登录进一个问卷调查网页,将所有问卷内容提取出来,整理成word文件发给她。我在登进问卷(.aspx格式)后发现,网页内容是受保护的,不可以直接复制内容(点击右键没有任何响应)。

于是乎,我就面临了第一个考验,如何获取网页内容?

pdf2word

我的第一种方法是利用浏览器的打印功能,将网页保存为pdf。保存了4个pdf文件(因为问卷有4页)之后,我首先利用在线文档转换工具Smallpdf将4个pdf文件合二为一,然后在线转为word。

然而令我大失所望的是,转化成的word文件有太多太多的格式、字体问题,别说是编辑重用了,连阅读都不堪其用。我试了许多其他的pdf转word在线平台,效果都是半斤八两,不堪入目。

html2word

既然pdf不是一个明智的选择,我开始思考其他方案。我发现在浏览器中还有这样一个功能:将页面存储为html格式。以谷歌为例,在功能->更多工具中选中另存为html,就可以将当前网页的html格式连同一个链接文件(如果存在)一起下载到本地。

接下来的操作异常简单:

  • 选择下载好的html文件,右键点击“打开方式”选项,用Word打开;
  • 打开后可以看到文件格式与网页中显示基本一致,选择“文件另存为”,存成以“docx”为后缀的文件;
  • 如果html中有引用文件包中的链接,需要对其进行编辑(我遇到的网页无此情形);
  • 可尝试删除与html文件一起被下载的文件包,以免每次打开html转成的word文件都需要授权。

这样一来,一个可以分享给他人的word文件就完成了。
为了方便以后的工作,以及分享给有需要的人,暂且把这些操作记录下来。
【其实我是个科研工作者~~~】

参考内容:
http://code.makery.ch/library/convert-web-page-to-word/

作者:Meditator_hkx
原文链接:https://blog.csdn.net/Meditator_hkx/article/details/59546818

转载请注明:www.ainoob.cn » 提取网页内容存储为word的方法

喜欢 (1)or分享 (0)