文章/答案/技术大牛

发布

社区首页 >问答首页 >在C#中保存网页及其所有内容

问在C#中保存网页及其所有内容
EN

Stack Overflow用户

提问于 2012-07-17 05:33:50

回答 3查看 8.3K关注 0票数 3

我试图保存一个网页(就像我们在浏览器中一样)，以及它的所有内容和格式。我尝试了WebClient、WebRequest示例，但它们只能下载文本部分，有时还可以下载javascript。但是没有css和图像等，在.Net中是否有这方面的api，或者.net中有任何第三方api？

我认为这是可能的，因为很多应用程序都在运行脱机阅读，并且它们以相同的格式和样式显示保存的页面。是怎么做的？有什么想法吗？

编辑1:可以使用HtmlAgilityPack解析和保存网页。但有没有办法把主文与其他内容如广告、其他外部链接分开。有没有办法区分与之相关的内容和不相关的内容？(对不起，如果这个问题不清楚的话)。

另外，还可以给出一些建议:这些离线阅读应用程序(比如稍后阅读/袖珍阅读等)如何保存网页并格式化它。

在C#中也有同样的方法吗？

.net

web-scraping

webpage

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-07-17 05:40:39

您可以以Html的形式下载页面文本，然后解析它，获取<link rel="stylesheet" type="text/css" href="...">或<img src="..."/>元素，并分别下载href或src等属性的链接。

HtmlAgilityPack是一个解析Htmls的可靠和有用的库。

票数 4

Stack Overflow用户

发布于 2012-07-17 05:40:12

您可以使用惠特

node/Recursive-Download.html#Recursive-Download

票数 2

Stack Overflow用户

发布于 2012-07-17 05:53:39

您可以看看如何尝试将页面保存为mht文件。这些文件将网页及其所有引用捆绑到一个紧凑的文件(.mht)中。

通过c#讨论mht的堆栈过流主题

注: MHT是微软公司推出的。并非所有浏览器都符合这种格式。Opera是唯一一个具有MHT保存功能的流行浏览器。不过，火狐用户可以调用两个插件来处理这个文件标准，Mozilla格式& UnMHT。这两种附加组件都可以安装并用于打开和保存完整的网页.

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11516546

复制

相似问题

问在C#中保存网页及其所有内容
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在C#中保存网页及其所有内容EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在C#中保存网页及其所有内容
EN