Internet Explorer可以选择将网页另存为文本文件,并删除所有标签。我需要一种方法来批量处理工作中的项目的东西。或者有没有什么命令行实用程序或库可以为我做同样的事情?COM-interop与IE(不是我的首选!)?它不需要格式完全像IE,只需给我纯文本。
发布于 2010-04-27 08:41:08
有很多程序可以做到这一点。其中一些被称为html2text。还有this one和another,前者不可用于Windows,但可在Cygwin下编译,后者适用于Win32。
发布于 2010-04-27 08:41:39
我曾经见过一个脚本,它使用lynx将HTML呈现为纯文本,以便从HTML自动生成纯文本邮件。不过,这也不是我的首选。
发布于 2010-04-27 08:41:56
您可以使用HTML Agility Pack在C#中执行此操作
var doc = new HtmlWeb.Load(url);
File.WriteAllText(path, doc.DocumentElement.InnerText);https://stackoverflow.com/questions/2717975
复制相似问题