我正在使用C#应用程序从EnumWindows当前IE选项卡获取html文件。现在我得到了HTMLDocument,可以通过outerHTML ({HTMLDocument}.documentElement.outerHTML)将其解析为html文件,但是输出的html文件没有doctype。
我看到HTMLDocument具有doctype属性,如何将其解析为与html文件中的标记相同的字符串。
发布于 2018-10-31 08:25:05
我是通过将htmlDocument.doctype转换为动态对象来获得的。另外,您可以通过循环在<html>列表上获得其他不在(dynamic)htmlDocument.childNodes标签上的标记。
private static void InsertDocType(HTMLDocument htmlDocument, HtmlDocument document)
{
// get html node
HtmlNode htmlNode = document.DocumentNode.SelectSingleNode("/html");
// get doctype node from HTMLDocument
var doctype = (dynamic)htmlDocument.doctype;
StringBuilder doctypeText = new StringBuilder();
doctypeText.Append("<!DOCTYPE");
doctypeText.Append(" ");
doctypeText.Append(doctype.name);
// add PUBLIC
if (!string.IsNullOrEmpty(doctype.publicId))
{
doctypeText.Append(" PUBLIC \"");
doctypeText.Append(doctype.publicId);
doctypeText.Append("\"");
}
// add sytem id
if (!string.IsNullOrEmpty(doctype.systemId))
{
doctypeText.Append(" \"");
doctypeText.Append(doctype.systemId);
doctypeText.Append("\"");
}
// add close tag
doctypeText.Append(">");
doctypeText.Append(Environment.NewLine);
HtmlCommentNode doctypeNode = document.CreateComment(doctypeText.ToString());
document.DocumentNode.InsertBefore(doctypeNode, htmlNode);
}https://stackoverflow.com/questions/52961320
复制相似问题