我在XHTML上执行htmlParse()时遇到了问题。
当它作为一个“外部at”加载到R中时,我可以看到在文件的顶部添加了一行:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">我不想让这一行出现,因为它破坏了我的应用程序。我想在htmlParse()函数中删除它,而不必手动删除我拥有的每个XHTML行。
有什么建议吗?我尝试过更改传递给函数htmlParse()的一些参数,但此时,在尝试之后,我没有找到它。
如果有帮助,下面是我解析的XHTML的第一行:
<?xml version="1.0" encoding="utf-8" ?>
<html dir="ltr" xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" xml:lang="es">
<head>
<meta charset="utf-8" />发布于 2015-08-13 10:03:06
我尝试使用xmlRoot(),然后用saveXML()保存,包括前缀<?xml version="1.0" encoding="utf-8" ?>作为参数
还有一个编码问题,但那是另一个故事。在Windows中不起作用,在Ubuntu中终于起作用了。
谢谢你们所有人。
https://stackoverflow.com/questions/31906034
复制相似问题