我使用prolog的sgml库来提取有关网页的信息。我使用此指令提取所有:
load_structure('file.html', List, [dialect(sgml), shorttag(false), max_errors(-1)])系统加载页面,但我有一些警告,例如:
WARNING:SGML2PL(sgml): inserted omitted end-tag for "img"
WARNING:SGML2PL(sgml): inserted omitted end-tag for "br"
WARNING:SGML2PL(sgml): entity "amp" does not exist怎样才能消除这些警告呢?
发布于 2013-10-04 10:01:06
我使用这个语法
get_html_file(FileOrStream, P) :-
dtd(html, DTD),
load_structure(FileOrStream, [P],
[ dtd(DTD),
dialect(sgml),
shorttag(false),
syntax_errors(quiet),
max_errors(-1)
]).syntax_errors(quiet)应该做的选择。
我记得我很难用错误来解析旧页面。错误处理可能很复杂,一些像标签汤这样的工具更宽容,可以帮助获得工作.
https://stackoverflow.com/questions/19178056
复制相似问题