问题:
当解析一个网站时,有一些字符会使机器无法正确地解析它。
解决方案提出的
问题
谢谢!
发布于 2015-04-15 13:59:18
好的,我找到了解决方案:您可以定义自己的html解析器,这样它就可以像钩子一样工作。
class MyParser
def self.parse(thing, url = nil, encoding = nil, options = Nokogiri::XML::ParseOptions::DEFAULT_HTML, &block)
thing = thing.gsub(/\x00/,"")
Nokogiri::HTML::Document.parse(thing, url, encoding, options, &block)
end
end
agent.html_parser = MyParser
search_page = agent.get "https://www.example.com"发布于 2015-04-15 13:09:01
如果您想自己处理解析,请不要使用机器获取html数据。使用其他gem只需获取html,然后手动解析它。如果您不使用它的解析,那么使用机械化又有什么意义呢?
https://stackoverflow.com/questions/29649213
复制相似问题