HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但我能看到的只有html代码。我可以一个接一个地提取所有的HTML标记来提取文本,并将其图像输出。(至少,我可以grep大多数数据,但不能grep javascript插入的数据)而不是这样做,我可以有一种更有效的方法来这样做吗?谢谢。
*使用java作为编程语言
发布于 2012-02-29 09:43:12
我最喜欢用来抓取网站的是BeutifulSoup扩展。以下是其文档的链接。第2.1节正在解析HTML代码!
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
发布于 2012-02-29 09:36:14
您可以尝试使用终端模式浏览器(如lynx )将web站点呈现为纯文本,然后对其输出进行内容分析。
发布于 2012-02-29 09:41:59
根据您的超文本标记语言的复杂程度和良好的结构,您可以创建一些XSLT来将超文本标记语言转换为更具可读性的内容。
https://stackoverflow.com/questions/9492387
复制相似问题