文章/答案/技术大牛

发布

社区首页 >问答首页 >这可以从html src中提取人类可读的内容吗？

问这可以从html src中提取人类可读的内容吗？
EN

Stack Overflow用户

提问于 2012-02-29 09:31:25

回答 3查看 281关注 0票数 1

HTML是一种标记语言，混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但我能看到的只有html代码。我可以一个接一个地提取所有的HTML标记来提取文本，并将其图像输出。(至少，我可以grep大多数数据，但不能grep javascript插入的数据)而不是这样做，我可以有一种更有效的方法来这样做吗？谢谢。

*使用java作为编程语言

java

html

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-02-29 09:43:12

我最喜欢用来抓取网站的是BeutifulSoup扩展。以下是其文档的链接。第2.1节正在解析HTML代码！

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

票数 1

Stack Overflow用户

发布于 2012-02-29 09:36:14

您可以尝试使用终端模式浏览器(如lynx )将web站点呈现为纯文本，然后对其输出进行内容分析。

票数 0

Stack Overflow用户

发布于 2012-02-29 09:41:59

根据您的超文本标记语言的复杂程度和良好的结构，您可以创建一些XSLT来将超文本标记语言转换为更具可读性的内容。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9492387

复制

相似问题

问这可以从html src中提取人类可读的内容吗？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问这可以从html src中提取人类可读的内容吗？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问这可以从html src中提取人类可读的内容吗？
EN