首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >这可以从html src中提取人类可读的内容吗?

这可以从html src中提取人类可读的内容吗?
EN

Stack Overflow用户
提问于 2012-02-29 09:31:25
回答 3查看 281关注 0票数 1

HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但我能看到的只有html代码。我可以一个接一个地提取所有的HTML标记来提取文本,并将其图像输出。(至少,我可以grep大多数数据,但不能grep javascript插入的数据)而不是这样做,我可以有一种更有效的方法来这样做吗?谢谢。

*使用java作为编程语言

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-02-29 09:43:12

我最喜欢用来抓取网站的是BeutifulSoup扩展。以下是其文档的链接。第2.1节正在解析HTML代码!

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

票数 1
EN

Stack Overflow用户

发布于 2012-02-29 09:36:14

您可以尝试使用终端模式浏览器(如lynx )将web站点呈现为纯文本,然后对其输出进行内容分析。

票数 0
EN

Stack Overflow用户

发布于 2012-02-29 09:41:59

根据您的超文本标记语言的复杂程度和良好的结构,您可以创建一些XSLT来将超文本标记语言转换为更具可读性的内容。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9492387

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档