文章/答案/技术大牛

发布

问HTML数据提取
EN

Stack Overflow用户

提问于 2010-09-19 11:00:57

回答 2查看 424关注 0票数 4

我正在访问一些网站，我需要提取一些数据。更具体地说--来自这一部分：

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

我需要提取"name“部分。我听说reular表达式不是最好的解决方案，所以我想问一下访问我需要的这段数据的最佳方式是什么。

html

regex

groovy

extraction

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-10-04 11:49:14

在使用NekoHTML或TagSoup解析网站之后(这应该会注意到您的输入域标记没有闭合)，我建议使用xpath表达式：

//input[@type='hidden'][@value=1]/@name

在groovy中，您将以GPath的形式应用它。

票数 2

Stack Overflow用户

发布于 2010-09-19 11:14:12

使用Html解析库，他们修复了格式错误的Html，使其能够轻松地导航文档来查找和更新元素。以下是指向Java/Groovy实现列表的链接：

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

看起来NekoHTML和TagSoup很流行，但我还没用过或Groovy。但是我用过其他语言的Html解析器。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3744361

复制

相似问题

问HTML数据提取
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HTML数据提取EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HTML数据提取
EN