首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Java实现HTML数据抽取

用Java实现HTML数据抽取
EN

Stack Overflow用户
提问于 2011-06-28 00:46:10
回答 3查看 2K关注 0票数 1

我有类似如下的HTML代码:

代码语言:javascript
复制
<tr><td >1    </td>
<td class="tab-links">Value 1</td>
</tr>
<tr><td >2    </td>
<td class="tab-links">Value 2</td>
</tr>
<tr><td >3    </td>
<td class="tab-links">Value 3</td>
</tr>
<tr><td >4    </td>
<td class="tab-links">Value 4</td>
</tr>

现在我想提取如下数据:

代码语言:javascript
复制
1 : Value 1
2 : Value 2
3 : Value 3
4 : Value 4

有什么想法吗?

EN

回答 3

Stack Overflow用户

发布于 2011-06-28 00:57:37

正如在this post中所描述的,您不应该使用正则表达式来解析。

请改用XML/HTML解析器。

票数 2
EN

Stack Overflow用户

发布于 2011-06-28 00:51:34

假设html格式良好,您可以使用HtmlUnit解析html。

如果只有一个表,您也可以编写自己的regular expression来处理页面,但我强烈建议您不要这样做,因为如果页面添加了其他表,则正则表达式可能会产生奇怪的结果,而使用HtmlUnit,您可以在开始解析或仅针对所需的表之前验证页面是否只有一个表。

票数 1
EN

Stack Overflow用户

发布于 2011-06-28 01:27:17

http://htmlcleaner.sourceforge.net/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

是众所周知的用于java的html解析器。您可以使用它们中的任何一个。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6496134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档