我有类似如下的HTML代码:
<tr><td >1 </td>
<td class="tab-links">Value 1</td>
</tr>
<tr><td >2 </td>
<td class="tab-links">Value 2</td>
</tr>
<tr><td >3 </td>
<td class="tab-links">Value 3</td>
</tr>
<tr><td >4 </td>
<td class="tab-links">Value 4</td>
</tr>现在我想提取如下数据:
1 : Value 1
2 : Value 2
3 : Value 3
4 : Value 4有什么想法吗?
发布于 2011-06-28 00:57:37
正如在this post中所描述的,您不应该使用正则表达式来解析。
请改用XML/HTML解析器。
发布于 2011-06-28 00:51:34
假设html格式良好,您可以使用HtmlUnit解析html。
如果只有一个表,您也可以编写自己的regular expression来处理页面,但我强烈建议您不要这样做,因为如果页面添加了其他表,则正则表达式可能会产生奇怪的结果,而使用HtmlUnit,您可以在开始解析或仅针对所需的表之前验证页面是否只有一个表。
发布于 2011-06-28 01:27:17
http://htmlcleaner.sourceforge.net/
http://jsoup.org/
http://jericho.htmlparser.net/docs/index.html
是众所周知的用于java的html解析器。您可以使用它们中的任何一个。
https://stackoverflow.com/questions/6496134
复制相似问题