19040172b-1、SQL Server开发、、3-5,7-14、D-101,
<div id="AE9D7F630640426F8457A661607D2B8E-5-2" style="display: none;" class="kbcontent">
19040172b-1
<br>SQL Server Develop
<br>
<font title="teacher">zheng</font>
<br>
<font title="week">3-5,7-14</font>
<br>
<font title="classroom">D-101</font>
<br>
</div>
我试过以下几种方法,但失败了。
1. Pattern pattern = Pattern.compile(">(.*?)<br>");
2. Elements msg = doc.select(":matchesOwn([>.*?<br>])");发布于 2016-09-08 08:31:38
String html = "<div id=\"AE9D7F630640426F8457A661607D2B8E-5-2\" style=\"display: none;\" class=\"kbcontent\"> 19040172b-1 <br>SQL Server Develop <br> <font title=\"teacher\">zheng</font> <br> <font title=\"week\">3-5,7-14</font> <br> <font title=\"classroom\">D-101</font> <br> </div> ";
html = html.replaceAll("<br>", "#~#");
Document doc = Jsoup.parse(html.toString());
String newHtml = doc.text();
String[] ary = newHtml.split("#~#");这将完成任务,但可能还有其他干净的方法来替换br标记。
发布于 2016-09-08 08:46:51
1)首先,用正则表达式解析HTMl从来都不是一个好主意。You can read more about that here。
2)你可以在标签之间取下所有的文本。
Document doc = Jsoup.parse(file, charsetName);
String text= doc.text();
System.out.println(text);https://stackoverflow.com/questions/39385808
复制相似问题