<tr>
<th align="LEFT" bgcolor="GREY"> <span class="smallfont">Higher-order
Theorems</span>
</th><th bgcolor="PINK"> <em><a href="\
[http://www.tptp.org/CASC/J9/SystemDescriptions.html#Satallax---3.2\]
(http://www.tptp.org/CASC/J9/SystemDescriptions.html#Satallax--
-3.2)">Satallax</a><br><span class="xxsmallfont">3.2</span></em>
</th><th bgcolor="SKYBLUE"> <a href="\
[http://www.tptp.org/CASC/J9/SystemDescriptions.html#Satallax---3.3\]
(http://www.tptp.org/CASC/J9/SystemDescriptions.html#Satallax--
-3.3)">Satallax</a><br><span class="xxsmallfont">3.3</span>
</th><th bgcolor="LIME"> <a href="\
[http://www.tptp.org/CASC/J9/SystemDescriptions.html#Leo-III---1.3\]
(http://www.tptp.org/CASC/J9/SystemDescriptions.html#Leo-III--
-1.3)">Leo‑III</a><br><span class="xxsmallfont">1.3</span>
</th><th bgcolor="YELLOW"> <a href="\
[http://www.tptp.org/CASC/J9/SystemDescriptions.html#LEO-II---1.7.0\]
(http://www.tptp.org/CASC/J9/SystemDescriptions.html#LEO-II--
-1.7.0)">LEO‑II</a><br><span class="xxsmallfont">1.7.0</span>
</th></tr>因此,假设我想提取bgcolor、对齐和包含在span类中的内容。例如灰,左,高阶定理。
如果我只想提取最起码的bgcolor,但理想情况下,所有3,我会怎么做呢?
所以我试着提取bgcolor和
我已经尝试过doc.select(“tr:bgcolor(Bgcolor)”)、doc.select(th、[bgcolor)、doc.select(bgcolor)、doc.select(tr:containsdata(bgcolor) )以及doc.select(style),它们都没有返回输出或返回一个解析错误。我可以很好地提取span类中的内容,但更多的问题是提取bgcolor和对齐。
发布于 2018-11-26 11:04:14
您只需将想要丢弃的HTML代码解析为JSOUP,然后使用attr选择器从JSOUP元素中选择HTML标记的属性,这将为HTML中的每个th标记提供该属性的值。要检索span标记之间包含的文本,您需要在th中选择嵌套的span并获取.text()。
Document document = Jsoup.parse(YOUT HTML GOES HERE);
System.out.println(document);
Elements elements = document.select("tr > th");
for (Element element : elements) {
String align = element.attr("align");
String color = element.attr("bgcolor");
String spanText = element.select("span").text();
System.out.println("Align is " + align +
"\nBackground Color is " + color +
"\nSpan Text is " + spanText);
}任何进一步的信息,请随时问我!希望这能帮到你!
对评论的最新答复:
要做到这一点,您需要在for每个循环中使用这一行:
String fullText = element.text();这样,您就可以获得所选元素标记之间包含的所有文本,但是您应该查找这个博客并将您想要的查询放入其中。我猜您还需要检查字符串是否为空,并使用if条件对每种可能的情况执行单独的查询。
这意味着有一个用于此结构:tr > th > span,另一个用于此结构:tr > th > em,另一个用于:tr > th。
https://stackoverflow.com/questions/53470365
复制相似问题