我正在尝试使用parsehub从一个网站中提取数据。使用选择工具,我能够隔离每个部分的标题标题,但是我不能使用alt取消选择第二个标题行的第一个单元格。选择节点标准会更改,但实际选择不会更改。所讨论的HTML块
<tr>
<td width="100%" align="center">
<table width="493">
<tr><td></td></tr>
<tr><td colspan="3"> </td></tr>
<tr bgcolor="#99cc00" height="17">
<th height="17" colspan="3" title="Scratcher Name"><div align="center" class="txt_white_bold">LUCKY 7`S #348</div></th>
</tr>
<tr bgcolor="#99cc00" height="17">
<th height="17"><div align="center" class="txt_white_bold">Prize Amount</div></th>
<th align="right"><div align="center" class="txt_white_bold">Prizes Remaining</div></th>
<th align="right"><div align="center" class="txt_white_bold">Total Prizes</div></th>
</tr>选择节点代码如下所示
{
"op": "select",
"tag": "TR",
"allDescendants": true,
"flags": [
{
"position": 4
}
]
}选择2
{
"op": "select",
"tag": "TH",
"position": 1
}选择3
{
"op": "select",
"tag": "DIV",
"classes": [
"txt_white_bold"
],
"position": 1
}当前输出是
{
"selection1":[
{
"extract1":"LUCKY 7`S #348"
},
{
"extract1":"Prize Amount"
},等等。如何选择"Scratcher名称“而不选择”奖励金额“?
我的第一个想法是将‘Select3’更改为在TH中选择具有title="Scratcher名称“的项,但我没有成功地正确编码它。
发布于 2015-06-02 19:30:16
ParseHub的学习算法还没有考虑到所有的属性,所以在某些情况下(非常罕见),它不会做您期望的事情。在这种情况下,您可以始终使用css或xpath选择器手动选择所需的元素。
为此:
{ "op": "cssSelect", "selector": "th[title='Scratcher Name'] div.txt_white_bold", "allDescendants": true }如果您想使用xpath,也可以使用xpathSelect。
https://stackoverflow.com/questions/30602901
复制相似问题