首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ImportXML返回空

ImportXML返回空
EN

Stack Overflow用户
提问于 2019-08-14 19:30:11
回答 1查看 851关注 0票数 2

我试图在这个网站上抓取帖子的内容标题:https://www.hortidaily.com/sector/553/greenhouse/

使用Google函数。

所有的帖子都以同样的格式写成:

代码语言:javascript
复制
<a class="article" href="link1">
 <img src="img1.jpg" align="default" border="0" class="indexdefault">      
    <h1>Titre1</h1>
    <p>Texte1</p>
</a>

ImportXML函数的Xpath =:

  • //a@class =‘link1’/@href返回link1: ok
  • //a@class =‘img1’/img/@src返回img1: ok
  • //a@class =‘class’/h1返回#NA (导入的内容为空),尽管XPath正在使用铬XPath助手.

虽然//h11返回第一篇文章的标题,但我不明白为什么//a@class =‘h1’/ h1不能工作,我想确定我得到的h1是第一个<a class="article" href="link1">下的

我已经尝试了几乎所有我能想象到的,没有发现问题。我需要帮助!

提前感谢你

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-14 23:35:26

  • 您希望在第一个h1中检索a[@class ='article']的值。
  • 您想知道//a[@class ='article'][1]/h1为什么返回#NA

如果我的理解是正确的,那么这个答案呢?

问题的原因:

代码语言:javascript
复制
<div id="hoofdartikelen">

  <a class="article" href="link1">
    <img src="img1.jpg" align="default" border="0" class="indexdefault">
    <h1>Titre1</h1>
    <p>Texte1</p>
  </a>

</div>

在我的研究中,对于上面的HTML数据,似乎<a class="article" href="link1">的标记名<a class="article" href="link1">是问题所在。例如,当标记名被修改为div时,它可以确认=IMPORTXML(A1,"//div[@class ='article'][1]/h1")工作正常。

而且,在上面的HTML中,标记h1p似乎不是标记a的子标记。因此,下面的公式起作用。

代码语言:javascript
复制
=IMPORTXML(A1,"//div[@id='hoofdartikelen']/h1[1]")

=IMPORTXML(A1,"//div[@id='hoofdartikelen']/p[1]")

但是,=IMPORTXML(A1,"//div[@id='hoofdartikelen']/img[1]/@src")不起作用。它必须是=IMPORTXML(A1,"//div[@id='hoofdartikelen']/a[1]/img/@src")。因此,标签img似乎是a的子代。

xpath示例:

根据以上结果,在您的示例中,我认为下面的xpath示例可能是合适的。

  • //div[@id='hoofdartikelen']/h1[1]
  • //h1[1]
  • //a[@class ='article']/../h1[1]

参考资料:

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57500922

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档