首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >木偶人-抓取所有a->innerText

木偶人-抓取所有a->innerText
EN

Stack Overflow用户
提问于 2021-11-26 07:44:00
回答 2查看 40关注 0票数 0

我有这部分网页,我想抓取href或innerText

代码语言:javascript
复制
<span class="hash-tag text-truncate"><a href="/url/blabla" target="_parent"><<test that i want to scrape>></a></span>

这是我的代码:

代码语言:javascript
复制
 const nodeChildren = await page.$$('.hash-tag', (uiElement) => {
        uiElement.map((option) => option.innerText)
    });
    console.log(nodeChildren);

结果是:

代码语言:javascript
复制
_page: Page {
      eventsMap: Map(0) {},
      emitter: [Object],
      _closed: false,
      _timeoutSettings: [TimeoutSettings],
      _pageBindings: Map(0) {},
      _javascriptEnabled: true,
      _workers: Map(0) {},
      _fileChooserInterceptors: Set(0) {},
      _userDragInterceptionEnabled: false,
      _handlerMap: [WeakMap],
      _client: [CDPSession],

我怎么能做到呢?

EN

回答 2

Stack Overflow用户

发布于 2021-11-27 14:12:50

尝试:

代码语言:javascript
复制
const textAndHrefs = await page.$$eval(".hash-tag a", els =>
    els.map(el => ({text: el.innerText, href: el.href})))
票数 0
EN

Stack Overflow用户

发布于 2021-11-26 13:39:09

尝试使用textContent而不是innerText,因为它在Puppeteer中有很多buggy。

代码语言:javascript
复制
 const nodeChildren = await page.$$('.hash-tag', (uiElement) => {
        uiElement.map((option) => option.textContent)
    });
    console.log(nodeChildren);
票数 -2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70120988

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档