首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Web抓取和承诺

Web抓取和承诺
EN

Stack Overflow用户
提问于 2018-05-04 22:56:11
回答 2查看 348关注 0票数 0

我正在使用cheerio和node进行web抓取,但我对promises有一个问题。我可以从一个页面上抓取一个文章列表,但在这个列表中,我们有更多的单页链接。我也需要为列表上的每个项目抓取单页。我将向您展示我的代码,以获得更好的解决方案。

代码语言:javascript
复制
import rp from 'request-promise'
import cheerio from 'cheerio'
import conn from './connection'

const flexJob = `https://www.flexjobs.com`
const flexJobCategory = ['account-management', 'bilingual']

class WebScraping {

    //list of article e.g for page 2
    results = [] // [[title], [link for page],...]
    contentPage = [] //content for each page

    scrapeWeb(link) {
        let fullLink = `${link}/jobs/${flexJobCategory[1]}?page=2`
        const options = {
            uri: fullLink,
            transform(body) {
                return cheerio.load(body)
            }
        }
        rp(options)
            .then(($) => {
                console.log(fullLink)
                $('.featured-job').each((index, value) => {

                    //html nodes
                    let shortDescription = value.children[1].children[1].children[3].children[1].children[1].children[0].data
                    let link = value.children[1].children[1].children[1].children[1].children[1].children[0].attribs.href
                    let pageLink = flexJob + '' + link
                    let title = value.children[1].children[1].children[1].children[1].children[1].children[0].children[0].data
                    let place = value.children[1].children[1].children[1].children[1].children[3].children[1].data
                    let jobType = value.children[1].children[1].children[1].children[1].children[3].children[0].children[0].data
                    this.results.push([title, '', pageLink.replace(/\s/g, ''), '', shortDescription.replace(/\n/g, ''), place, jobType, 'PageContent::: '])
                })
            })
            .then(() => {
                this.results.forEach(element => {
                    console.log('link: ', element[2])
                    this.scrapePage(element[2])
                });
            })
            .then(() => {
                console.log('print content page', this.contentPage)
            })
            .then(() => {
                //this.insertIntoDB()
                console.log('insert into db')
            })
            .catch((err) => {
                console.log(err)
            })

    }

    /**
     * It's going to scrape all pages from list of jobs
     * @param {Any} pageLink 
     * @param {Number} count 
     */
    scrapePage(pageLink) {
        let $this = this
        //console.log('We are in ScrapePage' + pageLink + ': number' + count)
        //this.results[count].push('Hello' + count)
        let content = ''
        const options = {
            uri: pageLink,
            transform(body) {
                return cheerio.load(body)
            }
        }
        rp(options)
            .then(($) => {
                //this.contentPage.push('Hello' + ' : ');
                console.log('Heloo')
            })
            .catch((err) => {
                console.log(err)
            })
    }
    /**
     * This method is going to insert data into Database
    */
    insertIntoDB() {
        conn.connect((err) => {
            var sql = "INSERT INTO contact (title, department, link, salary, short_description, location, job_type, page_detail) VALUES ?"
            var values = this.results
            conn.query(sql, [values], function (err) {
                if (err) throw err
                conn.end()
            })
        })
    }
}
let webScraping = new WebScraping()
let scrapeList =  webScraping.scrapeWeb(flexJob)

因此,在'scrapeWeb‘方法中,在第二个'.then’处,我调用了'scrapePage‘方法,然而,在'scrapePage’方法中,第三个promise在promise之前执行。

EN

回答 2

Stack Overflow用户

发布于 2018-05-04 23:05:11

在那个阶段,你需要更多的控制流。在所有调用都被解决之前,您不希望该.then()的承诺被解决。

您可以使用诸如bluebird之类的Promise库来为您想要运行的所有结果执行Promise.eachPromise.map

或者使用async/await进行类似.then(async () => {})的设置,而不使用.forEach。

代码语言:javascript
复制
for(let element of this.results){
  console.log('link: ', element[2])
  await this.scrapePage(element[2])
}
票数 2
EN

Stack Overflow用户

发布于 2018-05-05 01:25:46

您遇到了竞态条件问题。

你需要做的第一个调整是让scrapePage返回一个Promise

代码语言:javascript
复制
scrapePage(pageLink) {
        let $this = this
        let content = ''
        const options = {
            uri: pageLink,
            transform(body) {
                return cheerio.load(body)
            }
        }
        return rp(options);
    }

在第二个than中,您需要调用所有的子页面抓取,例如:

代码语言:javascript
复制
.then(() => {
return Promise.all(this.results.map(childPage => this.scrapePage(childPage)));
})

这会将子页面的所有碎片包装到promises中,并且只有当所有这些都被解决时,代码才会流动。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50177779

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档