首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用BeautifulSoup或golang colly解析HTML时出现问题

使用BeautifulSoup或golang colly解析HTML时出现问题
EN

Stack Overflow用户
提问于 2018-07-12 15:23:36
回答 0查看 1.5K关注 0票数 0

FTR我已经在两个框架中成功地编写了相当多的刮板,但我被难住了。以下是我试图抓取的数据的屏幕截图(您也可以转到get请求中的实际链接):

我尝试以div.section_content为目标

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup
html = requests.get("https://www.baseball-reference.com/boxes/ARI/ARI201803300.shtml").text
soup = BeautifulSoup(html)
soup.findAll("div", {"class": "section_content"})

打印最后一行显示了其他一些div,但没有显示包含俯仰数据的div。

但是,我可以在文本中看到它,所以它不是javascript触发的加载问题(短语"Pitching“只出现在该表中):

代码语言:javascript
复制
>>> "Pitching" in soup.text
True

以下是其中一个golang尝试的缩写版本:

代码语言:javascript
复制
package main

import (
    "fmt"
    "github.com/gocolly/colly"
) 

func main() {
    c := colly.NewCollector(
            colly.AllowedDomains("www.baseball-reference.com"),
    )   
    c.OnHTML("div.table_wrapper", func(e *colly.HTMLElement) {
            fmt.Println(e.ChildText("div.section_content"))
    })  
    c.Visit("https://www.baseball-reference.com/boxes/ARI/ARI201803300.shtml")

}}

EN

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51299572

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档