首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >获取具有加载屏幕的页面的html

获取具有加载屏幕的页面的html
EN

Stack Overflow用户
提问于 2020-06-09 02:08:47
回答 2查看 90关注 0票数 1

我正在尝试获取instagram个人资料页面的html,但当我使用requests库时,它会获取加载屏幕的html,而我希望在加载后获得页面的html。这是我的代码:

代码语言:javascript
复制
from bs4 import BeautifulSoup
import requests

source = requests.get("https://www.instagram.com/ethieen/").text
soup = BeautifulSoup(source,"lxml")
body = soup.find("body")

print(body.prettify())
EN

回答 2

Stack Overflow用户

发布于 2020-06-09 02:16:55

该端可能使用JavaScript,因此您希望能够使用BeautifulSoup访问它,因为它不支持JavaScript。

要测试这一点,您可以在浏览器中停用JS,然后导航到该页面。加载的内容是您可以通过BeautifulSoup访问的内容。

票数 1
EN

Stack Overflow用户

发布于 2020-06-09 02:17:54

此页面由js (ajax)加载。您可以使用puppeteer实现这一点

代码语言:javascript
复制
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://www.instagram.com/ethieen', {waitUntil: 'networkidle2'});
  await page.pdf({path: 'hn.pdf', format: 'A4'});

  await browser.close();
})();
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62268534

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档