我正在努力获取https://shopee.co.id/top_products上排名靠前的产品的销量和类别。但是我被困在如何自动化导航栏上的每个页面上。特别是有一个扩展的列表,我不能仅仅通过查看html代码就知道如何进入。这是web的图片,以及我的一些代码:
from selenium import webdriver
from bs4 import BeautifulSoup as bs
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36',
'cookie': '_gcl_au=1.1.961206468.1594951946; _med=refer; _fbp=fb.2.1594951949275.1940955365; SPC_IA=-1; SPC_F=y1evilme0ImdfEmNWEc08bul3d8toc33; REC_T_ID=fab983c8-c7d2-11ea-a977-ccbbfe23657a; SPC_SI=uv1y64sfvhx3w6dir503ixw89ve2ixt4; _gid=GA1.3.413262278.1594951963; SPC_U=286107140; SPC_EC=GwoQmu7TiknULYXKODlEi5vEgjawyqNcpIWQjoxjQEW2yJ3H/jsB1Pw9iCgGRGYFfAkT/Ej00ruDcf7DHjg4eNGWbCG+0uXcKb7bqLDcn+A2hEl1XMtj1FCCIES7k17xoVdYW1tGg0qaXnSz0/Uf3iaEIIk7Q9rqsnT+COWVg8Y=; csrftoken=5MdKKnZH5boQXpaAza1kOVLRFBjx1eij; welcomePkgShown=true; _ga=GA1.1.1693450966.1594951955; _dc_gtm_UA-61904553-8=1; REC_MD_30_2002454304=1595153616; _ga_SW6D8G0HXK=GS1.1.1595152099.14.1.1595153019.0; REC_MD_41_1000044=1595153318_0_50_0_49; SPC_R_T_ID="Am9bCo3cc3Jno2mV5RDkLJIVsbIWEDTC6ezJknXdVVRfxlQRoGDcya57fIQsioFKZWhP8/9PAGhldR0L/efzcrKONe62GAzvsztkZHfAl0I="; SPC_T_IV="IETR5YkWloW3OcKf80c6RQ=="; SPC_R_T_IV="IETR5YkWloW3OcKf80c6RQ=="; SPC_T_ID="Am9bCo3cc3Jno2mV5RDkLJIVsbIWEDTC6ezJknXdVVRfxlQRoGDcya57fIQsioFKZWhP8/9PAGhldR0L/efzcrKONe62GAzvsztkZHfAl0I="'
}
driver = webdriver.Chrome(executable_path='/usr/local/bin/chromedriver')
shopee_url = 'https://shopee.co.id/top_products'
driver.get(shopee_url)
driver.implicitly_wait(15)
response = driver.page_source
driver.close()
soup = bs(response, "html.parser")
url_list = []
for tags in soup.find_all('li', attrs={'class': 'stardust-tabs-header__tab stardust-tabs-header__tab--active'}):
for a tag in tags.find_all('a',):
url_list.append()

发布于 2020-07-20 08:17:09

看看网络选项卡,这里有几个调用,例如:https://shopee.co.id/api/v4/recommend/recommend?bundle=top_sold_product_microsite&limit=20&offset=0,它将在一个格式良好的json中给出所有的导航栏链接。
有时,您可以通过查看网络选项卡上发出的不同请求,而不是解析html主体来获取更多信息。

如果您查看导航栏中的第一个项目,它显示Kuota Data Internet,如果您单击它,您将被重定向至https://shopee.co.id/top_products?catId=ID_V2L0_65
这意味着导航栏中的每个url都是https://shopee.co.id/top_products?catId=CAT_ID形式的

通过查看https://shopee.co.id/api/v4/recommend/recommend?bundle=top_sold_product_microsite&limit=20&offset=0,您可以找到每个值的CAT_ID,可能会将限制改为20以外的值,将偏移量更改为非0的值
对于Kuota数据互联网,CAT_ID.是ID_V2L0_65,如下所示:

https://stackoverflow.com/questions/62986678
复制相似问题