我需要从api响应中提取表示urls.Its的字符串的一部分,并且需要获取特定的部分(称为ASIN)。
示例
对于我来说,提取ASIN编号,它在/dp之后,在url字符串的/ref部分之前。
print(f"asin {url.split('/')[-2]}") 打印B091JJZPCM,B07P3CTC3Z
但通常情况下,有些urls有不同的模式,例如
在这种情况下,如何提取ASIN部分?
发布于 2022-04-27 12:53:30
通过
url = "https://amazon.com/**********************"
asin = url.split("/")[-2]
if "html" in asin:
print(f"url {asin}")
parsed_url = urlparse(url)
captured_value = parse_qs(parsed_url.query)["url"][0]
url = f"https://amazon.com{captured_value}"
print(f"captured url {url}")
asin = url.split("/")[-2]
print(f"captured asin {asin}")https://stackoverflow.com/questions/72023727
复制相似问题