文章/答案/技术大牛

发布

社区首页 >问答首页 >用动态形式提取部分url

问用动态形式提取部分url
EN

Stack Overflow用户

提问于 2022-04-27 05:36:26

回答 1查看 22关注 0票数 -1

我需要从api响应中提取表示urls.Its的字符串的一部分，并且需要获取特定的部分(称为ASIN)。

示例

https://www.amazon.com/Hayvenhurst-Minimalist-Blocking-Wallets-Obsidian/dp/B091JJZPCM/ref=sr_1_58?keywords=mens+wallet&qid=1651036806&sr=8-58

https://www.amazon.com/Champion-Mens-Advocate-Bifold-Wallet/dp/B07P3CTC3Z/ref=sr_1_56?keywords=mens+wallet&qid=1651036806&sr=8-56

https://www.amazon.com/Timberland-Hunter-Leather-Passcase-Trifold/dp/B00MCW7OGM/ref=sr_1_55?keywords=mens+wallet&qid=1651036806&sr=8-55

对于我来说，提取ASIN编号，它在/dp之后，在url字符串的/ref部分之前。

 print(f"asin {url.split('/')[-2]}")

打印B091JJZPCM,B07P3CTC3Z

但通常情况下，有些urls有不同的模式，例如

https://www.amazon.com/gp/slredirect/picassoRedirect.html/ref=pa_sp_btf_aps_sr_pg1_1?ie=UTF8&adId=A10365631KNJTYYLZ8RME&qualifier=1651036806&id=2996869036517091&widgetName=sp_btf&url=%2FWustentre-Minimalist-Leather-Blocking-Tracker%2Fdp%2FB09NHTNTH8%2Fref%3Dsr_1_59_sspa%3Fkeywords%3Dmens%2Bwallet%26qid%3D1651036806%26sr%3D8-59-spons%26psc%3D1

在这种情况下，如何提取ASIN部分？

python-3.x

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-04-27 12:53:30

通过

        url = "https://amazon.com/**********************"
        asin = url.split("/")[-2]
        if "html" in asin:
            print(f"url {asin}")
            parsed_url = urlparse(url)
            captured_value = parse_qs(parsed_url.query)["url"][0]
            url = f"https://amazon.com{captured_value}"
            print(f"captured url {url}")
            asin = url.split("/")[-2]
            print(f"captured asin {asin}")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72023727

复制

相似问题

问用动态形式提取部分url
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用动态形式提取部分urlEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用动态形式提取部分url
EN