首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法通过python和Beautiful Soup抓取google专利URL

无法通过python和Beautiful Soup抓取google专利URL
EN

Stack Overflow用户
提问于 2021-06-03 02:27:09
回答 1查看 76关注 0票数 1

我目前正试图在这个页面上抓取一个指向谷歌专利的链接,https://datatool.patentsview.org/#detail/patent/10745438,但当我试图打印出所有带有'a‘标签的链接时,只出现了一个无关的网站。

到目前为止,我的代码如下:

代码语言:javascript
复制
url = 'https://datatool.patentsview.org/#detail/patent/10745438'
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

links = []
print(soup)
for link in soup.find_all('a', href=True):
    print(link['href'])

当我打印出soup时,包含指向google专利的链接的'a‘标签没有打印出来,数组中的链接也没有打印出来。唯一打印出来的就是

代码语言:javascript
复制
http://uspto.gov/
tel:1-800-786-9199
./#viz/relationships
./#viz/locations
./#viz/comparisons

,这些都是不必要的信息。谷歌是否在以某种方式保护他们的链接,或者有没有其他方法可以检索到谷歌专利的链接或重定向到页面?

EN

回答 1

Stack Overflow用户

发布于 2021-06-03 04:45:35

不要刮它,只要做一些链接黑客:

代码语言:javascript
复制
url = 'https://datatool.patentsview.org/#detail/patent/10745438'
google_patents_url = 'https://www.google.com/patents/US' + url.rsplit('/', 1)[1]
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67810601

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档