我目前正试图在这个页面上抓取一个指向谷歌专利的链接,https://datatool.patentsview.org/#detail/patent/10745438,但当我试图打印出所有带有'a‘标签的链接时,只出现了一个无关的网站。
到目前为止,我的代码如下:
url = 'https://datatool.patentsview.org/#detail/patent/10745438'
soup = BeautifulSoup(requests.get(url).content, 'html.parser')
links = []
print(soup)
for link in soup.find_all('a', href=True):
print(link['href'])当我打印出soup时,包含指向google专利的链接的'a‘标签没有打印出来,数组中的链接也没有打印出来。唯一打印出来的就是
http://uspto.gov/
tel:1-800-786-9199
./#viz/relationships
./#viz/locations
./#viz/comparisons,这些都是不必要的信息。谷歌是否在以某种方式保护他们的链接,或者有没有其他方法可以检索到谷歌专利的链接或重定向到页面?
发布于 2021-06-03 04:45:35
不要刮它,只要做一些链接黑客:
url = 'https://datatool.patentsview.org/#detail/patent/10745438'
google_patents_url = 'https://www.google.com/patents/US' + url.rsplit('/', 1)[1]https://stackoverflow.com/questions/67810601
复制相似问题