我正在从谷歌专利中抓取信息,目前我正试图从每一项专利中抓取“发明领域”部分。然而,当检查html时,它似乎没有自己的"field“类或id来允许我获取信息,所以我不确定我如何能够获得我需要的描述。例如,考虑到这项专利:https://patents.google.com/patent/EP3017304B1/en,我不确定如何从“发明的技术领域”中抓取信息。
一些专利的发明领域可能在不同的地方,比如这个:https://patents.google.com/patent/US8560271B2/en,它甚至只被贴上了“领域”的标签。一些专利可能根本不包含发明领域,或者它们可能被贴上标签或放在不易找到的地方,比如这一项:https://patents.google.com/patent/AU2016304408B2/en。
因此,我不确定我如何能够持续地从专利页面中剔除发明领域
发布于 2021-06-08 04:16:41
您可以这样做:
container = soup.find('ul', {'mxw-id': 'PDES120175635'}).find('div', {'num': '0001'}).string从“本发明的技术领域”获取文本。其他的也有一个唯一的数字。使用inspect控制台。
https://stackoverflow.com/questions/67874930
复制相似问题