文章/答案/技术大牛

发布

社区首页 >问答首页 >用“美女汤”寻找版权人物

问用“美女汤”寻找版权人物
EN

Stack Overflow用户

提问于 2018-09-22 15:45:58

回答 1查看 234关注 0票数 0

我是一只美丽的汤.我的挑战是：

我有一个3000个网址的列表，我用它来查找公司的名称。我想做的是：

刮掉主页
搜索c字符
如果找到了(C)，就刮掉p元素的内容(例如站点设计/徽标(2018年Stack .)；在cc by-sa 3.0下授权的用户贡献(需要属性)。2018.22.31657)

这看起来很简单，但是我读过的所有教程都假设了一个用例，其中多个内容元素正在从一个单个url中被抓取，所以在我的示例中可以根据标记、属性等进行搜索，我无法检查每个网站的html，所以我需要搜索一个字符。

任何帮助都将不胜感激！

python

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-27 14:00:25

以下几点应该能让你开始：

from bs4 import BeautifulSoup
import requests
import re

for url in ['http://www.apple.com/', 'http://www.google.com', 'http://www.stackoverflow.com/']:
    html = requests.get(url)
    soup = BeautifulSoup(html.content, 'html.parser')

    for text in soup.stripped_strings:
        if '©' in text:
            text = re.sub(r'\s+', ' ', text)  # condense any whitespace
            print(f'"{url}"  {text}')

它将显示：

"http://www.apple.com/"  Copyright © 2018 Apple Inc. All rights reserved.
"http://www.google.com"  © 2018 -
"http://www.stackoverflow.com/"  site design / logo © 2018 Stack Exchange Inc; user contributions licensed under

使用Python 3.6.6进行测试

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52458279

复制

相似问题

问用“美女汤”寻找版权人物
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用“美女汤”寻找版权人物EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用“美女汤”寻找版权人物
EN