首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用“美女汤”寻找版权人物

用“美女汤”寻找版权人物
EN

Stack Overflow用户
提问于 2018-09-22 15:45:58
回答 1查看 234关注 0票数 0

我是一只美丽的汤.我的挑战是:

我有一个3000个网址的列表,我用它来查找公司的名称。我想做的是:

  1. 刮掉主页
  2. 搜索c字符
  3. 如果找到了(C),就刮掉p元素的内容(例如站点设计/徽标(2018年Stack .);在cc by-sa 3.0下授权的用户贡献(需要属性)。2018.22.31657)

这看起来很简单,但是我读过的所有教程都假设了一个用例,其中多个内容元素正在从一个单个url中被抓取,所以在我的示例中可以根据标记、属性等进行搜索,我无法检查每个网站的html,所以我需要搜索一个字符。

任何帮助都将不胜感激!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-27 14:00:25

以下几点应该能让你开始:

代码语言:javascript
复制
from bs4 import BeautifulSoup
import requests
import re

for url in ['http://www.apple.com/', 'http://www.google.com', 'http://www.stackoverflow.com/']:
    html = requests.get(url)
    soup = BeautifulSoup(html.content, 'html.parser')

    for text in soup.stripped_strings:
        if '©' in text:
            text = re.sub(r'\s+', ' ', text)  # condense any whitespace
            print(f'"{url}"  {text}')

它将显示:

代码语言:javascript
复制
"http://www.apple.com/"  Copyright © 2018 Apple Inc. All rights reserved.
"http://www.google.com"  © 2018 -
"http://www.stackoverflow.com/"  site design / logo © 2018 Stack Exchange Inc; user contributions licensed under

使用Python 3.6.6进行测试

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52458279

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档