首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我想返回<title>标签,但是return<title>请求了<.title> Python3

我想返回<title>标签,但是return<title>请求了<.title> Python3
EN

Stack Overflow用户
提问于 2017-02-20 11:26:53
回答 2查看 75关注 0票数 0

在python中,我有一个程序可以从URL列表中返回。

当它们被放在一个列表中时,其中一些返回Bad Request

例如,我将两个URL加载到文本文件中:

代码语言:javascript
复制
http://www.scientific.net/MSF
http://www.scientific.net/JMNM

它返回:

代码语言:javascript
复制
<title>Bad Request</title>
<title>Journal of Metastable and Nanocrystalline Materials</title>

如果我只有列表中的第一个URL,代码就可以正常工作。如何让它检索两个标题而不是错误请求?

我的代码:

代码语言:javascript
复制
url_list= []

f = open('test.txt','r') #text file with url 
for line in f:
    url_list.append(line)

for link in url_list:
    try:
        r = requests.get(link)
        soup = BeautifulSoup(r.content,"html.parser") 
        title = soup.title
        title.string = title.get_text(strip = True)
        print(str(title))

    except:
        print("No Title Found ")
        continue
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-02-20 12:23:58

您的问题是从文本文件读取时出现的。在for link in url_list循环中,link的第一个值将是http://www.scientific.net/MSF\n -最后的\n将导致Bad Request错误。在读取代码行时,将\n去掉,代码就可以正常工作了。您的最后一行似乎没有\n,因此简单地使用url_list.append(line[:-1])将在最后一行失败。

票数 1
EN

Stack Overflow用户

发布于 2017-02-20 11:59:51

代码语言:javascript
复制
    r = requests.get(link)
    soup = BeautifulSoup(r.content,"html.parser") 
    #title = soup.title
    titles = soup.find_all('title')
    for title in titles:
        title.string = title.get_text(strip = True)
        print(str(title))

..find()的快捷方式,它将返回第一个匹配,您应该使用find_all()返回所有匹配。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42335987

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档