首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >urlparse在每个url上都完全失败

urlparse在每个url上都完全失败
EN

Stack Overflow用户
提问于 2013-02-01 02:09:06
回答 2查看 339关注 0票数 2

下面的代码没有返回一个非空的urlparse.netloc或urlparse.scheme。方案和netloc被放在path组件的前面。请问我做错了什么?

代码语言:javascript
复制
#! /usr/bin/python
# -*- coding: UTF-8 -*-

from urllib import urlopen  
from urlparse import urlparse, urljoin 
import re   
link_exp = re.compile("href=(.+?)(?:'|\")", re.UNICODE)  

flux = urlopen("http://www.w3.org") 
links = [urlparse(x) for x in link_exp.findall(flux.read())]
for x in links : 
    print x

这将提取每一个(?也许我的正则表达式是错的) url,并打印它,除了'http://‘总是在路径中,而不是在方案中。怎么会这样?当我解决了这个问题后,我可能应该重新实现urlparse功能,因为这是一个课程练习,而不是一个真实的场景。很抱歉没有更清楚地说明这一点!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-02-01 02:16:03

您的正则表达式是错误的:

代码语言:javascript
复制
x = "<a href='http://www.bbcnews.com'>foo</a>"
link_exp.findall(x)
# ["'http://www.bbcnews.com"]

请注意,您包含了开头的引号。

票数 2
EN

Stack Overflow用户

发布于 2013-02-01 02:19:44

使用以下命令:

代码语言:javascript
复制
link_exp = re.compile(r"href=\"(.+?)(?:'|\")", re.UNICODE)  

输出:

代码语言:javascript
复制
...
ParseResult(scheme='http', netloc='ev.buaa.edu.cn', path='/', params='', query='', fragment='')
...
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14632333

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档