首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从python中的文本文件中获取基本urls?

如何从python中的文本文件中获取基本urls?
EN

Stack Overflow用户
提问于 2017-04-12 02:39:38
回答 1查看 70关注 0票数 0

我有一个文本文件名weburl,它有很多urls,我只想使用regex weburls获取基本urls。

代码语言:javascript
复制
 wikimapia.org/1649944/Bahawalpur-Railway-Station
 panoramio.com/photo/84118355
 wikimapia.org/1649944/Bahawalpur-Railway-Station
 nativepakistan.com/photos-of-bahawalpur
 defence.pk/threads/pictures-of-pakistan-railways.303027
 nativepakistan.com/photos-of-bahawalpur
 panoramio.com/photo/51311162
 https://hiveminer.com/User/Pakistan Rail Buff

需要这个

代码语言:javascript
复制
 wikimapia.org
 panoramio.com
 wikimapia.org
 nativepakistan.com
 defence.pk
 nativepakistan.com
 panoramio.com
 https://hiveminer.com

使用regex我该怎么做?

EN

回答 1

Stack Overflow用户

发布于 2017-04-12 12:18:59

一种解决办法可以是:

代码语言:javascript
复制
^(?:\w+://)?.*?(?::\d+)?(?=/|$)

它匹配行的起始(^)和一个可选的协议规范,例如https:// ((?:\w+://)?)。然后,它将任意数量的任何东西(.*?)匹配到一个可选的端口规范--比如:80 ((?::\d+)?)。最后,它检查匹配后是否有一个/,这是行$的末尾( psitive前瞻性(?=/|$))。

在regex101这里看看

请注意,如果您不想匹配端口部分,您可以将其移到积极的角度。即^(?:\w+://)?.*?(?=(?::\d+)?(?:/|$))

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43359308

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档