我有一个文本文件名weburl,它有很多urls,我只想使用regex weburls获取基本urls。
wikimapia.org/1649944/Bahawalpur-Railway-Station
panoramio.com/photo/84118355
wikimapia.org/1649944/Bahawalpur-Railway-Station
nativepakistan.com/photos-of-bahawalpur
defence.pk/threads/pictures-of-pakistan-railways.303027
nativepakistan.com/photos-of-bahawalpur
panoramio.com/photo/51311162
https://hiveminer.com/User/Pakistan Rail Buff需要这个
wikimapia.org
panoramio.com
wikimapia.org
nativepakistan.com
defence.pk
nativepakistan.com
panoramio.com
https://hiveminer.com使用regex我该怎么做?
发布于 2017-04-12 12:18:59
一种解决办法可以是:
^(?:\w+://)?.*?(?::\d+)?(?=/|$)它匹配行的起始(^)和一个可选的协议规范,例如https:// ((?:\w+://)?)。然后,它将任意数量的任何东西(.*?)匹配到一个可选的端口规范--比如:80 ((?::\d+)?)。最后,它检查匹配后是否有一个/、或,这是行$的末尾( psitive前瞻性(?=/|$))。
请注意,如果您不想匹配端口部分,您可以将其移到积极的角度。即^(?:\w+://)?.*?(?=(?::\d+)?(?:/|$))
https://stackoverflow.com/questions/43359308
复制相似问题