我可以用Portia网络爬虫来注释网页,我的问题是如何在提取数据的同时使用Regex。
例如,
我已经从一页中提取了位置。
输出看起来像,
地点: Location,abc

但我只需要xyz,abc值。
我搜索过解决方案,但没有得到更多的信息。
你能解释一下波西亚刮伤的原因吗?
发布于 2015-01-22 16:05:08
您需要使用捕获组来提取数据,因此在本例中:
Location: (.*)这告诉portia提取Location:字符串后面的所有数据。
例如,如果您只想提取Location:和,之间的所有数据,可以使用以下方法:
Location: (.*),您还可以将信息放置在捕获组中,以便提取到和包含您的模式的所有数据。
https://stackoverflow.com/questions/28071923
复制相似问题