我对Web抓取和python这两个领域还比较陌生。我正试图从一家超市/在线Grocery商店收集数据。我在清理刮过的数据样本时遇到了一个问题。
考虑到上面的数据样本,我想把数量和产品名称分开。必需格式名称-Tata盐渍,低钠,数量-1公斤名称-财富卡奇加尼纯芥子油
数量-1升等等.我试着用正则表达式把它分开
re.split("[,/._-]+", i)但取得了部分成功。有人能帮我如何处理数据集吗?提前谢谢。
发布于 2018-10-26 12:38:13
您可以尝试为每个字符串实现以下解决方案:
text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)https://stackoverflow.com/questions/53007015
复制相似问题