首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python抓取:从非结构化数据中拆分数量

Python抓取:从非结构化数据中拆分数量
EN

Stack Overflow用户
提问于 2018-10-26 10:46:35
回答 1查看 156关注 0票数 0

我对Web抓取和python这两个领域还比较陌生。我正试图从一家超市/在线Grocery商店收集数据。我在清理刮过的数据样本时遇到了一个问题。

  • 塔塔盐,低钠,1kg
  • “财富”杂志Kachi Ghani纯芥子油,1L (宠物奶瓶)
  • 波旁布利斯,150 g(购买3 Get 1免费)亚马逊品牌
  • Vedaka Popular Toor/Arhar Dal,1公斤
  • Eno瓶100克(普通) Pro
  • 天然100%有机Masoor黑色整体,500克
  • 冲浪Excel液体洗涤剂1.05 L

考虑到上面的数据样本,我想把数量和产品名称分开。必需格式名称-Tata盐渍,低钠,数量-1公斤名称-财富卡奇加尼纯芥子油

数量-1升等等.我试着用正则表达式把它分开

代码语言:javascript
复制
re.split("[,/._-]+", i)

但取得了部分成功。有人能帮我如何处理数据集吗?提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2018-10-26 12:38:13

您可以尝试为每个字符串实现以下解决方案:

代码语言:javascript
复制
text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53007015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档