我使用Pandas将数据存储为数据。在这些专栏中,我有一个“产品”栏,其中包含品牌名称和型号(例如耐克、约旦航空、阿迪达斯、瞪羚)。我想要创建一个新的专栏,其中只包含品牌(例如耐克,阿迪达斯),我稍后将在群组中使用它来总结数据。根据我的研究,我相信包含和regex可以用来做这件事。然而,执行工作没有奏效。我还看到了不同的方法,有些使用"for I in range“,而另一些则在一行代码中使用替换。
import pandas as pd
import numpy as np
shoes_df = pd.DataFrame({'Product':['Nike vaporfly', 'Nike Jordans', 'Adidas supernova', 'Asics Kayano', 'Asics GT2010', 'Adidas gazelle', 'Nike air max',
'Nike Lebron'], 'Unit sales':[1500, 1600,
2341, 1345, 4523, 2345, 1634, 3129]})
shoes_df['Brand'] = np.where(shoes_df['Product'].str.contains('Nike.*|Adidas.*').any(), 'Nike|Adidas', np.nan)
print(shoes_df)这是我尝试做的“我在范围内”的方法,这也是无效的。在这里,我得到了错误"TypeError:'Series‘对象是可变的,因此它们不能被散列“
shoes_df = pd.DataFrame({'Product':['Nike vaporfly', 'Nike Jordans', 'Adidas supernova', 'Asics Kayano', 'Asics GT2010', 'Adidas gazelle', 'Nike air max',
'Nike Lebron'], 'Unit sales':[1500, 1600, 2341, 1345, 4523,
2345, 1634, 3129]})
for i in shoes_df.iterrows():
if shoes_df['Product'].str.contains('Nike').any():
shoes_df.set_value(i, 'Brand', 'Nike')
elif shoes_df['Product'].str.contains('Adidas').any():
shoes_df.set_value(i, 'Brand', 'Adidas')
elif shoes_df['Product'].str.contains('Asics').any():
shoes_df.set_value(i, 'Brand', 'Asics')
else:
shoes_df.set_value(i, 'Brand', np.nan)发布于 2017-11-14 17:12:42
IIUC:
shoes_df['brand'] = shoes_df.Product.str.extract(pat='(Nike|Adidas|Asics)',expand=False)输出:
Product Unit sales brand
0 Nike vaporfly 1500 Nike
1 Nike Jordans 1600 Nike
2 Adidas supernova 2341 Adidas
3 Asics Kayano 1345 Asics
4 Asics GT2010 4523 Asics
5 Adidas gazelle 2345 Adidas
6 Nike air max 1634 Nike
7 Nike Lebron 3129 Nike发布于 2017-11-14 17:11:32
选项1 (艰难的方法)
str.extract
brands = ['Nike', 'Adidas', 'Asics']
df['Brand'] = df.Product.str.extract('({})'.format('|'.join(brands)), expand=True)
df
Product Unit sales Brand
0 Nike vaporfly 1500 Nike
1 Nike Jordans 1600 Nike
2 Adidas supernova 2341 Adidas
3 Asics Kayano 1345 Asics
4 Asics GT2010 4523 Asics
5 Adidas gazelle 2345 Adidas
6 Nike air max 1634 Nike
7 Nike Lebron 3129 Nike选项2 (稍微简单一些)
str.split
df['Brand'] = df.Product.str.split().str[0]
df
Product Unit sales Brand
0 Nike vaporfly 1500 Nike
1 Nike Jordans 1600 Nike
2 Adidas supernova 2341 Adidas
3 Asics Kayano 1345 Asics
4 Asics GT2010 4523 Asics
5 Adidas gazelle 2345 Adidas
6 Nike air max 1634 Nike
7 Nike Lebron 3129 Nike您可以将其扩展一点,用NaN替换brands中没有的任何内容
df['Brand'] = np.where(df.Brand.isin(brands), df.Brand, np.nan)发布于 2017-11-14 18:01:09
如果您可以假设品牌始终是第一个词,那么解决方案就可以灵活地捕获已知列表之外的品牌,因此只需添加它就可以了:
shoes_df['Product'].str.extract('^([^\s]+)\s')https://stackoverflow.com/questions/47291186
复制相似问题