我有保险数据,它有一个名为“Region”的Colum,其中指定了区域。为了实现数据可视化的目的,我需要将这些字母值更改为数字值,即南方应该更改为1。如果区域只有1或2,我可以更改它,但由于区域数越大,就不可能。有什么方法可以做到吗?下面是我目前所做的代码(不确定它是否正确)
k = insurance.shape[0]
dict1={}
for i in range(k):
if insurance['region'][i] in dict1:
print('Testing')
else:
dict1[i] = insurance['region'][i]
print(dict1)解决上述问题的代码应该是什么?
发布于 2021-03-02 16:09:21
如果你可以使用第三方库,你可以利用factorize。在文档之后,这里以玩具数据为例:
import pandas as pd
df = pd.DataFrame({"region": ["b", "c", "d" , "a", "a"]})
df["region_as_num"], _ = pd.factorize(df["region"], sort=True)https://stackoverflow.com/questions/66442802
复制相似问题