首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Regex/Difflib/Datastructure算法问题

Regex/Difflib/Datastructure算法问题
EN

Stack Overflow用户
提问于 2020-10-14 23:19:20
回答 1查看 34关注 0票数 0

谢谢你提前提供帮助。对于当前的问题,我遇到了一些麻烦,我的数据集都以CSV格式表示相同的数据,只是列名在一定程度上有所不同。

  • ME_loard_MW
  • ME_loard
  • ME_load

作为3组数据的标题名,我正在尝试开发一个函数来解析列名(大熊猫),并将所有上传数据集的名称更改为一个特定的集合。我尝试过的方法是使用Regex函数,例如

代码语言:javascript
复制
def renamefunc(col_name):
    if re.match(myregex, col_name, flags=re.I):
        return "FLOW202"
    else:
        return col_name

我还考虑过使用difflib模块(Get_close_matches),因为所有列名都是不同的,因此第一个list元素将是我所针对的元素。最后,我一直在考虑使用字典/算法,但自从4月开始编程以来,这有点超出了我的范围。任何输入/反馈/批评都是非常欢迎的,我的目标是改进!附件是我希望遇到的数据集类型的图像。

EN

回答 1

Stack Overflow用户

发布于 2020-10-15 00:07:44

似乎您希望将所有数据集中的列名更改为特定集。假设您的所有数据集都是对齐的,即它们的列以相同的顺序显示,那么您可以简单地设置列名如下:

代码语言:javascript
复制
import pandas as pd

df = pd.DataFrame({'name':['A','A','B','B','C','C'], 'year': ['2013','2013','2014','2014', '2015','2015'],
    'type': ['up', 'down', 'up', 'down', 'up', 'down'],
    'cost': [30, 15, 20, 15, 30,25]})

column_names_set = ('Name', 'Year', 'Type', 'Cost')

df.columns = column_names_set

我不能比这更具体,因为我看不到您的数据集。也许您要附加的图像不起作用。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64362758

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档