首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SAS Dataframe to CSV

SAS Dataframe to CSV
EN

Stack Overflow用户
提问于 2021-05-07 14:53:00
回答 1查看 1.4K关注 0票数 0

相对来说,我对熊猫和探索的东西还比较陌生。我有一个要求,解释如下。我使用的是AWS控制台(SageMaker)

文件夹中的一组SAS7BDAT文件,每个文件都具有不同的结构。这些文件将转换为CSV,但有以下挑战。

  1. 所有SAS7BDAT文件的数据质量都很差。比方说,列值在数据‘\r\n nSkinProduct,Cream’(在此数据中允许逗号,但不允许换行符或回车)的
  2. 中具有特殊字符,当尝试使用带有batch_to_csv函数的sas7bdat_converter包时,csv文件用双引号创建,数值用浮点数(例如200值变为200.0)

我尝试了下面的代码,但不知道我错过了什么

代码语言:javascript
复制
from sas7bdat import SAS7BDAT 
file = "<folder/name/aaaa.sas7bdat"
with SAS7BDAT(file, skip_header=False) as reader:
    df = reader.to_data_frame()
df

import re
df1=df.apply(lambda k:re.sub("[\n\r\t]", "",df), axis=0, raw=False, result_type=None, args=())
df1

有人能帮帮我吗?(我尚未尝试转换为csv,但希望查看数据后的质量校正)

EN

回答 1

Stack Overflow用户

发布于 2021-05-19 19:39:53

下午好,

导入SAS数据集

当重要的SAS文件进入Python时,尝试使用Pandas .read_sas()函数。如果字符给您带来麻烦,请尝试将encoding='latin-1'传递给函数。

代码语言:javascript
复制
import python as pd

df = pd.read_sas(file, encoding='latin-1')

df.head()

如果正则表达式步骤仍然是必需的,那么可以提供文本当前状态的示例以及您希望它的样子吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67437204

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档