首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python数据分析实践

    数据清洗与准备(2

    df.iloc[:2, 2] = np.nan print(round(df, 2)) #保留两位数字 round(df.fillna(0), 2) #缺失值赋值为0,保留两位数字 -----结果-- --- df: 0 1 2 0 0.35 NaN NaN 1 -1.18 NaN NaN 2 -1.26 -0.62 -1.28 3 -1.44 0.20 0.55 重新赋值: 0 1 2 0 0.35 0.00 0.00 1 -1.18 0.00 0.00 2 -1.26 -0.62 -1.28 3 -1.44 0.20 0.55 为不同列赋不同的填充值: round(df.fillna({1: 0.5, 2: 2.0}), 2) #为第二列缺失值赋0.5,第三列赋值为2 -----结果----- : k1 k2 0 one 1 1 two 1 2 one 2 3 two 3 4 one 3 5 two 4 基于“k1”列删除重复值: print(df.drop_duplicates

    1.1K10编辑于 2023-02-23
  • 来自专栏简书专栏

    房价数据转换和清洗2

    1.下载厦门房价信息源文件 下载链接:https://pan.baidu.com/s/16D5hw-XBEQnwtsf4fDJ8xw 密码:e1fg 2.编写代码 1.原来的数据总共有15列:分别为:标题 floor、装修decoration、社区community、区域region、学校school、房屋详情houseDetail、核心卖点keySellingPoint、配套设施equipment 2. df1.iloc[i] = heightType[1] elif allFloor < 17: df1.iloc[i] = heightType[2] height,decoration,\ district,region],axis=1) df_new.to_excel("厦门房价数据处理结果2. xlsx",columns = df_new.iloc[0].keys()) print("数据处理共花费%.2f秒" %(time.time()-startTime)) 3.数据处理结果截图

    95110发布于 2018-09-10
  • 来自专栏算法channel

    数据清洗常用的 2 个小 trick

    df = pd.DataFrame({'names':["Geordi La Forge", "Deanna Troi", "Jack"],'IDs':[1,2,3]}) df [jpsby6519j.png 列合并方法 2 还有别的合并方法吗,直接使用 + 连接字符串: df["names_copy2"] = df["first_name"] + " "+ df["last_name"] df 效果是一样的 更好可读性的写法 cr1 = df["continent"] == "Europe" cr2 = df["beer_servings"] > 150 cr3 = df["wine_servings"] > 50 cr4 = df["spirit_servings"] < 60 df[cr1 & cr2 & cr3 & cr4] 个人更喜欢后者,虽然代码多几行,但是可读性更好一些,拆开多个过滤条件并分别赋值给对象

    55330发布于 2020-05-08
  • 来自专栏Python机器学习算法说书人

    数据清洗常用的 2 个小 trick

    df = pd.DataFrame({'names':["Geordi La Forge", "Deanna Troi", "Jack"],'IDs':[1,2,3]}) df ? 列合并方法 2 还有别的合并方法吗,直接使用 + 连接字符串: df["names_copy2"] = df["first_name"] + " "+ df["last_name"] df 效果是一样的 更好可读性的写法 cr1 = df["continent"] == "Europe" cr2 = df["beer_servings"] > 150 cr3 = df["wine_servings"] > 50 cr4 = df["spirit_servings"] < 60 df[cr1 & cr2 & cr3 & cr4] 个人更喜欢后者,虽然代码多几行,但是可读性更好一些,拆开多个过滤条件并分别赋值给对象

    62720发布于 2020-05-09
  • 来自专栏about云

    about云日志分析实战之清洗日志小实例2:导入日志清洗代码并打包

    2.打jar包需要哪些步骤? 3.如何找到jar生成路径? 上一篇: about云日志分析实战之清洗日志1:使用spark&Scala分析Apache日志 http://www.aboutyun.com/forum.php? 分析清洗日志,这里面的代码还是比较复杂的。 对于iis日志,可参考 about云日志分析项目准备10-3:Spark Local模式之Log文本清洗 http://www.aboutyun.com/forum.php?

    95860发布于 2018-03-26
  • 来自专栏数据处理与分析

    数据清洗

    数据清洗 一般义的清洗 特殊字符 在数据清洗中最常见的就是特殊字符,一般的特殊字符可以直接替换掉如地址码中最常见的’#’,像这种直接替换为号即可。 全角半角转换 数据由于来源或采集问题,可能会有全角的数字或字母,而一般的系统都不会允许有这种问题,所以需要将这些问题在清洗步骤中处理掉。 错/别字处理 错别字问题在数据清洗中是难度比较大的一部分工作,在这部分工作中,首先要找出错别字,并建立错别字对应的正确字符串的对应关系,然后使用程序批量的完成替换 空值检测 空值是要在数据清洗中过滤掉的 清洗中常用的工具与技术 如果要做地理数据的相关处理,那么FME是应该首选工具,当然,清洗也属于数据处理的范畴。 综上,在数据清洗中,能够掌握FME与Python基本就够了,如果你还会点正则,那就基本上是完美了!就是这样,各位,节日快乐!晚安!

    2.1K20发布于 2019-07-31
  • 【数据清洗

    数据清洗是数据预处理中非常重要的一部分,下面是一个简单的示例代码,展示了如何进行数据清洗: import pandas as pd # 读取数据 data = pd.read_csv('data.csv 最后将清洗后的数据保存到了一个新的文件中。 [1, 2, None, 4], 'B': ['apple', 'banana', 'carrot', ''], 'C': [10, 20, 30, 20] } df = pd.DataFrame print("\n清洗后的数据:") print(df) 这段代码首先创建了一个包含数据的 DataFrame,然后删除了包含空值的行和重复的行,最后重置了索引并输出清洗后的数据。 你可以根据实际需求修改和扩展这段代码来完成更复杂的数据清洗任务。

    26510编辑于 2025-08-29
  • 来自专栏不温卜火

    数据清洗 Chapter01 | 数据清洗概况

    这篇文章讲述的是数据存储方式和数据类型等基本概念、数据清洗的必要性和质量评价的关键点。希望这篇数据清洗的文章对您有所帮助! 2、表格数据 在此,只了解表格数据 1、数据集(数据库) 由数据对象构成 一个数据对象表示一个实体 2、概念 下面的这些表示相似的概念,在不同的地方可以交叉使用 二、数据清洗 1、什么是数据清洗 脏数据 ? 2、为什么要进行数据清洗 从不同渠道获得的数据,集成在一起,组成新的数据集,需要进行数据清洗,来保证数据集的质量 数据分析算法对输入的数据集有要求 显示情况下的数据集质量不禁如人意,需要数据清洗 3、数据存在的问题 四、数据清洗的主要内容 ?

    2.1K31发布于 2020-10-28
  • 来自专栏啥都有的专栏

    rpc系列2-提供上下文RpcContext

    实现要求:提供RPC上下文,客户端可以透传数据给服务端。 实现如下: /** * rpc上下文 * * @author wqx * */ public class RpcContext { private static ThreadLocal private Object[] args; //参数 private Map<String,Object> context; RpcBuilder中在发送请求前,需要从当前上下文中获取数据 RpcRequest rpcRequest = (RpcRequest)req; //关联客户端传来的上下文数据 } 测试: 业务接口增加测试方法: public interface UserService { /** * 上下文测试,透明传输数据 */ public

    97620编辑于 2022-05-12
  • 来自专栏reizhi

    B2C商城返利推广链接清洗脚本

    基于这个原因,我开发了一个用户脚本,用于自动清洗带推广链接。 当然,这个脚本和去广告软件一样,必然会损害某些提供免费服务的人的利益,各位可以自行决定是否安装。 2.点我安装用户脚本管理扩展 Tampermonkey(需访问国外网站),或点我下载CRX文件,拖动到扩展管理界面安装(提取码:6792) 3.点我安装脚本:“京东推广自动清除” 4.在弹出的窗口中点击安装 使用说明 安装完成后,自任意来源点击进入B2C商城返利链接时,页面会自动刷新一次用以清洗推广信息。 如需要通过自己的返利链接下单时,请按如下方法临时关闭: 1.在浏览器右上角找到Tampermonkey图标并点击 2.点击”京东推广自动清除”前的绿色圆圈,切换为红色 下单完成后务必记得重新点击切换为绿色

    99620编辑于 2022-09-26
  • 来自专栏Python疯子

    python数据清洗

    所以在进行数据分析前,我们必须对数据进行清洗。需要考虑数据是否需要修改、如何修改调整才能适用于之后的计算和分析等。 数据清洗也是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作。 行或列只要存在就删除 axis=0 按行删除 axis=1 按列删除 # 将内容转为DataFrame 类型 data = pd.DataFrame(data) # print(data) data2 = data.dropna(axis=1) print(data2) DataFrame类型 读取数据时,没有头标签的要加上header, header=None 否则数据显示有问题 数据被会names (列标签)占用,可以先读取,获取 行和列,如果没有头标签,再设置names标签 其他参数: 文件读取部分数据 skiprows=2 跳过前2行 skiprows=[2] 跳过下标为2的那一行 下标从0开始 nrows=2 读取n行 chunksize=2 每次读取的行数 返回可可遍历列表对象 data = pd.read_csv('.

    3.2K20发布于 2018-09-06
  • 来自专栏全栈程序员必看

    pandas数据清洗详细教程_excel数据清洗工具

    Pandas 数据清洗常见方法 01 读取数据 df=pd.read_csv('文件名称') 02 查看数据特征 df.info() 03 查看数据量 df.shape 04 查看各数字类型的统计量 df.describe rename_list={ '原列名1:'新列名1',...} df.rename(rename_list,axis=1,inplace=True) 19 提取多列数据 df[['列1','列2' ,'列3']] 20 多表合并 df_all=pd.merge(table1,table2,on='参照列',how='inner') 21 去除空格 a.replace('\s+','',regex= 岁\)').astype('float') df_all.head(2) 04 循环遍历某列所有数据,在后面加上指定字段: data['列名'].apply(lambda x:str(x)+'天') 输出a2 ,如下 输出a3,如下 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。

    1.6K10编辑于 2022-10-04
  • 来自专栏机器学习与统计学

    7步搞定数据清洗-Python数据清洗指南

    数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样。数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占整个数据分析流程的80%左右的时间。 在这篇文章中,我尝试简单地归纳一下用Python来做数据清洗的7步过程,供大家参考。 # 可以让你更好地了解哪些列缺失的数据更多,从而确定怎么进行下一步的数据清洗和分析操作。 DataDF.isnull().sum().sort_values(ascending=False) ? 可能会存在有标点符号掺杂/大小写不一致/空格重复出现等问题 6)消灭空值:CustomerID、Description、Country和UnitPrice都出现了NaN值,需要去掉 于是下面就开始后续的数据清洗 subDataDF2=DataDF.loc[0:9,:] subDataDF2 ? ?

    5.6K20发布于 2019-07-22
  • 来自专栏人工智能LeadAI

    数据清洗经验

    断点清洗 如果你有大量的原始数据需要清洗,要一次清洗完可能需要很久,有可能是5分钟,10分钟,一小时,甚至是几天。实际当中,经常在洗到一半的时候突然崩溃了。 假设你有100万条记录,你的清洗程序在第325392条因为某些异常崩溃了,你修改了这个bug,然后重新清洗,这样的话,程序就得重新从1清洗到325391,这是在做无用功。其实可以这么做: 1. 让你的清洗程序打印出来当前在清洗第几条,这样,如果崩溃了,你就能知道处理到哪条时崩溃了。 2. 让你的程序支持在断点处开始清洗,这样当重新清洗时,你就能从325392直接开始。 当所有记录都清洗结束之后,再重新清洗一遍,因为后来修改bug后的代码可能会对之前的记录的清洗带来一些变化,两次清洗保证万无一失。但总的来说,设置断点能够节省很多时间,尤其是当你在debug的时候。 把清洗日志打印到文件中 当运行清洗程序时,把清洗日志和错误提示都打印到文件当中,这样就能轻松的使用文本编辑器来查看他们了。

    1.6K40发布于 2018-03-07
  • 【Java实现数据清洗

    使用Java实现数据清洗的功能,可以按照以下步骤进行: 读取原始数据文件:使用Java的文件读取功能,读取原始数据文件,并将其存储到内存中,可以使用BufferedReader来逐行读取文件中的数据。 = null) { // 处理每行数据 } reader.close(); 数据清洗:根据具体的清洗逻辑,对每行数据进行处理,可以使用正则表达式或字符串处理方法来解析和验证数据的有效性。 ","); // 假设数据以逗号分隔 String cleanedData = ""; for (String field : fields) { // 对每个字段进行清洗操作 或 输出到文件 } 存储清洗后的数据:根据清洗后的数据存储方式,可以选择将数据存储到数据库、写入到新的文件或者输出到控制台。 ,根据具体的清洗需求,可以在第2步的处理循环中添加更多的数据清洗逻辑。

    36410编辑于 2025-08-29
  • R语言数据清洗

    清洗直接建模,等于用没洗的菜炒了一道大厨级别的菜,卖相再好,吃了也可能拉肚子。 今天以一份一年10地点、9个品种、4个区组、5个性状的农业试验数据为例,带你过一遍完整的清洗流程。 缺失值检查——数据有没有"空窗期" # 各列缺失值数量 colSums(is.na(dat)) # 缺失比例 round(colSums(is.na(dat)) / nrow(dat) * 100, 2) 其他性状 any_outlier = flag_y1 | flag_y2 | flag_y3 | flag_y4 | flag_y5 ) # 输出异常记录供核查 dat_flagged % find_outliers_iqr(y2), !find_outliers_iqr(y3), !find_outliers_iqr(y4), ! (), str(), head() 2 纠正数据类型 mutate(), factor() 3 缺失值检查 + 设计完整性 is.na(), vis_miss(), count() 4 汇总统计 summary

    16010编辑于 2026-04-02
  • 来自专栏Java

    Koa2 中的上下文(context)是什么?如何使用上下文对象?

    Koa2 中的上下文(context)是什么?如何使用上下文对象? 在Koa2中,上下文(context)是一个封装了请求和响应的对象,它提供了许多有用的方法和属性,用于处理HTTP请求和响应。 上下文对象是Koa中间件函数的第一个参数,通常被命名为ctx。通过使用上下文对象,我们可以访问到请求的信息、响应的信息以及一些常用的方法。 这些属性和方法都是通过上下文对象提供的。 另外,上下文对象还提供了其他一些常用的方法,例如ctx.request用于访问请求对象,ctx.response用于访问响应对象,ctx.cookies用于处理Cookie等。 上下文对象是Koa2中非常重要的一个概念,它提供了许多方便的方法和属性,用于处理HTTP请求和响应。通过使用上下文对象,我们可以更加灵活和方便地编写Koa2应用程序。

    46500编辑于 2025-01-21
  • 来自专栏短信接收服务

    爬虫系列:数据清洗

    数据清洗 到目前为止,我们都没有处理过那些样式不规范的数据,要么使用的是样式规范的数据源,要么就是放弃样式不符合我们预期的数据。但在网络数据采集中,你通常无法对采集的数据样式太挑剔。 下面我们就通过工具和技术,通过改变代码的编写方式,帮你从源头控制数据凌乱的问题,并且对已经入库的数据经行清洗。 编写代码清洗数据 和编写异常处理代码一样,你应该学会编写预防型代码来处理意外情况。 \nZope'] 另外,应为每个单词(除了最后一个单词)都要创建一个 2-gram 序列,所以这个词条里共有 11680 个 2-gram 序列。 @[\]^_`{|}~ 在循环体中用item.strip(string.punctuation)对内容中的所有单词进行清洗,单词两端的任何标点符号都会被去掉,但带连字符的单词(连字符在单词内部)任然会保留 本期关于数据清洗就是如上内容,在接下来的内容中我会讲解数据标准化,以及存储的数据如何清洗

    2.1K10编辑于 2022-01-12
  • 来自专栏技术开发——你我他

    Sentinel——URL资源清洗

    目标:Sentinel的基本应用 工具:IDEA--2020.1、Sentinel Maven Spring Boot 学习目标:学习基于Sentinel Dashboard来实现URL资源清洗 本次学习的工程下载链接放到文本最后面 clean方法总的QPS,结果统计的是每个URL的QPS 导致Sentinel中资源数量过多,默认资源数量的阈值是6000,对于多出的资源规则将不会生效 正对这个问题可以通过URLCleaner接口来实现资源清洗 访问 http://localhost:8080/clean/1 和 http://localhost:8080/clean/2 后面的数字自己随便写一个就行,我们多次快速刷新访问这些界面,发现资源都被归为一类了

    2K30发布于 2020-06-16
  • 来自专栏AI研习社

    Python数据清洗实践

    ——IBM数据分析 数据清洗是处理任何数据前的必备环节。在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。 在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。 数据清洗 数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。 数据清洗是数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。

    2.3K30发布于 2019-05-13
领券