搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

数据预处理Python

我在Python中有一个DataFrame，需要对数据进行预处理。对数据进行预处理的最佳方法是哪一种，知道一些变量具有很大的规模，而另一些则没有，数据也没有很大的偏差。

浏览 6提问于2016-04-12得票数 0

1回答

多元数据预处理

我试图了解多元数据预处理是如何工作的，但我脑海中有一些问题。例如，我可以在单变量数据中进行数据平滑、转换(box，微分)、去噪(对于任何机器学习问题)。不仅是时间序列预测)。

浏览 0提问于2022-03-31得票数 0

1回答

CSV数据预处理

我有一个类似于这种格式的.csv文件然后我想把它转换成我怎么才能和巨蟒熊猫一起做呢？

浏览 1提问于2021-08-16得票数 1

回答已采纳

3回答

数据预处理库

只有当我需要对神经网络的数据进行预处理时，我才知道什么是科学知识。还有其他好的图书馆吗？

浏览 0提问于2019-01-17得票数 0

1回答

并行数据预处理

是否可以并行实现数据预处理步骤，如缺失值计算、孤立点检测、归一化、标签编码等？我能为数据预处理实现cuda/openmp/mpi编程吗？谢谢。

浏览 0提问于2022-09-08得票数 2

回答已采纳

1回答

数据预处理:缺少标签

我有一个分类任务来预测{0,1}标签，但是在我的数据集中，我只有一个标签的数据。类表示买方已购买了某些产品。特点:用户标识、产品标识和购买时间。我应该使用一些0-数据生成，或者有一些方法，可以正确预测没有0-数据？谢谢。

浏览 0修改于2021-10-08得票数 1

1回答

Lasso，glmnet，数据预处理

我问这个问题的原因是我的数据集很大。它节省了大量的时间，只是这样做，而不是编码作为因素。

浏览 5提问于2014-05-21得票数 1

回答已采纳

1回答

我有一个关于机器学习的数据预处理的问题。特别是转换数据，使其具有零均值和单位方差。我已经将我的数据分成两个数据集(我知道我应该有三个数据集，但为了简单起见，假设我有两个数据集)。我应该转换我的训练数据集，使整个训练数据集具有单位方差和零均值，然后在测试模型时转换每个测试输入向量，使每个测试输入向量呈现单位方差和零均值，还是将整个数据集(训练和测试)转换为单位变量和零均值？我的信念是，我应该这样做，这样我就不会在测试<

浏览 0修改于2017-02-21得票数 1

回答已采纳

1回答

SKlearn自动数据预处理

我想为滑雪板模型做一个简单的包装。其思想是包装器自动处理各种因素("object"类型的列)，用目标的平均值替换它们，同时保持sklearn模型的语法。class ModelEmbedder : self.model = model self.rar

浏览 0修改于2016-03-04得票数 1

回答已采纳

1回答

数据预处理和特征工程

我一直在读一些关于数据预处理和特征工程的文章，包括特征选择，特征重要性和特征构造。我的理解是在数据预处理阶段应用了特征工程。我的问题是:特征工程是否总是在预处理阶段实现，或者有时可以在以后的阶段执行？谢谢你Shosho

浏览 45提问于2021-04-28得票数 0

1回答

数据聚类-数据预处理

我的意思是:不是用所有的数据来训练K-Means，也许有一种方法可以只找到重要的向量(那些对聚类影响最大的向量)，并使用这些“重要”向量(来自训练数据)来训练算法。我希望你能理解我。

浏览 4提问于2013-03-12得票数 0

回答已采纳

2回答

基于AWS SageMaker的数据预处理

我有一个端点，它在AWS上运行一个经过训练的SageMaker模型，它期望数据具有特定的格式。最初，数据是在应用程序的客户端处理的，这意味着，API Gateway (接收AWS上的POST API调用)用来接收预处理过的数据，但是现在发生了变化，API Gateway将从客户端接收原始数据，而在发送到我们的SageMaker模型之前预处理这些数据的工作取决于我们的工作流程。在这个工作流上创建预处理作业的最佳方法是什么，而不需要重新训练模型？我的<em

浏览 5提问于2020-10-08得票数 1

回答已采纳

1回答

电子病历中的数据预处理

我想要处理10PB的数据。输入数据是某种专有格式(存储在CSV中)，第一个预处理步骤是将这些专有数据转换为CSV并将其移回S3。由于一些限制，我不能将预处理步骤与Map任务耦合。一种方法是在没有reduce任务的情况下运行单独的电子病历作业，并在映射阶段将数据上传到S3。有没有更好的方法来做到这一点，因为运行map-reduce作业而不使用reduce任务来预处理数据看起来像是一个老生常谈的解决方案。

浏览 0提问于2016-06-16得票数 0

1回答

数据预处理的最佳方法

我还有一个数据集的结构：我想在上面测试不同的机器学习方法，所以我想做的第一件事就是对数据进行预处理我的问题与国会专栏有关，因为它有一些不太适合舒适和CARD_ACCEPTED的数据。我应该采用什么归一化方法呢？

浏览 0提问于2021-11-05得票数 2

1回答

数据预处理框架/库备选方案

具体来说，我目前正在研究数据预处理的步骤，以及如何在训练服务倾斜的情况下以健壮的方式实现它。我已经考虑过Tensorflow变换，在经过一次运行定义的预处理步骤之后，生成一个可以在训练后重用的图形工件。尽管使用它的一个缺点是需要坚持Tensorflow数据格式。有什么好的选择吗？到目前为止，我发现的框架/库中唯一类似的例子是Keras预处理层和sklearn预处理管道。我在很多网站和博客上搜索过，但仍然没有找到类似的讨论。

浏览 0提问于2022-01-05得票数 2

回答已采纳

1回答

pandas时间序列数据预处理

我的数据帧看起来像这样： text timestamp1 b 2016-06-20 14:083 d 2016-07-11 19:07我想把每个月的数据总结如下：count timestamp0 2 2016-062 1 2016-08 原始数据集(dt)可以

浏览 2提问于2016-08-02得票数 3

回答已采纳

1回答

Pandas数据预处理和标签

我想将我的数据分成标签，因为前6列决定了第7列，现在我已经选择了前6列，它工作得很好 import pandas as pdfrom

浏览 9修改于2021-04-12得票数 0

1回答

多变量LSTM数据预处理

所显示的代码对于验证数据非常有效，而不是用于培训，帮助我发现错误。

浏览 1修改于2022-02-28得票数 0

1回答

pandas中的数据预处理

我想知道，这段代码出了什么问题，因为空值没有填充我给它的值。我正在尝试用每个团队的joined的DateTime的均值填充nan。mean_joined_data = pd.pivot_table(df, values='Joined', index=['Club'], aggfunc=np.mean) df['Joined']

浏览 17提问于2020-03-01得票数 0

1回答

python中的数据预处理

我有一个数据集，我正在探索数据，在我的数据的一个特定列中，我有11个不同的类别属于该特定列，但是该列的数据分布如下：Number of data points in class 11 : 7 ( 0.005 %) 请注意，从第3班到第11班，数据的百分比有了很大的下降我的问题是，我想对这些分类数据执行编码，是应该考虑该特定列中的所有

浏览 1修改于2022-04-09得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

数据预处理Python

多元数据预处理

CSV数据预处理

数据预处理库

并行数据预处理

数据预处理:缺少标签

Lasso，glmnet，数据预处理

机器学习数据预处理

SKlearn自动数据预处理

数据预处理和特征工程

数据聚类-数据预处理

基于AWS SageMaker的数据预处理

电子病历中的数据预处理

数据预处理的最佳方法

数据预处理框架/库备选方案

pandas时间序列数据预处理

Pandas数据预处理和标签

多变量LSTM数据预处理

pandas中的数据预处理

python中的数据预处理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐