搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

0回答

pyspark数据倾斜？

spark

似乎一开始一小段时间有达到近百分百利用率，之后就降下来了，程序没用到shuffle算子，应该不是数据倾斜问题。

浏览 231提问于2021-05-23

1回答

AWS胶:数据倾斜还是不倾斜？

因此，数据看上去并没有偏差.我说错了吗？

浏览 4提问于2020-09-26得票数 0

1回答

向低频数据倾斜的模型？

一般情况下，模型偏向于训练数据集中频率较高的数据样本/目标。在训练过程中，模型是否可能偏向低频训练数据集。

浏览 0提问于2019-05-24得票数 1

1回答

如何在单一存储中修复这种数据倾斜？

我们使用的是单存储数据库，因为我有一个列存储表，其中我们注意到数据倾斜，因此，我们遇到了性能问题。| 780.300 | 0 | NULL |如何才能修正这种数据倾斜我们在表中总共有24列，有3个切分键和7个唯一键，我们看到的是更多表上的dataskew，但是这个表的数据倾斜度最高。

浏览 3修改于2022-09-07得票数 0

回答已采纳

3回答

Apache Spark、范围连接、数据倾斜和性能

Spark SQL连接谓词：数据现在，Spark集群在单个任务上挂起超过10分钟，以便执行此连接，并且由于数据不对称。此时，只有一个worker和此worker上的一个任务在工作。所有其他9个工人都是空闲的。

浏览 2提问于2019-04-02得票数 0

1回答

用角插值法对数据倾斜内容

我正在从事一个角项目，并让tippy.js运行良好( )。<div data-tippy-content="{{top.description}}" data-tippy-placement="right" class="layout-tops-photos theme-tops-photos theme-hover js-tippy"></div>

浏览 1提问于2019-05-20得票数 1

回答已采纳

1回答

星火数据倾斜重分区与重命名键

我正在读一篇关于星火联接中数据偏斜的有趣文章。有一个例子，在数据集和调用的连接中都重命名了join列。作者声称这是可行的，但我不明白为什么它会工作，与前面的示例相比，连接是在不重新命名的情况下执行的。

浏览 4提问于2020-03-20得票数 1

回答已采纳

1回答

hdfs数据倾斜，为什么文件分布不均匀？

我运行一个有32个奴隶的HDFS。当我放置32 * 100 GB文件时，这些文件只被传递给一些奴隶。由于磁盘空间不足，导致任务崩溃。

浏览 8提问于2016-11-30得票数 0

回答已采纳

1回答

图形倾斜数据

我有扭曲的数据，我试图绘制我的数据的轮廓和颜色地图。下面的图片显示没有范围限制的数据。我只想在xrange 0.55:0.95和yrange 0:10中绘制数据。index 1::1 w l lc "red", \### end of code 我的数据可以在这里获得我试图修改我的数据，以便只将点保持在所需的范围内，但是数

浏览 3修改于2021-01-19得票数 1

回答已采纳

2回答

我试图确定hadoop (Hadoop2.0.0 mrv1)中是否有某些钩子可用于处理减速器的数据倾斜。场景:设置一个自定义复合键和分区器，以便将数据路由到还原器。为了处理奇怪的情况，但很可能是一百万个键和大值的情况，最终在同一个减速器上结束，需要某种启发，以便进一步划分这些数据以产生新的减速器。我在想一个两步的过程通过通过驱动程序传递配置来重新运行失败数据集上的作业，这将导致我的分区程序然后随机地

浏览 3提问于2015-09-17得票数 0

1回答

：数据显示为“倾斜”

"然而，我得到了一个看起来“倾斜此外，当我将进一步的数据附加到文件中时，收到了此错误：这是一个图表

浏览 1修改于2022-02-27得票数 0

1回答

Power查询倾斜数据

我在power查询中遇到了一个问题，我的数据来自一个分成多个页面的报表，其中一些页面将数据倾斜到不同的列。我认为可能有一种基于错误的解决方案，但我希望它更加多余，而不是依赖于文本和数字的纠错。主要是因为有时数据在某些情况下可能是字母，在其他情况下可能是数字。我已经准备了一个数据集，其中随机生成了名称和代码的替代项。我还必须对数据进行一些处理，以给出不同转换的示例，并说明从不同页面拆分的记录。数据集中有12条记录，每条记录最终将包含一行。第一页是从源文档中剥离的原始<

浏览 5修改于2017-02-14得票数 1

2回答

是否有更好的方法通过加入Redshift来避免数据倾斜？

tmp_accumulate ar (cost=0.00..3954554.88 rows=395455488 width=165)从上面的图像中我们知道node-39比其他节点保存更多的数据因为数据被join扭曲了。根据图片，数据均匀分布在所有节点上但是，每个节点中有更多的数据

浏览 4提问于2019-10-21得票数 1

回答已采纳

1回答

如何处理外部连接火花数据帧中的数据倾斜

我有两个数据帧，并在5列上执行外部连接。下面是我的数据集的示例。|我在前5栏表演。正如您所看到的，所有前5列的组合不能为我提供足够的分区，这会导致数据倾斜。这是我的查询和应用详细信息以下是加载数据</e

浏览 0修改于2018-03-27得票数 4

1回答

在Cassandra中宽分区和数据倾斜之间有什么区别？

正如我所理解的，两者都告诉我们，特定分区中的数据量不应超过其他分区。因此，我们应该选择适当的分区键来弥补这些问题。但这两种成语到底有什么区别呢？

浏览 6提问于2021-07-26得票数 0

回答已采纳

1回答

是否有一种方法来识别或检测Hive表中的数据倾斜？

有没有一种像命令一样检查/分析数据倾斜的方法？一个解释计划会有帮助吗?如果有，我应该找哪个参数？

浏览 1修改于2019-02-05得票数 0

回答已采纳

1回答

Apache火花处理倾斜数据

其中之一有非常严重的数据倾斜。这导致我的火花作业不能并行运行，因为大部分工作都是在一个分区上完成的。我听过，读过，并试图实施盐碱化我的密钥，以增加分发。12:45秒的正是我想要做的。

浏览 4修改于2016-08-15得票数 10

回答已采纳

2回答

分类:类中的倾斜数据

我试图建立一个多标签分类器来预测一些输入数据的概率为0或1。我使用神经网络和Tensorflow + Keras (可能稍后是CNN )。问题是:数据高度倾斜。负数比正数多，可能是90:10。

浏览 0提问于2018-02-20得票数 8

2回答

高倾斜数据直方图的生成

条形图代表信用卡交易的数据。它把交易金额(x轴)上的交易数(y轴)绘制成图. 数据数组基本上如下所示： ...{ txn_amount: 20 ...数据是高度可变的，取决于不同的商家等，我不能对分布做出任何假设。正如您所看到的，由于数据本身的原因，这个图表并不那么有用。在本例中，-$7500和2在$7500周围有一个事务。但是，我将数据分解成垃圾箱/卡盘的方式似乎与我的数据的标准差有

浏览 5修改于2017-05-23得票数 3

1回答

关于倾斜数据集的培训

(64)Dense (128)Dense (14)我有一个原始和扭曲的数据集首先，我复制了原始数据，并生成了3*OriginalData，以生成更多未表示的类的示例。精确性是在25个年代之后建立起来的，但是损失有很大的变化，所以我决定复制更多的数据，所以我产生了10*原始数据，并再次进行了分类。现在我的失落感和准确性表现得更

浏览 0提问于2020-02-24得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

pyspark数据倾斜？

AWS胶:数据倾斜还是不倾斜？

向低频数据倾斜的模型？

如何在单一存储中修复这种数据倾斜？

Apache Spark、范围连接、数据倾斜和性能

用角插值法对数据倾斜内容

星火数据倾斜重分区与重命名键

hdfs数据倾斜，为什么文件分布不均匀？

图形倾斜数据

Hadoop处理数据倾斜在减速器中的应用

：数据显示为“倾斜”

Power查询倾斜数据

是否有更好的方法通过加入Redshift来避免数据倾斜？

如何处理外部连接火花数据帧中的数据倾斜

在Cassandra中宽分区和数据倾斜之间有什么区别？

是否有一种方法来识别或检测Hive表中的数据倾斜？

Apache火花处理倾斜数据

分类:类中的倾斜数据

高倾斜数据直方图的生成

关于倾斜数据集的培训

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐