搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

去除重复对随机森林回归的影响

我有一个包含数百万个样本的数据集，它们有5个特性和1个目标，我正在使用它作为回归模型。有了非常大的样本计数，一些模型(比如随机森林)变得非常大(腌制时有几个GB )。(理论上)或去除重复对模型准确性的影响是什么？

浏览 0提问于2021-03-13得票数 0

回答已采纳

1回答

(例如一些大的图形上下文、位图和CALayers)。有没有办法查看应用程序启动以来的最大值？我想到了一个山顶洞人的方法，那就是在我们分配了大的图形上下文、位图和CALayers之后，添加一个虚拟循环，比如说一百万或一千万，这样内存使用就会在几秒钟内保持不变，并且可以在仪器中看到。但是，如果有5层，我们应该分配一个图形上下文，获取位图，并将其设置为层，然后立即释放图形上下文，因为它不再需要。然后我们继续下一个图形上下文、位图和层，等等

浏览 1提问于2012-08-16得票数 3

2回答

客户端(浏览器) 3D浏览器

模型将相当大(数百万张脸)。非常感谢:)

浏览 5提问于2015-11-26得票数 0

2回答

“使用重新编译”是否重新编译存储过程中的所有查询？

因此，我们有一个相当大的数据库和一个存储过程，可以搜索大量的文档。根据上下文的不同，它要么获取数百万个文档，要么只获取100个文档。关键是，数百万份文件需要30秒的时间，这是超现实的。如果我在五个查询的每个OPTION (RECOMPILE)之后添加，则100个文档需要1秒，数百万个文档(预期)需要30秒。

浏览 8提问于2016-12-13得票数 6

3回答

如何在Django数据迁移上下文中访问模型的自定义管理器？

我在我的几个模型中使用了一个自定义模型管理器。此管理器有助于加快数据库插入速度。我需要执行数据迁移，这涉及到迁移数百万条记录/对象。在我的数据迁移中，我需要我的自定义管理器。有谁知道怎么弄到它吗。在数据迁移上下文中，如果我运行model.objects，就会返回Django的模型管理器。

浏览 34提问于2019-02-01得票数 2

回答已采纳

3回答

在大型数据集上，R2评分是否是一种合理的回归度量？

我在一个相当大的数据集上运行一个回归模型，得到了一个相当糟糕的$R^2$评分为0.2(参见下面的图)，尽管该模型看起来像是指向正确的方向。我的问题是，当你有超过一百万个数据点时，你能现实地期望$R^2$在真实世界的数据中有相当大的噪音吗？对这些传统措施的怀疑促使了诸如这这样的文章，这些文章讨论了数据的数量如何降低统计测试的质量。

浏览 0修改于2021-03-03得票数 3

回答已采纳

4回答

当有数百万行在dataframe中时，使用的最佳平台

我的表有大约20个功能和数百万的观察(行)。我需要在这个表上创建模型，但是，由于它是巨大的，像随机森林或XGB这样的训练模型需要花费很长时间。我主要是使用python在木星实验室服务器上使用scikit-learn和XGBoost包，而且在数据非常大的时候，我也在努力解决这个问题。同样重要的是，我有windows (而不是Linux)。当数据如此大时，是否有更好的包或平台可供使用？

浏览 0修改于2021-10-11得票数 5

回答已采纳

1回答

为什么我需要不同的有界上下文？

我已经读到，在不同的有界上下文中拆分应用程序的原因是由于普遍存在的语言以及大实体的分裂。例如，我可以有一个具有逻辑支持和销售的产品实体，我可以在不同的有界上下文中将模型划分为两个产品模型--支持和销售有界上下文，但我也可以创建两个不同的实体SupportProduct和SalesProduct那么，为什么我也需要不同的有界上下文呢？

浏览 2提问于2021-12-28得票数 0

2回答

如何合并两个保存的keras模型？

一开始，我只用了一百万，训练了这些，并以h5格式保存了模型，比如first.h5。后来，我又使用了100万个数据，用相同的算法训练那些数据，并保存成second.h5。训练需要超过一天，所以我不能同时使用所有的两百万数据。有没有办法，我可以合并这两个保存的模型，如first.h5 + second.h5 = merged.h5

浏览 0修改于2019-07-01得票数 4

回答已采纳

1回答

对于序列分类来说，对大上下文的bert进行微调可以吗？

我想要创建序列分类bert模型。模型输入为2句。但是，我想用大上下文数据对模型进行微调，该数据由多个句子组成(标记的数量可能超过512)。如果训练数据的大小和实际输入数据的大小不同，可以吗？谢谢

浏览 0提问于2022-03-25得票数 1

2回答

决策树和逻辑回归在其中一个特征为字符串时的性能差异

当我尝试一种不同的模型，比如说Logistic回归时，性能急剧下降，从80%下降到30%。如果我能够在DecisionTrees模型中这样使用字符串，我可能会接受这个结果，但是既然我对两个模型都使用了相同的字符串到整数转换，那么为什么会有这么大的差异呢？我不能说细节，但让我给你打个比方。比方说，您正在根据数百万对象的有用性对其进行分类。所以你说锤子是4，螺丝刀6，洗衣机10等等。当然，你有不止一个螺丝刀，有时你会忘记，给它一个5的值，或者其他什么东西。该模型遍历数<e

浏览 0修改于2017-01-25得票数 4

回答已采纳

3回答

“update-database”实体框架代码不再添加表

我在我的网站上首先使用了实体框架5代码。一切都很好，我一直在用更新-数据库-verbose 然而，使用新数据或新结构和模型更新数据库；update-database已停止工作，并且它不再跟踪模型和新表中的更改。我在互联网上搜索过，有些人说我必须删除数据库上下文并重新创建它才能使其工作。我不能这样做，这个项目有点大，如果我删除数据库上下文，超过4k行将受到影响。

浏览 68提问于2013-07-19得票数 3

回答已采纳

4回答

EntityFramework CodeFirst中的有界上下文

我已经搜索了很多关于有界上下文的内容，我知道它是领域驱动设计中的一种模式，它是用来使用数据库上下文将我们的大模型划分成更小的模型，但它让我有点困惑。实际上我不知道它到底是干什么的？

浏览 8修改于2014-02-15得票数 0

回答已采纳

1回答

具有多个属性的维度行

dimProduct中的每一行保存单个产品的所有相关数据(代码、名称、描述等)，大约有一百万种产品。现在，我需要将产品类别存储到仓库中。每个产品有多个类别，平均为5。我担心，如果我做前者，那么我的维数表将变得超过5倍大，如果我做后者，那么模型将变得更加复杂。

浏览 1修改于2018-07-20得票数 6

回答已采纳

1回答

在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？

关于培训LDA：经过培训，现在我们有了一个新的LDA模型，因此我们可以使用它来预测哪些主题具有新的文档。但在向模型提供新文档之前，我们需要将其转换为单词向量，其向量长度将是我们的字典长度(数百万字)。因此

浏览 3提问于2017-09-26得票数 1

回答已采纳

3回答

用于模型验证的ROC曲线

是否有一种通用的方法，可以用ROC曲线来验证一个模型？我的理解是，我们可以使用它来比较不同的阈值来确定最佳值，甚至可以看到不同的组在k折叠验证中的行为方式.，但是它需要总是比较不同的阈值。有人告诉我，我应该考虑用ROC曲线来验证我的模型(logistic回归)，但它们并不意味着看分类的阈值，我一直被告知，它应该被用来验证模型之外的一般情况。模型本身甚至不使用交叉验证，因为数据集本身相当大(总计超过一百万个条目)。我是不是漏掉了什么？

浏览 0提问于2022-11-21得票数 1

1回答

gmpy2 mpfr值被限制为301,033位数，其中301,032位数字是正确的。

我正在编写一个Python3 (64位)程序，使用64位Windows 10上的gmpy2模块计算pi到至少一百万位数字，我使用的是Chudnovsky算法。该系列算法是天才的，易于理解，易于实现。我遇到的问题是用gmpy2表示非常大的精确实数。检查gmpy2系统限制。它们看起来很棒。根据需要设置了百万数字π的精确上下文。为一个字符串变量分配百万数字pi。为一个mpfr变量分配一个mpfr变量--使用mpfr(‘百万位数字pi’)打印字符串变量，

浏览 6提问于2019-09-26得票数 3

回答已采纳

2回答

MLP型网络训练中的问题

我训练了一个神经网络模型，一个MLP类型的网络，其中前几层是一维卷积，用于处理输入序列类型。📷

浏览 0修改于2018-05-15得票数 1

回答已采纳

1回答

在M2M上执行查询的有效方法

A模型有数百万个对象。Option 1 : A.objects.filter(b__id=5) 选项1:我的问题是通过id对A模型对象进行过滤会花费大量时间吗？由于有数百万的objects.Option 2模型:问

浏览 3修改于2020-01-04得票数 1

回答已采纳

1回答

将数据推送到DB以进行重复更新的最佳策略，只考虑记录更改值的一小部分

数以百万计的职位数据正在进入一个需要存储在数据库中的系统中。数据以管道分隔的格式以平面文件的形式出现，定期说是一天两次。最重要的是，在一百万项记录中，只有5%会有任何变化。考虑到与以前的数据库版本相比，只有5%的传入数据会有任何变化。我检查了一个与讨论过的这里类似的问题。但是它是关于大容量插入操作，可以通过先分块，然后对DB进行大容量插入来完成。

浏览 0修改于2017-04-13得票数 2

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

去除重复对随机森林回归的影响

有没有办法查看iOS应用程序自启动以来的最大内存使用量？

客户端(浏览器) 3D浏览器

“使用重新编译”是否重新编译存储过程中的所有查询？

如何在Django数据迁移上下文中访问模型的自定义管理器？

在大型数据集上，R2评分是否是一种合理的回归度量？

当有数百万行在dataframe中时，使用的最佳平台

为什么我需要不同的有界上下文？

如何合并两个保存的keras模型？

对于序列分类来说，对大上下文的bert进行微调可以吗？

决策树和逻辑回归在其中一个特征为字符串时的性能差异

“update-database”实体框架代码不再添加表

EntityFramework CodeFirst中的有界上下文

具有多个属性的维度行

在稀疏数据的情况下，如何更快地训练LDA(潜在的Dirichlet分配)并预测新的文档？

用于模型验证的ROC曲线

gmpy2 mpfr值被限制为301,033位数，其中301,032位数字是正确的。

MLP型网络训练中的问题

在M2M上执行查询的有效方法

将数据推送到DB以进行重复更新的最佳策略，只考虑记录更改值的一小部分

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐