搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

寻找一种简单的方法在R中对分离良好的2D数据进行聚类

我有关于x和y位置的二维数据，最多可以容纳上百万个细胞。我想把这些单元格自动注释到不同的位置。在下面的例子中，我希望找到4个与4个椭圆对应的簇。到目前为止，我尝试了kmeans和GMM，但未能正确地将细胞注入到预期的集群中。HDBSCAN能够在单元格的子集上这样做，但受到整个数据集上RAM的限制。还有其他的R工具适合这个用例吗？谢谢

浏览 1提问于2022-01-24得票数 0

1回答

Excel:自动复制相当于同一行中非零单元格计数的值的次数。

由于我的数据集相当大(数千行和数十列)，所以我想自动化以下过程：我的数据集在A列中有ID号。每个ID#在自己的行中有多个父级。细胞ID# 1在B2、C2、D2和E2中的非零亲本号分别为265、266、32和7的4倍。

浏览 1修改于2015-10-06得票数 0

回答已采纳

1回答

将包含多个数组的Powershell对象导出到CSV/Power

我有一个Powershell对象，它是我想要用作Power数据集的DSInternals的结果；它是一组用户帐户数组，例如。我怎么能得到相同的，但在每个用户在它自己的细胞？谢谢你们百万！

浏览 12提问于2022-02-25得票数 1

回答已采纳

1回答

如何使用Python检查非常大的数据集中的重复图片？

我有一个包含百万级图像的数据集，我想做的是像Counter(<list of images>)一样检查重复项并计算整个数据集的数量。然而，考虑到图像的大小，将所有图像加载到内存中似乎是不可行的。

浏览 37修改于2018-08-10得票数 2

2回答

层次字典(减少内存占用或使用数据库)

我正在处理非常高维的生物计数数据(单细胞RNA测序，其中行是细胞ID，列是基因)。每个数据集都是一个单独的平面文件(AnnData格式)。每个平面文件可以按各种元数据属性进行细分，包括细胞类型(如:肌肉细胞、心脏细胞)、亚型(例如:肺数据集可分为正常肺和癌变肺)、癌症分期(例如:第1阶段、第2阶段)等。其目标是预先计算特定元数据列、子组、数据集

浏览 11提问于2022-06-07得票数 0

1回答

蒙语阅读偏好设计策略

我有一个应用程序，我的任务是设计一个蒙戈支持的数据存储。数据大小在几百万左右，应用程序写得很重。在选择给读取策略一个3节点的复制集(1个主复制集、1个辅助复制集、1个仲裁器)时，我遇到了两种不同的策略来确定从哪里读取数据- 从二级读取以减少主站的负载。但是，在阅读之前，要确保数据处于初级状态。所以设置writeConcern= SA

浏览 3提问于2014-02-26得票数 0

回答已采纳

1回答

我正在用一些生物实验数据训练一个人工神经网络。简单地说，我的输入数据集(特征)包括不同样本(细胞系)的基因水平(RNA表达水平)。在这个数据集中，我复制了相同的生物样本，这意味着我已经测量了两次(或更多次)相同细胞株或细胞系的RNA表达水平。我包括了所有不同的测量(不同的细胞系，同一细胞系的不同测量等等)。作为不同样本的训练集，为了增加人工神经网络的灵活性，而不是只计算平均值而仅使用(对同一细胞株的

浏览 1修改于2020-04-23得票数 0

回答已采纳

1回答

SAS：“错误:重命名WORK.XXXX.DATA的临时成员失败”

当我对我在上一个数据步骤中创建的数据集进行排序时，出现了这个问题。我使用的是临时工作目录，但永久目录也会出现这个问题。这不是数据集的大小；有问题的数据集大约有一百万个细胞，我们不能在更大的数据集上复制这个问题。去年，我们使用的脚本运行得很好。有没有人遇到过这个问题？如果是这样，你找到解决方案了吗？

浏览 1提问于2014-04-11得票数 3

1回答

T检验数据框中一行(参考样本)与所有其他行的比较

下面是我的数据的一个子集(数据集)。它总结了用不同药物处理细胞后的细胞活性(实际数据集有1200种药物)。实验一式三份(samples1、2和3)。为了简单起见，我生成了一个小数据集，如下所示：untreated 10090 87 80 drug3

浏览 0修改于2018-06-08得票数 1

3回答

Oracle多模式聚合实时视图

我希望构建一个应用程序，该应用程序将显示来自所有三个模式的数据，但是所显示的数据将基于应用于全局数据的实时排序和优先级规则(即:基于应用的优先级权重，我可以从三个模式中的任何一个中提取数据)。暂定解决方案在DB中创建一个视图，该视图维护到三个模式中相关列的逻辑链接，编写一个接受参数化优先级权重的存储过程。应用程序随后调用存储过程从视图中选择“优先级”行，然后根据返回的行直接查询关联模式以获得其他数据。我担心在执行的每个查询上

浏览 5修改于2011-05-09得票数 2

2回答

用于大规模分布式元胞自动机的局部、低容量消息传递

持久数据存储在Riak中。细胞自动机本身是用Python编写的。如果一个单元可以向它的直接邻居(曼哈顿附近)传递少量(比方说每秒几到几十个)消息(可能是键值对)，这对于我的模拟将是非常方便的。然而，对于数百万个细胞的模拟，天真的方法最终得到了数百万个小邮箱，每个细胞一个邮箱，消息缓慢地流入每个盒子。这让ZooKeeper或RabbitMQ陷入了低谷！细胞很容易确定它的邻居和它在世界上的位置，所以消息传递似乎应该受到某种分块的影响。然而，我无法理解这个区域参与者的设计以

浏览 7修改于2017-05-23得票数 1

1回答

如何确保我的公式只在有输入的单元格中？

B9:B1048576;1;0))C6:C1048576 我之所以需要这个，是因为我不知道表格1上的数据有多大。问题是，它使我的excel变得非常慢，因为它一直在计算这数百万未使用的单元格。因此，我正在寻找一种方法，以避免抄袭我的公式在数百万细胞。也许还有更简单的方法把细胞从一个列复制到一个新的列？

浏览 1修改于2016-11-25得票数 0

回答已采纳

1回答

用更快的方式在熊猫数据中分配新的价值

我想知道是否有更快的方法来给熊猫中的细胞分配新的值，这取决于另一个细胞的值。row['rank'] > 1): return row 但是，对于包含数百万行的真实数据来说

浏览 2提问于2014-10-30得票数 1

回答已采纳

1回答

扫描图像中疟疾细胞的检测

数据集是从kaggle下载的。现在，我想知道如何检测扫描图像中的单元格。我需要指出图像中的疟疾细胞，或者画出疟疾细胞的轮廓。含有疟疾细胞的样本图像如何在这个问题上实现检测？

浏览 3修改于2020-04-12得票数 0

回答已采纳

0回答

基因数不同的单细胞数据如何整合进行后续分析？

r 语言、生物基因、数据分析、数据

我下载的单细胞数据集中，每个单细胞数据的基因数彼此都不相同，这种数据集该用什么方法进行整合？？上面几个数据中每个数据中的基因数都在2万个左右但是基因数不一致那么这四个数据该如何整合起来做后续分析？用harmoy吗？具体如何操作？

浏览 111提问于2025-12-15

0回答

两个分区表，加上第三个表的join后性能直线跳水？

join、数据、性能

测试数据a、b表百万级、c表10个数据。查询结果千行内。如果a、b、c表join查询，超过1分钟。这是为什么呢？

浏览 79修改于2024-05-17

1回答

有效边界逼近

假设我在数组中表示了以下结构：我正在寻找一个解决方案，这将是更快，但交易的准确性。我想出了可能的解决方案(但没有经过测试)：优先级队列，从最小到最大的距离(但不确定如何

浏览 2修改于2018-01-25得票数 1

回答已采纳

1回答

将像元分割结果转换为强度值表

我正在尝试分割多路复用的细胞成像数据集。您通常会得到一个预测细胞/细胞核标签的2D数组作为结果。图中显示了输入和输出： ? 下一步是量化每个细胞的每个抗体/染色的强度。更新:数据所代表的内容似乎有些混乱。在示例图像中，您正在尝试识别单个单元。每个blob都是一个单元。每个单元格都有不同的标签。预测是按标签着色的。你想要确定每个细胞有多亮。

浏览 33修改于2021-10-19得票数 2

1回答

Google Ngram查看器-英语一百万

我正在用PyTorch训练一个语言模型，我需要英语中最常见的一百万个单词作为字典。据我所知， (1-gram)可能适合这项任务，但在下载了这个数据集的每个部分(0-9)并在它们上使用tail检查它们是否是我所假设的之后，我发现这个数据集中没有任何部分包含F字母以外的单词。据我所知，任何版本1的文件都有按字母和时间顺序排序的ngram，我担心是否可能最常见的一百万个单词不会超出F？或者我错过了这个数据集的要点，它不是最常见的一百万个单词？

浏览 14提问于2018-02-17得票数 1

回答已采纳

1回答

使用安卓TextWatcher的ObjectBox事务

我想开发百万级的实时数据搜索。我正在使用Android EditText addTextChangedListener来查看文本输入。我如何使用来处理它？

浏览 13修改于2018-01-17得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

寻找一种简单的方法在R中对分离良好的2D数据进行聚类

Excel:自动复制相当于同一行中非零单元格计数的值的次数。

将包含多个数组的Powershell对象导出到CSV/Power

如何使用Python检查非常大的数据集中的重复图片？

层次字典(减少内存占用或使用数据库)

蒙语阅读偏好设计策略

验证测试--它可以是训练集的平均值吗？

SAS：“错误:重命名WORK.XXXX.DATA的临时成员失败”

T检验数据框中一行(参考样本)与所有其他行的比较

Oracle多模式聚合实时视图

用于大规模分布式元胞自动机的局部、低容量消息传递

如何确保我的公式只在有输入的单元格中？

用更快的方式在熊猫数据中分配新的价值

扫描图像中疟疾细胞的检测

基因数不同的单细胞数据如何整合进行后续分析？

两个分区表，加上第三个表的join后性能直线跳水？

有效边界逼近

将像元分割结果转换为强度值表

Google Ngram查看器-英语一百万

使用安卓TextWatcher的ObjectBox事务

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐