首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何更有效地搜索大熊猫列中的多个字符串

如何更有效地搜索大熊猫列中的多个字符串
EN

Stack Overflow用户
提问于 2020-01-22 20:55:03
回答 1查看 97关注 0票数 5

我是一个新自学的程序员(在基本知识上只有一个课程),在一个生物实验室工作。我有一个脚本,它可以遍历来自两种不同单元格类型的RNAseq数据,并在另一个数据集中运行一个测试。它适用于这个应用程序,但代码感觉非常粗糙,我知道我会编写很多类似的脚本。

如何更好地编写以下代码以提高效率?

方案目标:

  1. 将基因列表与两种细胞类型的rnaseq库进行比较,如果库中包含该基因,则运行1型细胞与2型细胞的测试。
  2. 输出结果。
代码语言:javascript
复制
import pandas as pd
from scipy.stats import ttest_ind
rnatest = {'Gene symbol':["GeneA","GeneB"],"rnaseq1A":[1,1.5],"rnaseq1B":[1.3,1.2],"rnaseq2A":[2.3,2.7],"rnaseq2B":[2,2.6]} 
df = pd.DataFrame(rnatest)
GOIlist = ["GeneA","GeneB"]
GOI = []
mu = [] 
pval = []
for index, row in df.iterrows():
  if row['Gene symbol'] in GOIlist:
    t, p = ttest_ind([row["rnaseq1A"],row["rnaseq1B"]],[row["rnaseq2A"],row["rnaseq2B"]])
    GOI.append(row['Gene symbol'])
    mu.append(t)
    pval.append(p)
df2 = {'Gene symbol':GOI,"tVAL":mu, "pVAL":pval}
df2 = pd.DataFrame(df2)
print(df2)  
EN

回答 1

Stack Overflow用户

发布于 2020-01-23 12:58:35

使用pandas的优点是可以按列进行操作。这些是通常情况下,使用for循环在DataFrame上迭代效率更高。

我稍微修改了您的df,以向您展示过滤掉我们需要的行的效果。

代码语言:javascript
复制
>>> import pandas as pd
>>> from scipy.stats import ttest_ind
>>> GOIlist = ["GeneA","GeneB"]
>>> rnatest = {'Gene symbol':["GeneA","GeneB", "GeneC"],"rnaseq1A":[1,1.5,2],"rnaseq1B":[1.3,1.2,1.1],"rnaseq2A":[2.3,2.7,3.1],"rnaseq2B":[2,2.6,3.2]} 
>>> df = pd.DataFrame(rnatest)
>>> print(df)

    Gene symbol     rnaseq1A    rnaseq1B    rnaseq2A    rnaseq2B
0   GeneA           1.0         1.3         2.3         2.0
1   GeneB           1.5         1.2         2.7         2.6
2   GeneC           2.0         1.1         3.1         3.2

现在我将如何重写您的代码:

  1. 使用set_index使Gene symbol行成为索引,这将加快查找时间(特别是如果您有大型DataFrames)。
  2. 使用loc筛选出具有GOIlist中的基因符号的行
  3. 创建两个新列pValtVal,将ttest_ind的输出分配给它们。请注意,我们不必再对行进行迭代。
  4. 如果不希望在输出中看到rnaseq*列,则可以选择删除它们。

代码:

代码语言:javascript
复制
>>> df3 = df.set_index(['Gene symbol'])
>>> df3 = df3.loc[GOIlist]
>>> df3['tVal'], df3['pVal'] = ttest_ind([df3["rnaseq1A"], df3["rnaseq1B"]], [df3["rnaseq2A"], df3["rnaseq2B"]])
>>> df3 = df3.drop(['rnaseq1A', 'rnaseq1B', 'rnaseq2A', 'rnaseq2B'], axis=1)
>>> print(df3)
            tVal        pVal
Gene symbol         
GeneA       -4.714045   0.042174
GeneB       -8.221922   0.014473

那么,这段代码现在的效率有多高?

如果我人为地将DataFrame的大小增加了10.000倍(因此总共增加了30.000行而不是3行)

代码语言:javascript
复制
n = 10_000
rnatest = {'Gene symbol':["GeneA","GeneB", "GeneC"]*n, "rnaseq1A":[1,1.5,2]*n, "rnaseq1B":[1.3,1.2,1.1]*n, "rnaseq2A":[2.3,2.7,3.1]*n, "rnaseq2B":[2,2.6,3.2]*n} 
df = pd.DataFrame(rnatest)

然后,我可以使用timeit来度量代码的执行时间。对于您最初的方法,我得到了如下结果:

代码语言:javascript
复制
13.7 s ± 555 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

当我的方法结束时

代码语言:javascript
复制
45.2 ms ± 1.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

这是一个超过300次加速比!

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59868101

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档