示例数据
鉴于以下数据框架:
| feature | gene | target | pos |
| 1_1_1 | NRAS | AATTGG | 60 |
| 1_1_1 | NRAS | TTGGCC | 6 |
| 1_1_1 | NRAS | AATTGG | 20 |
| 1_1_1 | KRAS | GGGGTT | 0 |
| 1_1_1 | KRAS | GGGGTT | 0 |
| 1_1_1 | KRAS | GGGGTT | 0 |
| 1_1_2 | NRAS | CCTTAA | 2 |
| 1_1_2 | NRAS | GGAATT | 8 |
| 1_1_2 | NRAS | AATTGG | 60 |问题所在
对于每个特性,我想计算每个基因中有多少个目标,并遵循以下规则:
我至今所做的一切
matches.groupby(["FeatureID", "gene"]).size().reset_index()
matches['multi_mapped'] = np.where(matches.groupby(["FeatureID", "gene", "target"]).pos.transform('nunique') > 1, "T", '')这给了我一个数据,其中出现在多个位置的目标被标记为真。现在我只需要弄清楚如何使计数正常化。
期望输出
| feature | gene | count
| 1_1_1 | NRAS | 2
| 1_1_1 | KRAS | 1
| 1_1_2 | NRAS | 3因此,在上面的1_1_1 NRAS示例中,AATTGG位于60和20位置,每个位置都将得到一个.5计数。因为TTGGCC只在一个位置找到一次,所以它的计数为1,这就使得总计数为2。
如果在相同的位置上找到了3次1_1_1 NRAS TTGGCC,那么每一次都会得到1的计数,总共3+ .5 + .5 = 4。
解决方案需要检查相同的目标出现在不同的位置,然后相应地调整计数,这是我遇到困难的部分。我的最终目标是选择每组计数最高的基因。
发布于 2018-07-02 18:09:37
好吧,我想出来了。如果有更有效的方法来做这件事,我会全神贯注的!
# flag targets that are multi-mapped and add flag as new column
matches['multi_mapped'] = np.where(matches.groupby(["FeatureID", "gene", "target"]).pos.transform('nunique') > 1, "T", '')
# separate multi and non multi mapped reads using flag
non = matches[matches["multi_mapped"] != "T"]\
.drop("multi_mapped", axis=1)
multi = matches[matches["multi_mapped"] == "T"]\
.drop("multi_mapped", axis=1)
# add counts to non multi mapped reads
non = non.groupby(["FeatureID", "gene", "target"])\
.count().reset_index().rename(columns={"pos":"count"})
# add counts to multi-mapped reads with normaliztion
multi["count"] = multi.groupby(["FeatureID", "gene", "target"])\
.transform(lambda x: 1/x.count())
multi.drop("pos", axis=1, inplace=True)
# join the multi and non back together
counts = pd.concat([multi, non], axis=0)发布于 2018-06-28 04:12:59
我不太清楚为什么第一排的计数应该是2。你能试着玩这个游戏吗:
import pandas as pd
feature = ["1_1_1"]*6 +["1_1_2"]*3
gene = ["NRAS"]*3+["KRAS"]*3+["NRAS"]*3
target = ["AATTGG","TTGGCC", "AATTGG"]+ ["GGGGTT"]*3 + ["CCTTAA", "GGGGTT", "AATTGG"]
pos = [60,6,20,0,0,0,2,8,60]
df = pd.DataFrame({"feature":feature,
"gene":gene,
"target":target,
"pos":pos})
df.groupby(["feature", "gene"])\
.apply(lambda x:len(x.drop_duplicates(["target", "pos"])))https://stackoverflow.com/questions/51073813
复制相似问题