我有一个表格文件,如下所示:
query_name KEGG_KOs
PROKKA_00013 NaN
PROKKA_00015 bactNOG[38]
PROKKA_00017 NA|NA|NA
PROKKA_00019 K00240
PROKKA_00020 K00246
PROKKA_00022 K02887如果第2列('KEGG_KOs')不是以'K0‘开头的话,我将创建一个脚本来遍历并删除整个行。我试图创建一个输出:
query_name KEGG_KOs
PROKKA_00019 K00240
PROKKA_00020 K00246
PROKKA_00022 K02887以前的回复提到了熊猫DataFrame,但我没有运气使用这些回复来帮助。任何人都会非常感激的,干杯。
我试过了(但这只会分离出一个特定的K0行。
df = pd.read_csv("eggnog.txt", delimiter="\t", names=["#query_name", "KEGG_KOs"])
print(df.loc[df['KEGG_KOs'] == 'K00240'])发布于 2018-09-24 08:07:38
将boolean indexing与startswith一起使用,或contains与regex一起用于字符串^和参数na=False的开始,因为缺少值:
df1 = df[df['KEGG_KOs'].str.startswith('K0', na=False)]
print (df1)
query_name KEGG_KOs
3 PROKKA_00019 K00240
4 PROKKA_00020 K00246
5 PROKKA_00022 K02887或者:
df1 = df[df['KEGG_KOs'].str.contains('^K0', na=False)]发布于 2018-09-24 08:52:52
您可以使用打开作为读,然后写。假设原始文件保存为old.txt,更新的文件将保存为new.txt
text = ''
with open("old.txt", 'r') as org:
next(org)
for line in org:
data = line.strip().split()
if data[1].startswith("K0"):
text = text + data[0] + " "+ data[1] + '\n'
w = open('new.txt', 'w')
w.write("query_name"+" "+ "KEGG_KOs\n")
w.write(text)
w.close()https://stackoverflow.com/questions/52475005
复制相似问题