我有一个.vcf文件
column1 = chrom
column2 = pos
column3 = ID
column4 = reference
column5 = Alt
column6 = qual
column7 = filter
column8 = info
column9 = format
column 10 - 99 = 100 columns that have a number of either zero or one我在档案里读到:
#!/usr/bin/env python
import pandas as pd
vcf=open('/Users/cmdb/Desktop/Lab6_GWAS/variants.vcf', 'r')还有这个不应该用的
for line in vcf:
fields=line.strip().split()
A01=fields[9]
A02=fields[10]
A03=fields[11]但是,这将花费太长的时间,因为我想保存所有的零和 on ,以便以后可以通过Python运行PCA分析。主成分分析( PCA )我想使用pandas,但不确定如何在这么多列中使用。
发布于 2016-03-25 19:11:27
pandas没有实现PCA算法。
使用sklearn代替。
from sklearn.decomposition import PCA
pca = PCA(n_components=5)
pca.fit(df)并访问如下组件:
pca.components_ https://stackoverflow.com/questions/36226197
复制相似问题