我有2个csv和文本文件,文件1有2列,一列是基因id,两列是基因名称,文件2有许多列,列中字符串的一部分是基因id,例如基因id(基因组)或伪基因id(基因组)。我想将文件1中的每个基因id与文件2中的每个基因id进行比较,并将文件2中的基因id替换为文件3中打印的文件1中的基因名称。文件1;
SPAR5_0024, coA binding domain protein
我有两个数据:一个是SNPs及其位置的列表,另一个是基因列表及其起始坐标和结束坐标。使用dplyr,我想添加一个列到SNP数据框中,该列具有每个SNP所在的基因的名称(即SNP的位置位于相同的染色体上,位于该基因的起始坐标/结束坐标之间)。如果一个SNP不属于任何基因坐标,它应该在基因列中得到"NA“。SNP与基因之间的染色体数目必须匹配。SNP数据文件:01 5 C T
01 10 G