首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏用户7627119的专栏

    讨论学习R的grepl函数

    实现的手段就是通过R的grepl函数 这个函数里的pattern是匹配的模式,也就是我们经常听到的正则表达式。如果对正则表达式还不了解的小伙伴,可以参考☞正则表达式☜。 #,LIPE2,:匹配LIPE2在中间,前后都有其他基因 #^LIPE2,:匹配LIPE2在开始,后面有基因 #,LIPE2$:匹配LIPE2在结尾,前面有基因 #|是或,即满足其中任何一个条件即可 grepl grepl("\\bLIPE2\\b",s) #[1] FALSE FALSE TRUE TRUE FALSE 方法三,利用strsplit和%in% sapply(s,function(x){

    79420编辑于 2022-09-21
  • 来自专栏用户7627119的专栏

    R中的grep和grepl函数

    这个时候我们会用到R中最常用的两个函数,grep和grepl。 我们先来看看grep和grepl这两个函数的用法。 这两个函数最大的区别在于grep返回找到的位置,grepl返回是否包含要查找的内容。接下来我们结合具体的例子来讲解。 #创建一个字符串向量 x <- c("d", "a", "c", "abba") #查找包含a的元素所在的位置 grep("a", x) #判断每个元素是否包含a,返回的是逻辑向量 grepl( x) 运行结果如下: 以上是一些简单的例子,前面我们给大家举过一个grepl实战的例子。 ☞讨论学习R的grepl函数 参考资料: ☞Linux xargs grep zgrep命令 ☞讨论学习R的grepl函数

    4K10编辑于 2022-09-21
  • 来自专栏用户7627119的专栏

    【R语言】文件和文件夹操作

    ,pattern = "png$") 如果我们只想保留以pathview.png为后缀的文件,我们可以结合list.files和file.remove这两个函数,以及前面讲到过的☞讨论学习R的grepl ,all.files = T) #通过grepl来匹配pathview.png结尾的文件 #!取反,就是要删除的文件 rm=! grepl("pathview.png$",files) #通过file.remove删除不需要的文件 file.remove(files[rm]) 最后就只剩10个以pathview.png结尾的文件了 参考资料: 正则表达式 讨论学习R的grepl函数

    63420编辑于 2022-09-21
  • 来自专栏生信技能树

    不同的GSE数据集有不同的临床信息,不同的分组技巧

    通过循环,就可以清楚的知道该用哪一列来进行分组啦 然后是搜索关键字进行分组 TNBC=rownames(pd1[grepl('triple negative breast cancer cells', 然后是搜索关键字进行分组 TNBC=rownames(pd[grepl('Human Basal Tumor Sample',as.character(pd$source_name_ch1)),]) # 肿瘤组 NOR=rownames(pd[grepl('Human Normal',as.character(pd$source_name_ch1)),]) #正常组 dat=dat[,c(TNBC,NOR 所以可以看到生物学知识多么重要:没有生物学背景的数据分析很危险 TU=rownames(pd1[grepl('tumor',as.character(pd1$`site:ch1`)),]) #肿瘤 NOR =rownames(pd1[grepl('margin',as.character(pd1$`site:ch1`)),])#正常 dat=dat[,c(TU,NOR)]#取子集 group_list=c

    10.6K33发布于 2019-11-11
  • GMSB文章九:微生物的相关关系组间波动

    species2[grepl("Species:", species2)|grepl("Genus:", species2)]species3 <- rownames(res_linear3$corr_fl $corr_fl)species4 <- species4[grepl("Species:", species4)|grepl("Genus:", species4)]common_species <- [grepl("Species:", species2)|grepl("Genus:", species2)]species3 <- rownames(res_dist3$corr_fl)species3 <- species3[grepl("Species:", species3)|grepl("Genus:", species3)]species4 <- rownames(res_dist4$corr_fl )species4 <- species4[grepl("Species:", species4)|grepl("Genus:", species4)]common_species <- Reduce(

    50610编辑于 2024-06-30
  • 来自专栏技术博客文章

    R语言文件和文件夹操作

    ,pattern = "png$") 如果我们只想保留以pathview.png为后缀的文件,我们可以结合 list.files 和 file.remove 这两个函数,以及前面讲到过的☞讨论学习R的grepl ,all.files = T) #通过grepl来匹配pathview.png结尾的文件 #!取反,就是要删除的文件 rm=! grepl("pathview.png$",files) #通过file.remove删除不需要的文件 file.remove(files[rm]) 最后就只剩10个以pathview.png结尾的文件了

    74300编辑于 2021-12-05
  • 来自专栏生信技能树

    ChIP-seq数据应该是看peaks呢还是看motif

    grepl('_',seqlevels(peak)) # seqlevels(peak, pruning.mode="coarse") <- seqlevels(peak)[keepChr] # org.Mm.eg.db") } df=as.data.frame(peakAnno) cg_df = df[,c(1,2,4,23)] head(cg_df) cl=ifelse(grepl ('Promoter',df$annotation),'Promoter', ifelse(grepl('Intron',df$annotation),'Intron', ifelse(grepl('Intergenic',df$annotation),'Intergenic', ifelse(grepl('Exon',

    2.8K32发布于 2021-10-12
  • 来自专栏R语言数据分析指南

    [ncb图表复现] ggplot2绘制多层分组热图

    ~ "Bas", group1=="Luminal" ~ "Lum")) %>% mutate(group2 = case_when( grepl ", name) ~ "Bio rep 1", grepl("2-.", name) ~ "Bio rep 2", grepl("3-.

    73010编辑于 2023-12-26
  • 来自专栏生信菜鸟团

    单细胞数据处理的基因名字转换

    meta.data, 10) table(sce.all$orig.ident) table(rownames(sce.all@meta.data)) sce.all$sample<-ifelse(grepl ("ACC2",rownames(sce.all@meta.data)),"ACC2", ifelse(grepl("ACC5",rownames(sce.all@ meta.data)),"ACC5", ifelse(grepl("ACC7",rownames(sce.all@meta.data)),"ACC7", ifelse(grepl("ACC15", rownames(sce.all@meta.data)),"ACC15", ifelse(grepl("ACC19",rownames(sce.all@meta.data)),"ACC19", ifelse(grepl("ACC21",rownames(sce.all@meta.data)),"ACC21","ACC22")))))) table(

    2.5K20编辑于 2023-09-09
  • 来自专栏生信技能树

    在非Linux系统的电脑也可以使用命令行工具操作R语言

    grepl('_',seqlevels(peak)) # seqlevels(peak, pruning.mode="coarse") <- seqlevels(peak)[keepChr] # org.Mm.eg.db") } df=as.data.frame(peakAnno) cg_df = df[,c(1,2,4,23)] head(cg_df) cl=ifelse(grepl ('Promoter',df$annotation),'Promoter', ifelse(grepl('Intron',df$annotation),'Intron', ifelse(grepl('Intergenic',df$annotation),'Intergenic', ifelse(grepl('Exon',

    1.5K31发布于 2021-10-12
  • 来自专栏YoungGy

    R语言包_gbm

    titanicDF <- read.csv('http://math.ucdenver.edu/RTutorial/titanic.txt',sep='\t') titanicDF$Title <- ifelse(grepl ('Mr ',titanicDF$Name),'Mr',ifelse(grepl('Mrs ',titanicDF$Name),'Mrs',ifelse(grepl('Miss',titanicDF$Name

    1.9K20发布于 2019-05-26
  • 来自专栏科技记者

    使用R语言获得16S物种丰度

    df[-1] row.names(df) <- genus #合并相同属 get_genus_summary <- function(df, bacterium){ Bac_name <- df[grepl as.numeric) bac <- colSums(Bac_name) } df_new <- data.frame() for (bact in 1:length(row.names(df))) { if(grepl }else { bac_name <- strsplit(row.names(df)[bact], ' ')[[1]][1] } if (length(row.names(df[grepl

    1.4K10发布于 2020-07-27
  • 来自专栏生信技能树

    TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案

    RTCGA.clinical meta <- LUAD.clinical tmp=as.data.frame(colnames(meta)) meta[(grepl('patient.bcr_patient_barcode ',colnames(meta)))] meta[(grepl('patient.days_to_last_followup',colnames(meta)))] meta[(grepl('patient.days_to_death ',colnames(meta)))] meta[(grepl('patient.vital_status',colnames(meta)))] ## patient.race # patient.age_at_initial_pathologic_diagnosis 'patient.gender' , 'patient.stage_event.pathologic_stage')]) #meta[(grepl

    1.4K31发布于 2018-08-16
  • 来一场酣畅淋漓的选岗

    5] "农村义务教育阶段学校教师特设岗位计划" "在军队服役5年(含)以上的高校毕业生退役士兵" #选择最适合的岗位subset_data=subset(data1, (grepl ('生物|理学|不限', 专业) | is.na(专业)) & #获得生物理学或者不限的行 grepl('硕士', 学历) & 基层工作最低年限 == '无限制'& grepl('女', 备注)&#删除女性,我们是男性 grepl('六级', 备注)) > unique(unlist(strsplit(subset_data$备注, split =

    18210编辑于 2025-11-17
  • 来自专栏生信技能树

    硬着头皮往下走PCA|GSEA

    exprSet<- floor(counts_nor) pd <- pd[match(colnames(exprSet),pd$description.1),] group_list <- ifelse(grepl final_choose,] nr_BLC <- nor_BLCA[final_choose,] nr_pca <- cbind(nr_paper,nr_BLC) group_list <- ifelse(grepl ('TCGA',colnames(nr_pca)),'TCGA',ifelse(grepl('org',pd$title),'org','tumor')) library("FactoMineR") library

    1K20发布于 2019-08-29
  • 思路分享---关于WES联合单细胞RNA检测CNV的讨论

    grepl('Epithelial', celltype[,2])),2] <- 'normal'clustering_barcodes <- celltype[which(grepl("Epithelial grepl('Epithelial', celltype[,2])),2] <- 'normal'clustering_barcodes <- celltype[which(grepl("Epithelial

    30600编辑于 2025-04-20
  • 来自专栏生信技能树

    要读源代码才能解决的报错-GEOquery下载表达矩阵缺样本名

    Sample lines series_header_row_count <- sum(grepl("^! Sample_", dat)[1] samples_header_row_count <- sum(grepl("^!

    96020发布于 2019-05-08
  • 来自专栏单细胞天地

    任意细胞亚群的差异分析

    sce.markers.all_10_celltype.Rdata') } # 并且可视化它 head(sce.markers) table(sce.markers$cluster) # 首先挑选基因 kp=grepl ('Mono',sce.markers$cluster) table(kp) cg_sce.markers = sce.markers [ kp ,] # 然后挑选细胞 kp=grepl('Mono'

    1.4K50发布于 2021-05-18
  • 来自专栏生信宝典

    R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)

    还有Jitter plot (这里使用的是ggbeeswarm包) library(ggbeeswarm) # 为了更好的效果,只保留其中一个样品的数据 # grepl类似于Linux的grep命令,获取特定模式的字符串 data_m2 <- data_m[grepl("_3", data_m$variable),] # variable和value为矩阵melt后的两列的名字,内部变量, variable代表了点线的属性 check.names=F) data_m = data.frame(t(profile_text['A',])) data_m$sample = rownames(data_m) # 只挑选显示部分 # grepl 前面已经讲过用于匹配 data_m[grepl('_[123]', data_m$sample),] A sample 2cell_1 4.0 2cell_1 2cell_ 并从中获取信息 group = unlist(lapply(strsplit(data_m$sample,"_"), function(x) x[1])) data_m$group = group data_m[grepl

    4.8K100发布于 2018-02-05
  • 来自专栏生信技能树

    酪氨酸激酶抑制剂(TKI)的3个时代

    我简单代码查看了一下: library(org.Hs.eg.db) ids=toTable(org.Hs.egGENENAME) head(ids) all_kinase =ids[grepl('kinase ',ids$gene_name),] all_tyrosine_kinase =all_kinase[grepl('tyrosine',all_kinase$gene_name),] nkt= all_tyrosine_kinase [grepl('non',all_tyrosine_kinase$gene_name),] nkt rkt= all_tyrosine_kinase[! grepl('non',all_tyrosine_kinase$gene_name),] rkt 可以看到,非受体酪氨酸激酶 就6个,如下所示: [1] "ABL proto-oncogene 1,

    1.9K20编辑于 2022-01-21
领券