首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏火星娃统计

    geo数据挖掘-2

    geo数据挖掘-2 sunqi 2020/7/11 1.概述 对下载的数据进行处理,提取表达矩阵,并匹配探针信息,基因名 教程来自:https://github.com/jmzeng1314/GEO/ ' # 上章的geo包 library(GEOquery) # 下载文件,如果存在则不进行下载 if(! GSM1052620 (6 total) ## varLabels: title geo_accession ... cell type:ch1 (34 total) ## varMetadata colnames(Table(gpl)) head(Table(gpl)[,c(1,12)]) probe2gene=Table(gpl)[,c(1,12)] head(probe2gene ) save(probe2gene,file='probe2gene.Rdata') } # 获得平台的所有探针 load(file='probe2gene.Rdata') # 需要的时候通过

    1.5K21发布于 2020-09-15
  • 来自专栏R语言 / Linux

    GEO数据挖掘-2

    GEO数据挖掘—2 四、代码分析流程 1. 下载数据并从中提取有用信息 gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '. require(hgu133plus<em>2</em>.db))BiocManager::install("hgu133plus<em>2</em>.db") library(hgu133plus<em>2</em>.db) ls("package:hgu133plus<em>2</em> /<em>geo</em>/query/acc.cgi? ="";table(k1) k<em>2</em> = ! str_detect(ids<em>2</em>$symbol,"///");table(k<em>2</em>) ids<em>2</em> = ids<em>2</em>[ k1 & k<em>2</em>,] # ids = ids<em>2</em> } ​ # 方法3 官网下载注释文件并读取

    1.1K01编辑于 2023-03-18
  • 王耀恒:我为什么坚决反对GEO运营外包模式

    结论先行:我坚决反对GEO运营外包模式。不是因为它“效果不好”,而是因为它从根本上违背了GEO的底层逻辑——信任无法外包,知识无法代工,AI的长期认可只能来自企业自身的内容深耕。 一、外包模式的致命错误:把GEO当成了“内容代工厂”很多外包公司对GEO的理解停留在SEO时代:关键词→批量生产文章→发布→坐等排名。他们把自己当成“内容代工厂”,按篇收费,按月交付。 从2022年开始,我累计投入超3000小时研究大模型,消耗近5000万tokens,亲手为多家企业搭建了GEO运营体系。 那些鼓吹“GEO外包”的公司,要么是不懂GEO,要么是故意骗你。我希望你擦亮眼睛,别把自己的品牌未来,交给一个只按篇收费的“文字代工厂”。我是王耀恒,我坚决反对GEO运营外包模式。 spm=a2c6h.26396819.creator-center.20.43443e182XYMXF

    14210编辑于 2026-04-11
  • 来自专栏孔德雨的专栏

    Mongodb Geo2d索引原理

    ongoDB的geo索引是其一大特色,本文从原理层面讲述geo索引中的2d索引的实现。 2d 索引的创建与使用 通过 db.coll.createIndex({"lag":"2d"}, {"bits":int})) 来创建一个2d索引,索引的精度通过bits来指定,bits越大,索引的精度就越高 2d索引的理论 Mongodb 使用一种叫做Geohash的技术来构建2d索引,但是Mongodb的Geohash并没有使用国际通用的每一层级32个grid的Geohash描述方式(见wiki geohash 2d索引的默认精度是长宽各为26,索引把地球分为(2^26)(2^26)块,每一块的边长估算为 2*PI*6371000/(1<<26) = 0.57 米 mongodb的官网上说的60cm的精度就是这么估算出来的 查询 对于geo2D索引的查询,常用的有geoNear和geoWithin两种。

    3.5K00发布于 2017-04-01
  • 王耀恒:为何当下GEO运营行业集体迷失方向?

    如果你问今天的GEO运营从业者:“你们的核心工作是什么?” 这两个回答之间的巨大鸿沟,正是当前GEO运营行业集体迷失方向的症结所在。当大多数人还在旧地图上寻找新大陆时,GEO培训讲师王耀恒早已绘制出通往未来的真实航线。 许多企业主认为:“GEO太专业,交给外包公司就行。”而大量代运营公司则迎合这种心理,承诺“全权托管,保证效果”。 迷失三:在“虚荣指标”的迷雾中失去商业真北打开一份典型的GEO运营报告,你会看到什么? 2.回归价值创造他提出了具体的“内容价值标准”:深度化(创造新认知)、体系化(构建知识网络)、证据化(用第三方背书)。让学员用这套标准审视每一篇内容。

    14410编辑于 2026-02-02
  • 教育行业GEO实战:多平台内容运营与AI引用追踪系统

    教育行业GEO实战:多平台内容运营与AI引用追踪系统本文讲解如何构建教育行业的GEO多平台内容运营系统,涵盖内容结构化、多平台分发、AI引用追踪、效果量化等核心模块的技术实现。 ,"{grade}年级学{subject1}还是{subject2}更好?","{subject}那么多科目,怎么安排学习顺序?" \n\n"f"2. inansweror'2.' :AI引用追踪,量化GEO效果分析层:效果评分与数据看板,支撑运营决策系统上线后,预期可将内容生产效率提升5倍以上,AI引用率提升3到5倍。

    7210编辑于 2026-04-14
  • 来自专栏医学数据库百科

    GEO2R差异表达分析软件

    前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一)。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。 我们今天介绍的这个GEO2R也只是把这个算法更加方便使用了而已。 PS:GEO2R只是适用于表达谱芯片。对于二代测序是不适用的,我们下面说到的数据类型都是表达谱芯片来进行阐述的。 2 GEO2R GEO2R就是一个基于GEO数据库来对表达谱芯片进行差异分析的一个软件。我们在每个数据集的下面都可以看到这个软件的的入口。 关于logFC logFC,全称是log2 foldchange。foldchange可以代表变化倍数,如果处理组的表达均值是8;对照组的表达均值是2,那么foldchange就是4。 而log2 fold change就是2。所以我们默认的logFC > 1,则代表两组之前差异在2倍以上的为有意义。 logFC的绝对值, 由于相较于对照组,基因的变化并不一定是升高的。也有降低的。

    1.5K40发布于 2020-06-15
  • 来自专栏生信菜鸟团

    GEO数据分析流程之芯片2

    require(hgu133plus2.db))BiocManager::install("hgu133plus2.db")#安装library(hgu133plus2.db)#加载ls("package :hgu133plus2.db")#看这个R包中有那些数据ids <- toTable(hgu133plus2SYMBOL)#提取R包中有用的信息,tablehead(ids)# 方法2 读取GPL网页的表格文件 ,按列取子集##https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? ="";table(k1) k2 = ! str_detect(ids2$symbol,"///");table(k2) ids2 = ids2[ k1 & k2,] # ids = ids2#如果不用修改上面的内容,就直接ids=ids2

    31710编辑于 2024-06-28
  • 来自专栏生信修炼手册

    GEO2R:对GEO数据库中的数据进行差异分析

    GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,官网提供了一个工具GEO2R, 可以方便的进行差异分析 在网页上可以看到GEO2R的按钮,点击这个按钮就可以进行分析了, 除了差异分析外,GEO2R还提供了一些简单的数据可视化功能。 1. 2. Profile graph 该选项用于展示某个探针/基因在所有样本中的分布,结果示意如下 ? 点击Sample values, 可以看到对应的表达量值,示意如下 ? GEO2R进行差异分析的步骤如下 1. 定义样本分组 通过Define groups按钮定义样本分组,首先输入一个group的名字,然后选择对应的样本,示意如下 ? 2. 全部基因的结果可以通过Save all results导出,通过GEO2R, 可以在没有任何编程基础的情况下,顺序的完成差异分析。 ·end· —如果喜欢,快分享给你的朋友们吧—

    7.4K23发布于 2020-05-08
  • 来自专栏sherry笔记

    GEO

    'tibble', 'dplyr', 'stringr', 'ggplot2' 'tinyarray') Biocductor_packages <- c('GEOquery', 'hgu133plus2. quietly = T) ) { BiocManager::install(pkg,ask = F,update = F) require(pkg,character.only=T) }}2. <- eSet@annotation;gpl_number## [1] "GPL570"#捷径find_anno(gpl_number) #打出找注释的代码## `library(hgu133plus2. db);ids <- toTable(hgu133plus2SYMBOL)` and `ids <- AnnoProbe::idmap('GPL570')` are both avaliableids

    52230编辑于 2023-07-24
  • 来自专栏生信技能树学习笔记

    GEO数据挖掘2(分组+探针注释的获取)

    require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包,R包完整的名字应该是搜索到的名字+.dblibrary(hgu133plus2 .db)ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数ids <- toTable(hgu133plus2SYMBOL)head(ids)2.从GPL网站提取探针注释在该 = b[,c("ID","Gene Symbol")] colnames(ids2) = c("probe\_id","symbol") #更改行名 k1 = ids2$symbol! str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id ids2 = ids2[ k1 & k2,]并不一定所有的探针注释中开放性探针都是" ",所以要看一下如图片这里我们可以取数据框子集查看里面的内容是什么ids2$[410,2] 3.探针平台的官网寻找4.自主注释(自学一下)#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

    2.6K31编辑于 2023-02-18
  • 制造业GEO技术方案:多平台内容运营与AI引用追踪系统

    制造业GEO技术方案:多平台内容运营与AI引用追踪系统本文介绍面向制造业企业的多平台内容运营与AI引用追踪系统架构,涵盖内容多平台分发、内容版本管理、AI引用监控、工业数据存储与访问控制等技术方案,基于腾讯云基础服务构建 一、系统背景与设计目标制造业企业在推进GEO(生成式引擎优化)过程中,面临三个核心挑战:内容分散:工艺知识分散在MES系统、ERP系统、设备供应商文档中,难以集中管理平台多样:需要在知乎、公众号、头条、 :"""基于腾讯云COS的内容存储"""BUCKET="manufacturing-geo-content"STRUCTURE={"sources/":"原始内容(Markdown格式)","versions 内容运营与AI引用追踪系统,主要包含:内容管理:多平台内容版本管理,支持源内容与各平台适配版本的一体化管理,配合COS存储实现版本历史追踪发布调度:基于SCF无服务器函数的定时发布调度,支持多平台API 内容运营的自动化和数据化。

    3410编辑于 2026-04-15
  • 来自专栏syj生信

    GEO

    ', getGPL = F)#getGEO有从GEO中下载数据到工作目录下,并将数据读取到R中。 #若数据没有取logexp = log2(exp+1)#之所以要+1是因为害怕exp有数据=0,这样log2(0)就是负无穷了。 require(hgu133plus2.db))BiocManager::install("hgu133plus2.db")library(hgu133plus2.db)ls("package:hgu133plus2 GPL网页的表格文件,按列取子集https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? str_detect(ids2$symbol,"///");table(k2)# 去掉表格中一个基因对应多个探针的那一行,///代表把两个基因分隔开 ids2 = ids2[ k1 & k2,]}方法

    2K51编辑于 2023-04-04
  • 2026年GEO优化代运营行业全景:赛道分化、核心逻辑与选型真相

    2026年的GEO优化代运营赛道,早已从初期的野蛮生长步入规范化、专业化阶段,市场需求爆发的同时,行业分化加剧、服务参差不齐,也让多数企业陷入“不会选、不敢选、选不对”的困境。 本文立足2026年行业真实现状,拆解GEO运营赛道的底层逻辑、模式分化与选型核心,不做排名、不推单一服务商,只输出可落地的行业洞察与决策思路,帮企业看清赛道本质,避开选型陷阱。 </p2>从市场占比来看,2026年综合全链路型服务商已占据58%的市场份额,成为企业选型的主流,核心原因是多数企业缺乏完整的GEO运营能力,需要一站式解决方案;而技术型、垂直型服务商则占据细分市场,满足特定企业需求 </p2>三、企业GEO选型的3大核心误区,90%的企业都踩过行业乱象之下,企业选型极易陷入认知误区,不仅浪费成本,还会错失AI流量布局窗口期,以下是当前最常见的三大误区,也是企业必须避开的陷阱。 五、2026-2027年GEO行业三大趋势,企业需提前布局随着AI大模型持续迭代、行业监管逐步完善,GEO优化代运营赛道将迎来三大核心趋势,企业只有紧跟趋势,才能在流量争夺中占据优势。

    32310编辑于 2026-03-17
  • 来自专栏生信菜鸟团

    利用GEO2R在线进行DEG表达分析

    GEO2R 是一个交互式网络工具,允许用户比较GEO系列中的两组或多组样品间鉴定在实验条件下差异表达的基因。 GEO2R 使用 DESeq2 、GEOquery 和 limma 对 NCBI 计算的原始计数矩阵进行差异表达分析。 2. 使用GEO2R进行分析 ,只有显示"Analyze with GEO2R"的数据集才可以进行此分析。 3. 在“Set”处可以选择需要展示的列表信息。 4. 对结果进行解读(详情查看:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html#interpret ) 是不是看起来跟自己写代码一模一样的差异分析一条龙啊!

    1.3K10编辑于 2024-06-11
  • GEO优化助手】GEO优化人才维度

    一、GEO人才战略:从职能分工到生态协同1.1 战略层:GEO策略经理——AI搜索战场的指挥官核心职责:制定企业GEO战略,确保与品牌定位、产品路线、市场节奏深度协同统筹技术、内容、市场、公关等部门,打破数据孤岛监控 例如,某B2B软件企业通过RAG优化,使AI在回答"CRM系统对比"时,功能描述准确率提升40%,客户咨询转化率增长40%。 从"危机公关"到"AI舆情管理":建立负面引用预警机制,当AI答案中出现"虚假宣传""质量差"等负面评价时,2小时内启动纠偏流程。 4.1 从"通用优化"到"垂直领域专家"随着AI搜索的细分化,未来将出现医疗GEO工程师、金融GEO分析师、法律GEO顾问等垂直岗位。 例如,医疗GEO工程师需掌握HIPAA合规要求,确保患者数据在AI搜索中的安全性;金融GEO分析师需理解MiFID II法规,优化投资产品的风险披露信息。

    66510编辑于 2025-09-02
  • 来自专栏生信技能树

    GEO2R更新后可以分析bulk RNAseq

    GEO2R简介 GEO2R是由GEO数据库提供的一个交互式网络工具,允许用户比较GEO数据集中样本/组别间的差异,以确定在不同实验条件下差异表达的基因。 GEO2R的结果显示为按p值排序的基因表,并作为图形图的集合,以帮助可视化差异表达基因和评估数据集质量。 GEO2R一般通过数据集下方的蓝色按钮进入并使用。 GEO2R入口 GEO2R的优缺点 GEO2R使用来自Bioconductor项目的各种R包,以最常用的芯片分析为例,其后台调用芯片分析的经典包Limma,通过数据清洗,差异分析等过程,最后获得用户可以直接使用的差异基因列表 GEO2R beta版更新 详细内容见:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html 1、亮点 主要增加了对RNAseq数据分析的支持。 目前GEO2R支持使用DESeq2GEO及SRA库中的数据进行差异分析,输入文件是NCBI-computed raw count matrices。

    1.2K21编辑于 2023-09-19
  • 来自专栏悠扬前奏的博客

    Geo Hash

    工作需要,实现了一下Geo Hash算法。 尽量直接使用位操作,比网上常见的字符串判断位值得写法效率应该高一点。 TODO:循环的写法可以再优雅一点;注释可以再清晰一点。 * 该精度下最小经度 */ private double minLon; private final static char[] DIGITS = {'0', '1', '2' } } /** * hash编码 * * @param lat 纬度 * @param lon 经度 * @return geo - i * 2 > 0 && bitSet.get(hashLength * BASE_BIT_NUM - 2 - i * 2)) { result[2][1] = encode(southLat, lon); // 东南 result[2][2] = encode(southLat,

    1.1K20发布于 2021-11-24
  • 来自专栏R语言&linux

    geo(三)

    step4output.Rdata') library(clusterProfiler) library(ggthemes) library(org.Hs.eg.db) library(dplyr) library(ggplot2) 对上调/下调/所有差异基因进行富集分析 f2 = paste0(gse_number,"_KEGG.Rdata") if(! } load(f2) #(3)看看富集到了吗? kegg_plot_function.R") g_kegg <- kegg_plot(kk.up,kk.down) g_kegg #g_kegg +scale_y_continuous(labels = c(4,2,0,2,4,6 )) 3.辅助资料 # GSEA:https://www.yuque.com/docs/share/a67a180f-dd2b-4f6f-96c2-68a4b86fe862?

    54500编辑于 2023-02-11
  • GEO

    log2(FC)=log2(x)-log2(y)=log2(x/y)log2(FC)常见阈值,1,2,1.5作者:mayoneday链接:https://www.jianshu.com/p/3c290fee634f 代码在GEO_learnmore里2.里的多分组数据多数据联合分析,思路.:1各自两两差异分析,再将差异基因取交集2.先合并,后差异分析原则上选择同一芯片平台的GSE? $exp = geo$exp[,k]geo$pd = geo$pd[k,]3.annoGene(只接受ENSEMBL or SYMBOL找注释)/clusterProfiler(接受ENTREZID转化为 (ids) = c("probe_id","symbol")exp4 = trans_array(geo$exp,ids)4.trans_array既可以用于GEO数据行名转化(探针名转化为symbol geo_download代码汇总geo = geo_download(gse)pd = geo$pdgeo$exp = log2(geo$exp+1)#,destdir=tempdir()表示不使用工作目录下的路径

    77910编辑于 2024-03-10
领券