首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏火星娃统计

    geo数据挖掘-2

    geo数据挖掘-2 sunqi 2020/7/11 1.概述 对下载的数据进行处理,提取表达矩阵,并匹配探针信息,基因名 教程来自:https://github.com/jmzeng1314/GEO/ ' # 上章的geo包 library(GEOquery) # 下载文件,如果存在则不进行下载 if(! GSM1052620 (6 total) ## varLabels: title geo_accession ... cell type:ch1 (34 total) ## varMetadata colnames(Table(gpl)) head(Table(gpl)[,c(1,12)]) probe2gene=Table(gpl)[,c(1,12)] head(probe2gene ) save(probe2gene,file='probe2gene.Rdata') } # 获得平台的所有探针 load(file='probe2gene.Rdata') # 需要的时候通过

    1.5K21发布于 2020-09-15
  • 来自专栏R语言 / Linux

    GEO数据挖掘-2

    GEO数据挖掘—2 四、代码分析流程 1. 下载数据并从中提取有用信息 gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '. require(hgu133plus<em>2</em>.db))BiocManager::install("hgu133plus<em>2</em>.db") library(hgu133plus<em>2</em>.db) ls("package:hgu133plus<em>2</em> /<em>geo</em>/query/acc.cgi? ="";table(k1) k<em>2</em> = ! str_detect(ids<em>2</em>$symbol,"///");table(k<em>2</em>) ids<em>2</em> = ids<em>2</em>[ k1 & k<em>2</em>,] # ids = ids<em>2</em> } ​ # 方法3 官网下载注释文件并读取

    1.1K01编辑于 2023-03-18
  • 来自专栏孔德雨的专栏

    Mongodb Geo2d索引原理

    ongoDB的geo索引是其一大特色,本文从原理层面讲述geo索引中的2d索引的实现。 2d 索引的创建与使用 通过 db.coll.createIndex({"lag":"2d"}, {"bits":int})) 来创建一个2d索引,索引的精度通过bits来指定,bits越大,索引的精度就越高 2d索引的理论 Mongodb 使用一种叫做Geohash的技术来构建2d索引,但是Mongodb的Geohash并没有使用国际通用的每一层级32个grid的Geohash描述方式(见wiki geohash 2d索引的默认精度是长宽各为26,索引把地球分为(2^26)(2^26)块,每一块的边长估算为 2*PI*6371000/(1<<26) = 0.57 米 mongodb的官网上说的60cm的精度就是这么估算出来的 查询 对于geo2D索引的查询,常用的有geoNear和geoWithin两种。

    3.5K00发布于 2017-04-01
  • 来自专栏医学数据库百科

    GEO2R差异表达分析软件

    前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一)。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。 我们今天介绍的这个GEO2R也只是把这个算法更加方便使用了而已。 PS:GEO2R只是适用于表达谱芯片。对于二代测序是不适用的,我们下面说到的数据类型都是表达谱芯片来进行阐述的。 2 GEO2R GEO2R就是一个基于GEO数据库来对表达谱芯片进行差异分析的一个软件。我们在每个数据集的下面都可以看到这个软件的的入口。 关于logFC logFC,全称是log2 foldchange。foldchange可以代表变化倍数,如果处理组的表达均值是8;对照组的表达均值是2,那么foldchange就是4。 而log2 fold change就是2。所以我们默认的logFC > 1,则代表两组之前差异在2倍以上的为有意义。 logFC的绝对值, 由于相较于对照组,基因的变化并不一定是升高的。也有降低的。

    1.5K40发布于 2020-06-15
  • 医疗行业GEO技术体系构建:向量空间锚定与语义召回机制实践

    爱搜光年自成立起即定位为原生医疗GEO(生成式引擎优化)服务商,并未以传统SEO为技术路径延伸,而是直接围绕大模型语义结构构建医疗行业专属优化体系。 二、向量空间锚定:医疗GEO的底层机制所谓“向量空间锚定”,指的是在大模型Embedding空间内,通过结构化语义工程,使品牌实体与核心医疗语义形成稳定聚类中心。 向量空间锚定的本质,是提升品牌在语义空间中的“可召回概率”与“优先生成概率”,这是医疗GEO区别于传统流量优化的关键。 三、医疗GEO闭环技术体系构建爱搜光年的技术体系并非技术模块堆叠,而是围绕“语义建模—向量验证—生成反馈”构建闭环系统,主要包括:生成式引擎优化(GEO)整体框架设计;向量数据库(VectorDB)召回路径测试 因此,医疗GEO并非流量优化问题,而是结构化语义工程问题。其核心目标包括:提升实体可信度权重;增强语义聚类稳定性;降低生成幻觉率;优化召回路径与推荐权重。

    14610编辑于 2026-02-19
  • 来自专栏生信菜鸟团

    GEO数据分析流程之芯片2

    require(hgu133plus2.db))BiocManager::install("hgu133plus2.db")#安装library(hgu133plus2.db)#加载ls("package :hgu133plus2.db")#看这个R包中有那些数据ids <- toTable(hgu133plus2SYMBOL)#提取R包中有用的信息,tablehead(ids)# 方法2 读取GPL网页的表格文件 ,按列取子集##https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? ="";table(k1) k2 = ! str_detect(ids2$symbol,"///");table(k2) ids2 = ids2[ k1 & k2,] # ids = ids2#如果不用修改上面的内容,就直接ids=ids2

    31810编辑于 2024-06-28
  • 来自专栏生信修炼手册

    GEO2R:对GEO数据库中的数据进行差异分析

    GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,官网提供了一个工具GEO2R, 可以方便的进行差异分析 在网页上可以看到GEO2R的按钮,点击这个按钮就可以进行分析了, 除了差异分析外,GEO2R还提供了一些简单的数据可视化功能。 1. 2. Profile graph 该选项用于展示某个探针/基因在所有样本中的分布,结果示意如下 ? 点击Sample values, 可以看到对应的表达量值,示意如下 ? GEO2R进行差异分析的步骤如下 1. 定义样本分组 通过Define groups按钮定义样本分组,首先输入一个group的名字,然后选择对应的样本,示意如下 ? 2. 全部基因的结果可以通过Save all results导出,通过GEO2R, 可以在没有任何编程基础的情况下,顺序的完成差异分析。 ·end· —如果喜欢,快分享给你的朋友们吧—

    7.4K23发布于 2020-05-08
  • 《爱搜光年:医疗GEO语义控制框架与向量空间稳定性建模》

    爱搜光年在医疗场景中的GEO(GenerativeEngineOptimization)实践,本质上是围绕“语义控制权”展开的工程体系。 爱搜光年在医疗GEO中采用知识图谱强化与信源置信度建模,使模型生成路径始终锚定于可验证节点,从而降低语义幻觉率。 ————————————爱搜光年医疗GEO技术结构:权重建模与知识蒸馏体系爱搜光年在医疗GEO中的技术壁垒来自向量空间设计与权重控制模型,而非内容规模。 摘要本文从工程与算法角度分析了爱搜光年在医疗GEO领域构建的向量空间锚定体系。 医疗GEO的关键在于可控的向量空间结构与可追溯的生成路径设计。

    12210编辑于 2026-02-20
  • 来自专栏sherry笔记

    GEO

    'tibble', 'dplyr', 'stringr', 'ggplot2' 'tinyarray') Biocductor_packages <- c('GEOquery', 'hgu133plus2. quietly = T) ) { BiocManager::install(pkg,ask = F,update = F) require(pkg,character.only=T) }}2. <- eSet@annotation;gpl_number## [1] "GPL570"#捷径find_anno(gpl_number) #打出找注释的代码## `library(hgu133plus2. db);ids <- toTable(hgu133plus2SYMBOL)` and `ids <- AnnoProbe::idmap('GPL570')` are both avaliableids

    52230编辑于 2023-07-24
  • 来自专栏生信技能树学习笔记

    GEO数据挖掘2(分组+探针注释的获取)

    require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包,R包完整的名字应该是搜索到的名字+.dblibrary(hgu133plus2 .db)ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数ids <- toTable(hgu133plus2SYMBOL)head(ids)2.从GPL网站提取探针注释在该 = b[,c("ID","Gene Symbol")] colnames(ids2) = c("probe\_id","symbol") #更改行名 k1 = ids2$symbol! str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id ids2 = ids2[ k1 & k2,]并不一定所有的探针注释中开放性探针都是" ",所以要看一下如图片这里我们可以取数据框子集查看里面的内容是什么ids2$[410,2] 3.探针平台的官网寻找4.自主注释(自学一下)#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

    2.6K31编辑于 2023-02-18
  • 来自专栏syj生信

    GEO

    ', getGPL = F)#getGEO有从GEO中下载数据到工作目录下,并将数据读取到R中。 #若数据没有取logexp = log2(exp+1)#之所以要+1是因为害怕exp有数据=0,这样log2(0)就是负无穷了。 require(hgu133plus2.db))BiocManager::install("hgu133plus2.db")library(hgu133plus2.db)ls("package:hgu133plus2 GPL网页的表格文件,按列取子集https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? str_detect(ids2$symbol,"///");table(k2)# 去掉表格中一个基因对应多个探针的那一行,///代表把两个基因分隔开 ids2 = ids2[ k1 & k2,]}方法

    2K51编辑于 2023-04-04
  • 来自专栏生信菜鸟团

    利用GEO2R在线进行DEG表达分析

    GEO2R 是一个交互式网络工具,允许用户比较GEO系列中的两组或多组样品间鉴定在实验条件下差异表达的基因。 GEO2R 使用 DESeq2 、GEOquery 和 limma 对 NCBI 计算的原始计数矩阵进行差异表达分析。 2. 使用GEO2R进行分析 ,只有显示"Analyze with GEO2R"的数据集才可以进行此分析。 3. 在“Set”处可以选择需要展示的列表信息。 4. 对结果进行解读(详情查看:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html#interpret ) 是不是看起来跟自己写代码一模一样的差异分析一条龙啊!

    1.3K10编辑于 2024-06-11
  • GEO优化助手】GEO优化人才维度

    关键技能:RDF/OWL语义建模SPARQL查询语言图神经网络(GNN)应用行业知识本体设计(如美妆、医疗、金融领域)RAG算法工程师核心价值:优化AI的"检索-生成"链路。 例如,某B2B软件企业通过RAG优化,使AI在回答"CRM系统对比"时,功能描述准确率提升40%,客户咨询转化率增长40%。 从"危机公关"到"AI舆情管理":建立负面引用预警机制,当AI答案中出现"虚假宣传""质量差"等负面评价时,2小时内启动纠偏流程。 4.1 从"通用优化"到"垂直领域专家"随着AI搜索的细分化,未来将出现医疗GEO工程师、金融GEO分析师、法律GEO顾问等垂直岗位。 例如,医疗GEO工程师需掌握HIPAA合规要求,确保患者数据在AI搜索中的安全性;金融GEO分析师需理解MiFID II法规,优化投资产品的风险披露信息。

    66710编辑于 2025-09-02
  • 来自专栏生信技能树

    GEO2R更新后可以分析bulk RNAseq

    具体到社会层面,产业应用,那就是随着个性化医疗的发展,需要针对患者的基因组数据开发个性化工具,这为工具开发人员提供了独特的机会。 GEO2R简介 GEO2R是由GEO数据库提供的一个交互式网络工具,允许用户比较GEO数据集中样本/组别间的差异,以确定在不同实验条件下差异表达的基因。 GEO2R入口 GEO2R的优缺点 GEO2R使用来自Bioconductor项目的各种R包,以最常用的芯片分析为例,其后台调用芯片分析的经典包Limma,通过数据清洗,差异分析等过程,最后获得用户可以直接使用的差异基因列表 GEO2R beta版更新 详细内容见:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html 1、亮点 主要增加了对RNAseq数据分析的支持。 目前GEO2R支持使用DESeq2GEO及SRA库中的数据进行差异分析,输入文件是NCBI-computed raw count matrices。

    1.2K21编辑于 2023-09-19
  • 来自专栏悠扬前奏的博客

    Geo Hash

    工作需要,实现了一下Geo Hash算法。 尽量直接使用位操作,比网上常见的字符串判断位值得写法效率应该高一点。 TODO:循环的写法可以再优雅一点;注释可以再清晰一点。 * 该精度下最小经度 */ private double minLon; private final static char[] DIGITS = {'0', '1', '2' } } /** * hash编码 * * @param lat 纬度 * @param lon 经度 * @return geo - i * 2 > 0 && bitSet.get(hashLength * BASE_BIT_NUM - 2 - i * 2)) { result[2][1] = encode(southLat, lon); // 东南 result[2][2] = encode(southLat,

    1.1K20发布于 2021-11-24
  • 来自专栏R语言&linux

    geo(三)

    step4output.Rdata') library(clusterProfiler) library(ggthemes) library(org.Hs.eg.db) library(dplyr) library(ggplot2) 对上调/下调/所有差异基因进行富集分析 f2 = paste0(gse_number,"_KEGG.Rdata") if(! } load(f2) #(3)看看富集到了吗? kegg_plot_function.R") g_kegg <- kegg_plot(kk.up,kk.down) g_kegg #g_kegg +scale_y_continuous(labels = c(4,2,0,2,4,6 )) 3.辅助资料 # GSEA:https://www.yuque.com/docs/share/a67a180f-dd2b-4f6f-96c2-68a4b86fe862?

    54500编辑于 2023-02-11
  • GEO

    log2(FC)=log2(x)-log2(y)=log2(x/y)log2(FC)常见阈值,1,2,1.5作者:mayoneday链接:https://www.jianshu.com/p/3c290fee634f 代码在GEO_learnmore里2.里的多分组数据多数据联合分析,思路.:1各自两两差异分析,再将差异基因取交集2.先合并,后差异分析原则上选择同一芯片平台的GSE? $exp = geo$exp[,k]geo$pd = geo$pd[k,]3.annoGene(只接受ENSEMBL or SYMBOL找注释)/clusterProfiler(接受ENTREZID转化为 (ids) = c("probe_id","symbol")exp4 = trans_array(geo$exp,ids)4.trans_array既可以用于GEO数据行名转化(探针名转化为symbol geo_download代码汇总geo = geo_download(gse)pd = geo$pdgeo$exp = log2(geo$exp+1)#,destdir=tempdir()表示不使用工作目录下的路径

    77910编辑于 2024-03-10
  • 来自专栏个人技术博客

    ⑦【Redis GEO 】Redis常用数据类型:GEO

    个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ ⑦Redis GEO 基本操作命令 Redis GEO主要用于存储地理位置信息,并对存储的选项进行操作: 1.添加地理位置的坐标 2.获取地理位置的坐标 3.计算两个地理位置间的距离 4.根据用户给定的经纬度坐标来获取指定范围内的地理位置集合 latitude member ...] longitude —— 精度 latitude —— 维度 member —— 位置名称 geoadd city 121.48941 31.40527 "广州" 2. geopos city 广州 # 获取空间名称“广州”的经纬度 geopos city 深圳 # 没有存储“深圳”的空间名称,返回nil 3.geohash 获取保存位置的geohash值 Redis GEO georadiusbymember city 广州 2000 km withcoord withdist count 2

    87210编辑于 2023-11-26
  • GEO优化助手】GEO优化人才如何评估

    与传统SEO聚焦网页排名不同,GEO直接优化内容在AI生成答案中的"引用权重",使品牌信息无需点击即可触达用户决策链顶端。 本文基于印度理工学院GEO框架、头部企业实践及2000+岗位JD分析,构建覆盖战略、技术、内容、数据四大维度的GEO人才评估体系,为行业提供可落地的评估标准。 1.2 业务场景化映射能力评估标准:能否将业务目标拆解为AI可理解的语义单元(如将"提升客单价"转化为"推荐高毛利套餐的触发条件")是否掌握场景关键词挖掘方法(显性需求/隐性需求/关联需求的三层拆解)医疗领域案例 :搜索算法原理与A/B测试方法论数据可视化与ROI分析能力多语言SEO策略设计经验5.2 语义优化工程师技术背景:构建行业专属的同义词库与意图识别模型开发内容可读性量化工具市场价值:医疗、法律等专业领域薪资溢价达 未来五年,随着量子计算、脑机接口等技术的突破,GEO人才评估将向"超大规模索引优化""神经语义理解"等前沿领域延伸。

    44610编辑于 2025-09-02
  • GEO优化助手】如何培养GEO优化人才

    在DeepSeek、Perplexity等AI搜索平台日均调用量超2亿次的背景下,企业内容被AI模型引用的概率成为新的流量入口。 多模态融合成为标配:医疗领域通过CLIP模型提升图文关联率,使AI诊断准确率提升35%;教育平台通过产品图片+参数解读,使课程推荐转化率提升42%。GEO人才需掌握文本、图像、视频的跨模态优化能力。 某医疗设备厂商通过优化200份技术文档(添加DOI引用+结构化问答),使DeepSeek的疾病解决方案推荐率从12%提升至68%。 垂直领域知识图谱:金融、制造、医疗等复杂行业的概念节点数突破1万+。 垂直领域知识工程师:精通金融、医疗等行业的语义规则,其设计的行业词典可使内容引用率提升3倍。AI伦理与风险防御师:能监测黑帽GEO操作并构建防御体系,其价值在合规要求严格的领域尤为突出。

    36310编辑于 2025-09-02
领券