首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信小驿站

    从pdb文件中提取蛋白质序列

    提取蛋白质结构的所有序列 save 1ywt.fasta 仅提取蛋白质结构的特定chain的序列 save 1ywt.fasta, chain A ? ?

    4.9K20发布于 2020-09-08
  • 来自专栏python3

    用ffmpeg 提取MP3

    video.avi 原有的音频 方法2 好像可以直接指定两个输入文件 , ffmpeg -i /tmp/a.wav -i /tmp/a.avi /tmp/a.avi 两个文件 的顺序很重 从视频里提取声音 (声音与视频的分离) ffmpeg  -i 人生若只如初见.flv  -vn r.mp3  从flv 文件 中提取声音并保存为mp3 格式         -vn : 表示忽略视频 估计是video no 之类的缩写 ffmpeg  -i 人生若只如初见.flv  -an  r.flv   只留视频不留声音  -an : 表示忽略声音估计是audio no 之类的缩写 从视频里提取图片( ) 文件 如果你觉得mp3 文件 有点大,想变小一点那么可以通过-ab 选项改变音频的比特率(bitrate) ffmpeg -i input.mp3 -ab 128 output.mp3   //这里将比特率设为 请注意:播放时间相同,而歌曲不同,所获的压缩mp3文件的一般不相同,这是因为VBR编码所生成的mp3文件的大小不仅仅取决于播放时间的长度,还取决于源音频文件的其它因素。

    5.3K20发布于 2020-01-07
  • ESM3蛋白质语言模型cookbook(3

    前两章我们介绍了ESM3和ESM-C模型 ESM3蛋白质语言模型cookbook(1) ESM3蛋白质语言模型cookbook(2) ·Hayes论文图 ESM3 能够在蛋白质的序列、结构和功能之间进行联合推理,因此我们可以构建新的提示方式,以比许多其他生物语言模型更高的控制水平引导模型生成蛋白质。 gfp蛋白质结构 接下来我们再去看看pdb id为1qy3蛋白质结构是什么样子的呢? ·pdb官网的1qy3的结构 此时,只有在以下条件满足时,我们才会继续生成: 设计在活性位点上与野生型GFP高度匹配;整个蛋白结构上有一定差异(否则就会和野生型GFP的序列非常接近);整体结构仍像经典的 ,其中背后的引擎则是esm3蛋白质多模态模型,并且也用到了自然语言中的很多概念,如mask和token的表示。

    2700编辑于 2026-04-17
  • 来自专栏科技记者

    脚本分享—gbk文件中提取蛋白质序列以及注释信息

    脚本简介: 本脚本用于从 GenBank(GBK)格式文件中提取蛋白质序列,并将结果输出为 FASTA 格式文件。 主要功能包括: 提取 CDS 区域的蛋白质序列; 可根据参数选择是否在序列标题中附加蛋白质的功能注释; 该脚本适用于基因组注释分析、蛋白质功能预测等常见生物信息学任务。 查看脚本帮助文档: python Gbk_extea_protein.py -h 脚本使用方法: 1)脚本准备文件如下图所示 2)注意事项 GBK文件从NCBI GeneBank数据库下载,文件中必须包含蛋白质文件 ; 对于基因组较大的真核生物,如人基因组,gbk文件有多个染色体组成,不包含蛋白序列文件,这样的gbk文件无法使用脚本提取蛋白质序列; 程序依赖于biopython模块,需要提前安装好; 实战演习 # 只提取蛋白质序列和蛋白质ID python Gbk_extea_protein.py -g NC_000913.gbk -a F -o NC_000913_protein.faa # 提取蛋白质序列以及序列的注释信息

    46710编辑于 2025-05-09
  • 来自专栏Y大宽

    1️⃣序列获取(3):蛋白质序列获取

    EXProt :database for EXPerimentally verified Protein functions ps,写到这里,安利一个航母网址https://www.expasy.org/ 3 UniProtKB:不能再详细 Swiss-Prot 数据来源 核酸数据库翻译推导 蛋白质数据库PIR挑选 科学文献摘录 研究人员直接提交的蛋白序列 特点 每一条序列包括核心数据和注释两类,

    68510发布于 2019-01-28
  • 呼吸道合胞病毒(HRSVBRSV)核心抗原深度解析:Fusion蛋白、G蛋白及PreF3蛋白的科研试剂应用

    三、 PreF3蛋白:稳定融合前构象的抗原设计突破PreF3蛋白并非病毒基因组直接编码的天然蛋白,而是基于F蛋白结构生物学研究而精心设计的重组蛋白工程产物,特指稳定在融合前构象(Prefusion conformation 技术特点与优势:PreF3蛋白作为科研试剂,其最大优势在于保持了天然PreF构象的抗原表位完整性。 与自发转变为PostF的野生型F蛋白或早期PreF设计相比,PreF3蛋白具有更高的蛋白稳定性和均一性,能更有效地诱导产生针对关键中和表位的高效抗体。 作为科研试剂的核心价值:PreF3蛋白是目前研究HRSV/BRSV F蛋白相关生物学和免疫学的“金标准”抗原。 虽然F蛋白相对保守,但G蛋白差异显著,而PreF3蛋白的设计也需针对不同亚型进行序列优化。

    23010编辑于 2025-12-15
  • 【辰辉创聚生物】蛋白质组学:裂解化学、机械破碎与分馏策略在蛋白提取中的分子机制解析

    在生命科学研究流程中,蛋白提取常被视为下游分析前的准备步骤,但从蛋白质组学与系统生物学的角度看,它实际上决定了后续数据质量的理论上限。 蛋白提取的本质并非单纯的物理破碎,而是在细胞结构崩解的瞬间,通过化学与热力学手段将蛋白质组的生化状态加以保存。 四、复杂样本的特异性挑战不同生物基质对蛋白提取提出了差异化挑战。植物样本中常见的多酚和多糖会在裂解过程中干扰蛋白稳定性,多酚氧化后易与蛋白形成共价交联,而多糖则显著提高溶液黏度。 体液样本虽然不存在物理屏障,但其蛋白组成高度不均衡,高丰度蛋白可能掩盖关键信号分子。基础提取步骤的首要目标,是确保样本在体外条件下保持稳定,避免凝血或补体系统的非特异性激活。 五、总结总体而言,蛋白提取是一项融合机械工程、胶体化学与酶学调控的系统技术。其目标是在破坏细胞结构的同时,最大限度保留蛋白质组的真实状态。

    10310编辑于 2026-03-09
  • 来自专栏R语言可视化

    蛋白间的分子对接3—使用AlphaFold进行

    蛋白间的分子对接3—使用AlphaFold进行据说AlphaFold进行分子对接比传统的蛋白分子工具如zdock、hdock的对接效果更好。 输出PDB格式文件3.pymol中进行可视化操作安装ppi.py脚本文件,Choose file选择ppi.py这个脚本,安装脚本ppi.py这段 Python 脚本是专门在 PyMOL 中执行的,用来分析和可视化蛋白质 -蛋白质相互作用(PPI),重点包括:π-π stacking(芳香环之间的堆叠)Salt bridge(盐桥)Hydrogen bonds(氢键)同时,脚本还设置了可视化参数,便于展示结果。 y1,y2,y3): import numpy as np #print(x1,x2,x3,y1,y2,y3) B1, B2, B3 = [x1[0] - x2[0], x1[1] - [1] - y3[1], y1[2] - y3[2]] n2 = [D2 * E3 - E2 * D3, D3 * E1 - E3 * D1, D1 * E2 - E1 * D2] dot_product

    3.4K11编辑于 2025-04-08
  • 来自专栏从零开始学自动化测试

    httprunner 3.x学习3 - jmespath 提取返回结果(extract, validate)

    前言 httprunner 3.x支持 jmespath 提取提取返回的结果内容,可以在 extract 提取变量的时候使用,也可以在 validate 校验结果的时候使用。 提取 JSON 响应正文并使用预期值进行验证。 3.提取data数据,校验结果长度是: 2 4.提取data数据中第一条数据,校验name的值: yoyo 5.提取data数据中name的值为yoyo的邮箱,并校验结果是: 283340479@qq.com 6.提取data数据组中,年龄大于20的结果,并校验结果的数量是: 1 httprunner3.x 对应的 py 代码 # NOTE: Generated By HttpRunner v3.1.4 # 该切片结果包含元素0、1、2、3和4。不包括索引5的元素。如果要选择数组的后半部分,可以使用以下表达式: ? 上面的两个示例可以简化。如果开始或步骤被省略值它被假定为开始或数组的末尾。例如: ?

    2.4K20发布于 2021-06-24
  • ESM3蛋白质语言模型cookbook(1)

    一.背景介绍 对于蛋白质序列的研究和结构的研究现在变得越来越热门,所谓工欲善其事,必先利其器,所以今天我们就来介绍一下ESM3, 使用ESM3可以对蛋白质进行特征提取,无论是之后再接入各种各样的神经网络 例如,下面介绍到的蛋白质坐标的提取可以直接用于结构的预测或者结构的生成(RFDiffusion的范式)。 5 亿年进化并实测设计出全新的绿色荧光蛋白,帮助科学家按需创造酶、抗体及碳捕获蛋白等功能分子,标志着蛋白质语言模型从“预测”迈向“可控生成”时代。 ESM-3更是一个多模态的蛋白质语言模型,结合了蛋白质的结构和功能等特征。 protein.sasa = protein_chain.sasa() plt.plot(protein.sasa) 我们还可以将这些SASA值映射到结构的3D可视化上,利用我们拥有这种蛋白质的3D坐标这一事实

    2100编辑于 2026-04-17
  • ESM3蛋白质语言模型cookbook(2)

    上一张我们讲解了最基础的ESMProtein类: ESM3蛋白质语言模型cookbook(1) 今天我们继续介绍第二章的内容: 使用ESM-C模型获取蛋白质的特征表达(embedding),进行一个简单蛋白质序列分类的任务 ESM-C(寒武纪)是他们的旗舰ESM3生成模型的平行模型家族。 ESM3专注于可控的蛋白质生成,而ESM C专注于创建蛋白质潜在生物学的表示。 ESM官网对ESM-C模型的介绍 所以大家可以理解成ESM-C模型就是一个特征提取模型。 接下来是对第二个问题的解答,什么是embedding? 所以我们这次将会通过ESM-C蛋白质语言模型去提取蛋白质序列的embedding表示也就是用特征向量来表示蛋白质序列。 上图是使用第七层的embedding进行分类的效果,可以看到当汤姆使用第七层进行蛋白质序列的特征向量的提取之后,然后对向量进行降维,直接映射在2D pca的散点图就可以明显区分出来lid_type为zinc

    2200编辑于 2026-04-17
  • 来自专栏生信技能树

    蛋白质组学第3期-蛋白质组学的三大元素

    上周我们公布了,蛋白质组学习小组起飞啦! 短短几天就获得了250多小伙伴的支持,让我们也更有信心的带领大家掌握一个蛋白质组学数据处理的实战,前面两期我们分享的是: 蛋白质组学第1期-认识基础概念 蛋白质组学第2期-认识蛋白质组学原始数据 ?

    2.9K44发布于 2019-07-26
  • 来自专栏点云PCL

    PCL点云特征描述与提取3

    2.PFH特征模型是对查询点周围的一个精确的邻域半径内,而FPFH还包括半径r范围以外的额外点对(不过在2r内); 3.因为重新权重计算的方式,所以FPFH结合SPFH值,重新捕获邻近重要点对的几何信息 计算每一对:math:`p, p_k`的三个角度参数值(其中:math:`p_k`是:math:`p`的邻元素) 3.把所有结果统计输出到一个SPFH直方图 第二步: 1.得到:math:`p`的最近邻元素

    2.2K30发布于 2019-07-31
  • 来自专栏机器学习原理

    示例三(3)——人物画像特征提取

    前言:一个人的信用评级一般用人物画像来评判,如何从很多的人物特征中提取有用的特征呢? 下面以一个金融反欺诈模型为例子来对特征提取有一个简单的理解。 /data/LoanStats3a.csv', skiprows = 1, low_memory = True)#skiprows跳过第一行,low_memory低内存加载,报错就该成False ''' out_prncp_inv has 1 col collections_12_mths_ex_med has 2 col policy_code has 1 col acc_now_delinq has 3 chargeoff_within_12_mths has 2 col delinq_amnt has 4 col pub_rec_bankruptcies has 4 col tax_liens has 3 term has 2 col grade has 7 col emp_length has 11 col home_ownership has 5 col verification_status has 3

    1.6K30发布于 2018-06-13
  • 来自专栏Python小课堂

    Python 超简单3行代码提取音乐高潮部分

    那么这个音乐高潮的提取能不能自动化呢?当然可以。 先来看看,怎么样来提取孤芳自赏提取高潮后的部分: 怎么样,是不是迫不及待想往下读了?不要急,让我们从原理开始慢慢讲起。 3.寻找重复次数较大、且间隔长的片段。 3.效果检验 以《孤芳自赏》 为例,让我们试试这个提取器的功力。 ("孤芳自赏.mp3", "孤芳自赏_high.wav", 40) 非常优秀! 4.批量提取 刚刚,只是完成了单首歌曲的高潮提取,如果你想提取整个文件夹下的音乐的高潮部分,可以这样做: 文字版代码: # Python 实用宝典 # 提取音乐高潮部分 # 2020/06/11 import

    1.3K10编辑于 2022-01-04
  • 【辰辉创聚生物】重组蛋白表达纯化|蛋白表达定制|蛋白修饰|原核表达蛋白

    原核蛋白表达宿主菌株与表达载体的选择1. 宿主菌株的选择BL21 系列菌株:最常用的表达宿主,如 BL21(DE3),因缺乏 Lon 与 OmpT 蛋白酶,可减少重组蛋白降解,配合 T7 表达系统可实现高水平表达。 C41、C43 等突变株:对有毒或难表达蛋白更为耐受,常用于膜蛋白或代谢负担较大的蛋白。2. 3. 小规模表达测试与优化在大规模表达前,需进行小规模试表达检测表达溶解性、条件优化(诱导温度、宿主菌株、表达载体等)。 目标蛋白及修饰/标签设计:根据实验需求确定是否添加His-tag、GST等融合标签,是否加入酶切位点;2. 基因合成与密码子优化:针对E. coli 系统进行优化,提升表达效率;3.

    64510编辑于 2025-08-25
  • 来自专栏数据技巧

    如何在Power Query中提取数据——列表篇(3)

    (五)替代指定数据提取。 1. 找到目标值并用指定值替换后提取 List.ReplaceValue(list as list, oldValue as any, newValue as any,replacer as function List.ReplaceMatchingItems({1..5},{{1,0}},each_<3)={0,0,3,4,5} 解释:使用第2参数的旧值和第3参数做比较,如果符合则替换条件为第3参数,如果不符合 因为第2参数的旧值符合第3参数的条件,则替换条件就是第3参数<3,所以1,2被0替换。 3,用0替换<=3的条件的值。

    1.6K20发布于 2020-03-23
  • 来自专栏魏杰的技术专栏

    用Python3提取网页中的超链接

    最近有朋友给我指出,我此前写的博文《用Python提取网页中的超链接》(原文地址:http://www.sunbloger.com/article/442.html)中,给出的代码在Python3下运行报错 下面给出在Python3的代码写法: import urllib.request import re url = 'http://www.sunbloger.com/' req = urllib.request.urlopen

    1.5K10编辑于 2022-12-23
  • 来自专栏从零开始学自动化测试

    httprunner学习3-extract提取token值参数关联

    xx:xxxx格式,中间用冒号:,如:User-Agent:demo-agent/1.0 'Cookie:a=b;b=c',由于Authorization参数中间有空格,用双引号包起来 extract提取 token 提取登录接口返回的token值,使用extract提取器 extract: - token: content.token 下个接口的用例引用token参数使用$token,完整的用例 python-requests/2.18.4 json: username: test password: 123456 extract: - token: content.token # 提取

    2.1K40发布于 2019-09-24
  • 来自专栏DrugIntel

    AFsample3:AlphaFold3驱动的蛋白多重构象状态生成与选择

    多参数优化的采样系统 为平衡构象质量与计算效率,AFsample3建立了多参数优化的采样体系: 采样规模:针对238个靶标蛋白的测试表明,多数蛋白仅需生成300个模型即可获得高质量交替构象,较AFsample2 构象预测质量显著提升 交替构象优化:28%的靶标蛋白(67/238)的交替构象预测质量实现显著改善(ΔTM>0.1),仅3%(8/238)的目标性能轻微下降,与AF2vanilla、AF3vanilla 跨场景鲁棒性优异 AFsample3在不同构象差异和序列长度的目标蛋白中均表现稳定: 针对构象相似度较高(TM>0.5)的目标蛋白,其交替构象预测准确率提升最为显著; 对于长序列蛋白(序列长度>1000 该协议可直接应用于未知构象蛋白的研究,为孤儿蛋白、新发现蛋白的构象解析提供了可行方案,显著拓展了多构象建模的应用场景。 3. 五、总结 AFsample3作为基于AlphaFold3的增强采样框架,通过创新的MSA随机掩码策略、DiSco无参考筛选协议和多参数优化系统,在多构象蛋白质建模领域实现了技术突破。

    21210编辑于 2026-01-27
领券