首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python3

    pandas文本处理

    = pd.DataFrame(np.random.randn(3, 2), columns=[' A a', ' B b'], index=range(3)) 166 df3.columns = df3 241 2 NaN NaN 242 3 NaN NaN 243 -------- 244 0 1 245 0 a,b c 246 1 1,2 3 247 2 NaN NaN 248 3 NaN NaN 249 ''' 250 251 df4 = pd.DataFrame({'key1': ['a,b,c', '1,2,3', [':,,, ']], 252 1-2-3 260 2 [:,,, ] [:-.- ] 261 -------- 262 0 [a, b, c] 263 1 [1, 2, 3] 264 2 NaN 265 1-2-3 1 2 3 276 2 [:,,, ] [:-.- ] NaN NaN NaN 277 '''

    93220发布于 2020-01-16
  • 来自专栏搜狗测试

    文本处理小记

    【前言】 在平时的测试过程中,经常会遇到各种文本处理的问题,于是把遇到的常用的文本处理命令和方法进行了总结和整理。 工作方式1) 执行begin中语句块;2) 从文件或stdin中读入一行,然后执行statements2,重复这个过程,直到文件全部被读取完毕;3) 执行end语句块;特殊变量:NR NF $0 $1 ,在执行过程中对应当前行的字段数;$0:这个变量包含执行过程中当前行的文本内容;$1:第一个字段的文本内容;$2:第二个字段的文本内容;例:打印每一行的第二和第三个字段awk '{print $2,$3} 处理文本 在测试中,遇到了类似下面的文本处理情形: ? 在多行类似这样的结构文本中,需要把文字提取出来,然后计算所有文本的time总和,于是便想到了用前面的文本处理过程。 以上就是一些文本处理命令的简单介绍,在平时的工作中遇到文本处理的问题,会比较方便快捷的解决。

    1.1K10发布于 2020-03-23
  • 来自专栏用户7552167的专栏

    Linux文本处理

    查看 文本最后 3 行的数据内容。 image.png

    2.7K20发布于 2021-03-16
  • 来自专栏sktj

    bootstrap 文本处理

    <meta name="viewport" content="width=device-width, initial-scale=1" charset="utf-8">

    1.6K30编辑于 2022-01-10
  • 来自专栏若尘的技术专栏

    wk文本处理

    11 28 chr1 40 49 chr3 16 27 chr1 9 28 chr2 35 54 chr1 10 19 print $0操作可以省略$0 接着,我们可以使用awk模仿cut的操作(结果与cut -f2,3 example.bed一致): $ awk '{print $2 "\t" $3}' example.bed pattern支持逻辑操作(见表1): 表1 例如我们过滤得到1号染色体特征长度大于10的行: $ awk '$1~/chr1/ $3 - $2 > 10' example.bed chr1 26 : $ awk '$1 ~ /chr[23]/ {print $0 "\t" ($3 - $2)}' example.bed chr3 11 28 17 chr3 16 $ awk 'BEGIN {s = 0}; {s+=($3 - $2)} END {print "mean: " s/NR}' example.bed mean: 14 NR为内置变量,代表行数。

    1.5K45编辑于 2021-12-05
  • 来自专栏歪歪梯Club

    Linux文本处理

    sed适合用于对大文件进行正则替换输出 其处理是实时显示(从文件读取一行匹配一行,结果输出) 不会修改原文件(添加g标记为全部替换,不添加为每行替换首个匹配项)

    1.8K20发布于 2021-03-15
  • 来自专栏TalkPython

    Python 文本处理介绍

    文本处理,在Python中有很多方法,最常见的有正则表达式,标准库的字符串处理方法。当然除了常用的方法外,还可以使用NLTK自然语言工具包处理字符串、使用机器学习机器技术等。 all': 0, 'how': 7, 'are': 2,'you': 10, 'and': 1, #'nice': 8} # (0, 6) 1 # (0, 9) 1 # (1, 3) 1 # (1, 4) 1 # (1, 5) 1 # (2, 0) 1 # (2, 6) 1 # (3, 2) 1 # (3, 7) 1 # (3, 10) 1 # (4, 1) 1 # (4, 3) 1 # (4, 5) 1 # (4, 6) 1 # (4, 8) 1 从结果中我们可以看到 ,在列表的第一个元素中有单词6、9并且数量都是一个,在列表第二个元素中有单词3、4、5并且数量都是一个等等。

    1.3K30发布于 2019-05-24
  • Linux 文本处理命令

    最近在使用 BASH 进行处理 文本文件的时候,对于文本处理真的是力不从心,今天进行搜集一下linux 中文本处理相关的命令,这样你在进行书写shell 脚本的时候,就能写出更好的方案。

    1.1K00发布于 2020-12-30
  • 来自专栏嵌入式视觉

    Linux 基础-文本处理

    封面来源 SegmentFault 技术周刊 Vol.19 – Linux 文本处理三利器 概述 Linux 下使用 Shell 处理文本时最常用的工具有: find、grep、xargs、sort、uniq -maxdepth 1 -type d # 查找当前目录下的所有子目录 3,基于目录深度搜索 $ find . maxdepth 3 -type f # 目录向下最大深度限制 3 4,根据文件时间戳进行搜索

    84310编辑于 2022-09-05
  • 来自专栏生信技能树-R

    Linux -文本处理 grep

    less -SN Data/example.gtf | grep 'gene'$ less -SN Data/example.gtf | grep -w 'gene' #按照单词gene抓取区别看 pic3$ -w -c 'gene' 20Mar402 10:17:00 ~2.$ cat Data/example.gtf | grep -w 'exon' -v -c 126Mar402 10:17:51 ~3. -r Data/ -n附加题图片Mar402 10:42:50 ~$ less -SN Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3 | grep -v '#' | cut -f 3 | sort | uniq -c 290 biological_region 1568 CDS 1 chromosome 4285 exon lnc_RNA 149 mRNA 7 ncRNA 92 ncRNA_gene 382 pseudogene 382 pseudogenic_transcript 3

    1.3K20编辑于 2023-03-29
  • 来自专栏Linux学习日志

    Shell 文本处理命令

    对文件内容进行去重 如果文件内容有很多重复的,需要进行去重。sort也是支持的,可以通过-u参数使用

    1K10发布于 2020-08-26
  • 来自专栏xiaosen

    文本处理基本方法

    jieba库考虑到了性能问题,支持并行分词,提高大规模文本处理的效率。这使得它成为当前Python语言中优秀的中文分词组件之一。 jieba text = "我爱自然语言处理" seg_list = jieba.cut(text, cut_all=True) print("全模式分词结果:", "/".join(seg_list)) 3搜索引擎模式

    50610编辑于 2024-03-24
  • 来自专栏coding

    Linux文本处理命令

    -d DELIMITER: 指明切割的分隔符 -f FILEDS: 指明字段 #: 第#个字段 #,#[,#]:离散的多个字段,例如1,3,6 #-#:连续的多个字段, 例如1-6 混合使用:1-3,7 切割文件,取第1和第7个字段 [root@senlong tmp]# cut -d: -f1-3,7 --output-delimiter=' ' /etc/passwd # 用:切割文件,取第1至第3, -n /etc/passwd # 以:为字段分隔符, 取第3个字段并按数值大小排序 [root@senlong tmp]# sort -t: -k3 -n /etc/passwd | cut -d: - f3 # 排序后再进行切割显示 uniq uniq [OPTION]... ;最后仅显示的各自的第1个字段 [root@senlong tmp]# cut -d: -f6-10 /etc/passwd | sort -t: -k3 -n| cut -d: -f1

    1.8K20发布于 2018-06-27
  • 来自专栏数据云团

    Python进阶-文本处理

    CSV 通常用于在电子表格软件和纯文本之间交互数据;CSV 文件内容仅仅是一些用逗号分隔的原始字符串值。

    1K10发布于 2019-07-18
  • 来自专栏生信技能树-R

    Linux -文本处理 sed

    /ee/EE/' #替换第1,4,7行(1,3是从第一行开始隔3行进行替换) Welcome to BiotrainEE() ! SRR1039511_1.fastq.gz;SRR1039511_2.fastq.gz a35f30576f25ea548c7b3a28895a81cf;83bbe3c587d9477938826ea19c53a281 5640a85f2c181d4886e905e74a32f041 SRR1039515.fastq.gz;SRR1039515_1.fastq.gz;SRR1039515_2.fastq.gz 8f97b3dc8170ecd6fffb39101c3e5bf5 _1.fastq.gz;SRR1039516_2.fastq.gz 1f2796f07033ec3bfab0981bd0674bb9;008ba2b3b589d553e3e9f8890d5481c2 62838f21e66ec78030b51ee6019420ef SRR1039520.fastq.gz;SRR1039520_1.fastq.gz;SRR1039520_2.fastq.gz 637e08d030778c6581731647f3c3d8cc

    1.5K20编辑于 2023-03-29
  • 来自专栏Python数据科学

    pandas 文本处理大全

    本次来介绍关于文本处理的几个常用方法。 文本的主要两个类型是string和object。如果不特殊指定类型为string,文本类型一般为object。 jordon@sohu.com 1 MIKE 30 Low Mike@126.cn 2 Kelvin 45 M KelvinChai@gmail.com 3 ------------ 0 1 0 jordon sohu.com 1 Mike 126.cn 2 KelvinChai gmail.com 3 xiaoli 163 com 4 NaN NaN NaN 5 amei qq com 3、文本替换 文本替换有几种方法:replace, @','xxx@') ------------------ 0 xxx@sohu.com 1 xxx@126.cn 2 xxx@gmail.com 3 xxx@163

    64120编辑于 2023-08-29
  • 来自专栏sktj

    python核心编程(文本处理)

    usr/bin/python -- coding: UTF-8 -- str = "-"; seq = ("a", "b", "c"); # 字符串序列 print str.join( seq ); 3、 zip用法 a = [1,2,3] #此处可迭代对象为列表 b = [4,5,6] c = [4,5,6,7,8] zipped = zip(a,b) zipped <zip object at 0x02B01B48> #返回的是一个对象 list(zipped) [(1, 4), (2, 5), (3, 6)] #使用list()函数转换为列表 list(zip(a,c)) [ (1, 4), (2, 5), (3, 6)] zipped = zip(a,b) list(zip(*zipped)) #解压也使用list进行转换 [(1, 2, 3), (4, 5, 6)]

    1.3K30编辑于 2022-05-14
  • 来自专栏用代码征服天下

    Linux文本处理详细教程

    文本处理 本节将介绍Linux下使用Shell处理文本时最常用的工具: find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk; 提供的例子和参数都是常用的; 比如grep,比如find; - 将多行输出转化为单行输出 cat file.txt| xargs n 是多行文本间的定界符 将单行转化为多行输出 cat single.txt | xargs -n 3 "v3"; \ print var1, var2 , var3; }' $>v1 V2 v3 使用-拼接符的方式(”“作为拼接符); echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \ print var1"-"var2"-"var3; }' $>v1-V2-v3 特殊变量: NR NF $0 $1 $2 NR:表示记录数量,在执行过程中对应当前行号 n line2 \n line 3" | awk '{print NR":"$0"-"$1"-"$2}' 打印每一行的第二和第三个字段 awk '{print $2, $3}' file 统计文件的行数

    5K20发布于 2020-08-10
  • 来自专栏python3

    assign之python文本处理

    remain_data[i][1]) + ' ' + str(remain_data[i][2]) total_mark = float(remain_data[i][-3]

    72320发布于 2020-01-06
  • 来自专栏用户1337634的专栏

    jq命令 - json文本处理

    jq可以对json数据进行分片、过滤、映射和转换 安装 #CentOS yum install jq #MacOS brew install jq 提取信息 cat json.txt [{"genre":"deep house"}, {"genre": "progressive house"}, {"genre": "dubstep"}] 格式化展示原文 cat json.txt | jq '.' [ { "genre": "deep house" }, { "genr

    93620发布于 2021-11-24
领券