首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏liuchengxu

    Vim 文本对象指南 (2)

    接 Vim 文本对象 (1), 关于插件使用, 可以查看完整配置 space-vim. ---- 编程语言的文本对象 Vim 基于常见编程语言结构提供了几个常见的文本对象. 模式为 操作 + a/i + 符号,这样操作的就是文本对象。不加 a 或者 i 的话就不是一个对文本对象的操作了。对文本对象进行操作时,Vim 不会考虑你的光标位置。 而非文本对象操作时,会从当前光标处开始生效。 举个例子, ci" 指的是 change inner ", 改变 ""所包含的内容,也就是删除 "" 里面的内容并进入插入模式。 y)) 大括号 a} – a brace block i} – inner brace block puts "Name: #{user.name}" ci} puts "Name: #{}" 这些文本对象同样可以通过 at – a tag block it – inner tag block <h2>Sample Title</h2> cit <h2></h2> 因为操作后光标并不在 <h2> 里面, 所以 cit

    43920发布于 2018-08-23
  • 来自专栏数据分析与挖掘

    机器学习-文本分类(2)-新闻文本分类

    而且文本按照字符级别进行了匿名处理,处理后的数据为下: ? 这里就直接拆分训练集为训练集和测试集了。 在数据集中标签的对应的关系如下: {'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏 2、导入相应包 import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer train_set.csv" train_df = pd.read_csv(train_path, sep='\t', nrows=15000) train_df['text'] train_df['label'] 4、进行文本分类 f1.append(f1_score(test_y, val_pred, average='macro')) tfidf = TfidfVectorizer(ngram_range=(2,2

    1.2K30发布于 2020-08-26
  • 来自专栏数说工作室

    海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2

    但是,亿级数据库,用传统的相似度计算方法太慢了,我们需要一个文本查询方法,可以快速的把一段文本的相似文本查出来。 在实际的文本处理工作中,不解决海量查询这一基本问题,耗时等待是非常可怕的。 比如我们时常要对海量相似文本进行去重、或者对海量相似文本的聚类等。 具体场景为:在搜索引擎中查询一段文本,10分钟后才能返回?对微博上某种近一周的文本进行聚类,要等1个月? 你会发现,很多时候,如果不先解决掉大规模相似文本的问题,后面很多高大上的分析、模型都做不了,这也是为什么我文本分析这个系列中,我先介绍“大规模文本处理”,而没有先介绍word2vec、LSTM等方法的原因 2、Simhash 的计算 我们以 “Python is sexy” 为例,展示以下 一段文本的SimHash过程: 先给一个总的流程图: ? 所以,一段文本的Simhash指纹,我们需要复制成四次存储,以text1为例,simhash 成64位之后,我们分成四个部分,A1-A2-A3-A4。

    11.2K136发布于 2018-08-17
  • 来自专栏生物信息学、python、R、linux

    ggplot2文本换行

    在做基因富集时,有些通路特别长,以至于使图片的大小不好控制,这种情况可以用stringr包的str_wrap来完成文本自动换行。 如使用clusterProfiler的barplot时,因为clusterProfiler是基于ggplot2,所以更改ggplot中scale_x_discrete或者scale_y_discrete 1.用到stringr包里的str_wrap函数 library(stringr) library(ggplot2) library(clusterProfiler) x = enrichGO(OrgDb image.png 2.如果不想用到stringr包 get_wraper <- function(width) { function(x) { lapply(strwrap(x sn=fa1f4b6299f94eeb52baf5bda6a5ff6b&chksm=ec43b303db343a150806b3b1ab22a1df1c90405235bb399b155f7c50de2a0a23faf2f4ad0beb

    3.7K30发布于 2020-04-01
  • 来自专栏初见Linux

    2.文本标签-HTML基础

    2.HTML文本 本章主要学习以下六个方面的内容: 标题标签 段落标签 换行标签 文本标签 水平线标签 特殊符号 学完之后,最基本的任务是一定要把这个纯文本网页做出来。 粗体标签1.png (2)实际开发 在实际开发中,若要实现对文本的加粗效果,尽量使用 strong 标签,而不要选择 b 标签。 这是因为 strong 标签比 b 标签更具有语义性。 2.斜体标签-em 可使用 em标签 、i 标签 或 cite标签来实现文本斜体效果。 (1)示例 <! 斜体标签1.png (2)实际开发 在实际开发中,若要实现对文本的斜体效果,尽量使用 em 标签,而不要选择 i、cite 标签。 这是因为 em 标签比 i、cite 标签更具有语义性。 (2)实际开发 学习CSS之后,对于删除线效果,一般用CSS来实现,几乎不会用 s 标签来实现。 6.下划线标签 可使用 u 标签来实现文本的下划线效果。 (1)示例 <!

    4.3K30编辑于 2022-01-11
  • 来自专栏生物信息学、python、R、linux

    ggplot2 annotate文本设置意大利斜体ggplot2 annotate文本设置意大利斜体

    hjust=0.5)) + annotate("text", x = -Inf, y = Inf, label = paste(italic_p, p.val, sep=''), hjust = -.2, vjust = 2) dev.off() 可以实现p为斜体: 注意保存的时候,要使用cairo_pdf()而不是pdf(),否则p有可能显示不出来。 参考: 1). https://www.codenong.com/30673470/ 2). https://www.coder.work/article/6252692

    1.7K30发布于 2021-09-07
  • 来自专栏世民谈云计算

    AWS机器学习初探(2):文本翻译Translate、文本转语音Polly、语音转文本Transcribe

    它的使用非常简单,只需要提供输入文本,该服务就给出输出文本。 输入文本(Source text):待翻译的文本,必须是 UTF-8 格式。 ('TargetLanguageCode')) ---- 输出: TranslatedText: 您好世界 SourceLanguageCode: en TargetLangaugeCode: zh 2. 文本转语音Polly 2.1 功能介绍 所谓的文本转语音服务,就是把文本朗读出来。它的输入输出为: 输入文本:待被Polly转化为语音的文本。 Strong on Crime, Borders & 2nd Amendment. Loves our Military & our Vets. 长度不能超过2小时。 指定语言。 几个特色功能: 发音者识别(speaker identification):Transcribe 能区别一个语音文件中的多个说话者。支持2到10个发音者。

    2.5K20发布于 2019-06-28
  • 来自专栏AI那点小事

    算法提高 9-2 文本加密

    问题描述   先编写函数EncryptChar,按照下述规则将给定的字符c转化(加密)为新的字符:”A”转化”B”,”B”转化为”C”,… …”Z”转化为”a”,”a”转化为”b”,… …, “z”转化为”A”,其它字符不加密。编写程序,加密给定字符串。 样例输出 与上面的样例输入对应的输出。 例:

    52840发布于 2020-04-20
  • 来自专栏Lan小站

    试题 算法提高 9-2 文本加密

      先编写函数EncryptChar,按照下述规则将给定的字符c转化(加密)为新的字符:"A"转化"B","B"转化为"C",... ..."Z"转化为"a","a"转化为"b",... ..., "z"转化为"A",其它字符不加密。编写程序,加密给定字符串。

    26220编辑于 2022-07-13
  • 来自专栏数据之美

    python2 群发 html 或文本邮件

    str(e) ———————————————————————————————————————————— #coding:utf-8 from writeLog import * import urllib2 strDate     try:         receivers = ['username@ooxx.com']         logData = os.popen("sort -t$'\t' -k2n "--------" + str(e)) Refer: [1] Python 发送邮件可以添加附件 http://www.oschina.net/code/snippet_221343_49994 [2]

    95950发布于 2018-02-24
  • 来自专栏null的专栏

    文本生成seq2seq框架

    文献[1]和文献[2]分别提出利用深度神经网络DNN实现端到端的Seq2Seq学习,将Seq2Seq应用于神经机器翻译(Neural Machine Translation,NMT),唯一不同的是在[1 ]中使用LSTM作为基础网络,而在[2]中则是使用的是RNN。 2. Seq2Seq框架 2.1. 由于在Seq2Seq结构中同时包含了encoder和decoder的结构,通常Seq2Seq又被称为Encoder-Decoder结构,Seq2Seq的结构如下图所示: 在Seq2Seq结构中,Encoder 和Decoder分别是两个独立的神经网络模型,用于对不同的文本建模,通常对序列化文本建模的方法如LSTM[1],RNN[2]等。

    81310编辑于 2022-05-12
  • 来自专栏生信技能树学习笔记

    Linux文本查看、操作、统计2-14

    #打印所有内容 包括特殊字符、制表符等(Tab健以^I显示) cat -n [路径] #显示行号 cat >file #可以写入内容 但是无法修改内容了 eg: cat > file 1 2 向下 shift+n 向上 less -NS [文件路径] # 显示行号,并且一行的内容只在单行显示 按q退出 zless [文件路径] #打开压缩文件 显示得更全 wc [路径1] [路径2] #分别输出多个文件得行数、字符串数、以及字符数 并显示总和 图片 切割文本: cat [路径] | cut -f 1,3-5,7 # 切割文件并显示文件的第一列、第三列、第四轮、第五列及第七列 cat [路径] | cut -d ["分隔符"] -f [显示的列数] #-d 为分隔符 默认为Tab 排序: sort -k 2 #以第二列为排序的根据,进行排序 默认使用字符串的字母进行排序 sort [路径1] [路径2] paste -d "分隔符" [路径1] [路径2] #用分隔符合并两个文件 paste -s [路径1] [路径2] #合并后转置 seq 20 #连续生成20个数字

    1.4K20编辑于 2023-03-02
  • 来自专栏java,hbase

    Vue2使用富文本编译器

    可以先看看我之前的一篇文章,属于基础吧 在页面使用富文本编译器_超*的博客-CSDN博客 至于为什么还是用TinyMCE,不用ElementUI自带的富文本编译器,因为技穷/(ㄒoㄒ)/~~ 同样参考一篇文章 (进行修改、完善): VUE2下版本的项目加入富文本框实现_vue2文本从js文件夹加载_我算哪枝小绿植的博客-CSDN博客  1、下载资源 npm install tinymce -S npm install @tinymce/tinymce-vue@3.0.1 2、 开始 这里说一下,按照原博主的步骤是将node_module文件下的tinymce文件,拷贝一份到静态资源目录中。 /zh_CN.js", //中文语言包路径 language: "zh_CN", //声明富文本的语言类型 height: 430, menubar

    72720编辑于 2023-10-15
  • 来自专栏AI 算法笔记

    RS(2)--从文本数据到用户画像

    2. 堆数据 方法就是堆积历史数据,做统计工作,也是最常见的用户画像数据,比如常见的兴趣标签,从历史行为中去挖掘出这些标签,然后在标签维度上做数据统计,用统计结果作为量化结果。 3. 2. 这些向量的用途有: 计算词语之间的相似度,扩充结构化标签; 累加得到一个文本的稠密向量; 用于聚类 在这方面最著名的算法就是 Word2Vec,它是用浅层神经网络学习每个词语的向量表达,其最大的贡献是在工程技巧上的优化 2. 信息增益 信息增益也是一种有监督的关键词选择方法,需要标注信息。 接下来,假如从一堆文本中挑出包含有词语 W 的文本数,再来猜任意一条文本的类别时,还是会存在上述两种情况,但如果在整个文本上的情况是 1,挑出包含词 W 后的情况是 2,那么这种情况就说明 W 发挥了很大作用

    1.7K10发布于 2020-03-25
  • 来自专栏R语言数据分析指南

    ggplot2自定义各类文本颜色

    ❝本节来介绍一个修改文本颜色的绘图案例,在实际数据分析的过程中某些情况下我们需要为轴文本和图例文本来添加不同的颜色,但是由于在ggplot2中无默认的参数来实现这一功能,在此小编使用另一种巧妙的方法来实现这一需求 / 10000000) # 将Cluster列转换为因子,并指定其水平(顺序) dff$Cluster <- factor(dff$Cluster, levels = rev(c("C1", "C2" legend.key.width = unit(0.5, "cm"), legend.position = c(0.4, 0.1)) # 设置图例位置 ❝可以看到Y轴文本根据不同的 Cluster生成了不同的颜色,同时图例文本颜色也与图例色块保持了一致,强迫症可以得到满足了。

    92610编辑于 2024-02-22
  • 来自专栏0基础入门Linux系统

    linux day2:文本查看、操作、统计命令

    cat: Concatenate 查看文本文件的内容,输出到屏幕 也可以写入内容和追加内容 常见参数: 常见用法 其他: zcat:可以查看压缩的文本文件 tac:逆向查看 tips: 1.> 重定向 2.>> 追加 ,保持前面内容继续往下写 3.ctrl+c 终止 cat readme.txt cat -n readme.txt ## 写入文件 cat >file Welcome to Biotrainee 按空格翻页,按回车换行 按q退出 less 参数 文件名常用参数-N:显示行号 -S:单行显示 zless:查看压缩文件 用“/keyword”进行关键词查询 n/N:上下浏览关键词 上下左右键查看文本内容 : -l 统计行数 -w 统计字符串数 -c 统计字节数 cat -n readme.txt cat readme.txt | wc wc -l readme.txt cut:文本切割 常见参数: file2 seq 20 | paste - - less -S Data/example.fq | paste - - - | less -S paste file1 file2 tr:字符替换

    40210编辑于 2024-03-21
  • 来自专栏开发技能乱炖

    tk基础2-输入框、文本

    首先明确上面由几个元素组成;该界面由界面标题,输入框、两个按钮、文本框组成。 该界面我们需要实现的功能: 在输入框中输入文字,点击insert point按钮,将文字传入下面文本框中; ? 在文本框有文字的前提下,在输入框中输入文字,点击insert point按钮,将文字插入文本框中光标所在的位置; ? 在输入框中输入文字,点击insert end按钮,将文字传入下面文本框中(文本框无文字);在输入框中输入文字,点击insert end按钮,将文字传入原文字后面(文本框有文字) ? command=insert_point) b1.pack() b2 = tk.Button(windows,text="insert end",width=15,height=2,command=insert_end ) b2.pack() #设置文本框 t = tk.Text(windows,height=2) t.pack() windows.mainloop() 注:在插入时,我们可以在insert_end函数下的

    1.6K10发布于 2019-10-28
  • 来自专栏素质云笔记

    R语言︱文本挖掘——词云wordcloud2

    /wordcloud2 老师的中文博客链接:http://lchiffon.github.io/2016/06/01/wordcloud2.html 官方下载方法: install.packages(' lchiffon/wordcloud2@master from URL https://api.github.com/repos/lchiffon/wordcloud2/zipball/master ———————————————————————————————————————————— 二、wordcloud2函数说明 wordcloud2(data, size = 1, minSize = 0 案例三: wordcloud2(demoFreq, size = 2, minRotation = -pi/2, maxRotation = -pi/2) ? 案例四: wordcloud2(demoFreq, size = 2, minRotation = -pi/6, maxRotation = -pi/6, rotateRatio = 1) ?

    3K21发布于 2019-05-28
  • 来自专栏AI科技评论

    资源 | OpenAI 文本生成器 - gpt-2

    Github项目地址: https://github.com/openai/gpt-2 视频:《OpenAI Text Generator - YouTube》by Siraj Raval 地址: https 安装 用Git克隆此项目仓库,然后用 cd 进入目录以获取其余命令 git clone https://github.com/openai/gpt-2.git && cd gpt-2 本机安装 下载模型数据 docker build --tag gpt-2 -f Dockerfile.gpu . # or Dockerfile.cpu 从gpt-2 docker镜像启动交互式bash会话。 docker run --runtime=nvidia -it gpt-2 bash 用法 警告:样品未经过滤,可能含有令人反感的内容。 下面的一些示例可能包括Unicode文本字符。 虽然我们还没有正式发布GPT-2,但你可以在 gpt-2-samples 文件夹中看到它的一些样本。 我们使用默认设置(温度1和无截断)显示无条件样本,温度为0.7,并使用top_k 40进行截断。

    2K30发布于 2019-10-31
  • 来自专栏Excel和Access学习笔记

    VBA实例2-读取txt文本内容到Excel

    分享使用VBA程序读取txt文本文件的代码,txt文件的格式是UTF-8格式。 运行程序,选择需要读取的txt文件,选中后逐行读取填写至表格的A列。(数据处理部分代码可以根据实际需要修改。) 效 果 演 示 VBA 代 码 代码如下: 代码主要分为三部分,第一部分主要是获得指定的txt文本文件的路径和名称。 第二部分代码是读取文本中的内容,保存至变量中。 ADODB.Stream") '指定字符集为UTF-8 objStream.Charset = "utf-8" '使用Open方法打开流对象 objStream.Open '加载文本文件

    8.1K30编辑于 2022-11-11
领券