首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏黯羽轻扬

    文本_bash笔记4

    grep 用于文本搜索,匹配文件内容,语法格式为:grep pattern filename,例如: # 找出所有含有for的行 grep 'for' test.sh # 对多个文件进行搜索 grep "想做个好人" | cut -b 2-4 # -n选项不分割多字节字符,得到`想` echo "想做个好人" | cut -n -b 2-4 sed stream editor,非交互式的编辑器,常用的文本处理工具 ,最常用的功能是文本替换: # 删除行开头的空白字符 echo $' \t 我想左对齐' | sed $'s/^[[:space:]]*\t*//g' 另一个常用功能是文件原地替换(替换并把结果写入原文件 '{print 1"-"2"-"3}' 内置变量 awk里有一些特殊的内置变量: NR:number of records,当前行号 NF:number of fields,当前行字段数 $0:当前行文本内容 $123…:当前行第n个字段的文本内容 所以有更简单的统计行数的方式: echo $'1 2\n3 4' | awk 'END{print NR}' 每读一行更新NR,执行到END块时就是总行数 注意

    1.1K30发布于 2019-06-12
  • 来自专栏CaiRui

    Shell-4-让文本

    txt 使用正则表达式必须使用egrep (2)要打印除某行之外所有行 [root@cai tmp]# grep -v 3 1.txt this is a test2 11 44 55 55 (3)统计文本文本中包含匹配字符串的行数 [root@cai tmp]# grep -c 3 1.txt 1 (4)打印包含匹配字符串的行数 [root@cai tmp]# grep 3 -n 1.txt 4:33 (5)搜索多个文件并找出匹配文本位于哪个文件中 6 7 8 要打印匹配某个结果之前的3行,可以使用-B选项 [root@cai tmp]# seq 10|grep 5 -B 3 2 3 4 5 要打印匹配某个结果之前以及之后的3行,使用-C选项 [ root@cai tmp]# seq 10|grep 5 -C 3 2 3 4 5 6 7 8 3.用cut按列切分文本 cut -f 2,3 filename 4.sed (1)sed可以替换给定文本中的字符串 (1)[root@cai tmp]# seq 100|awk 'NR==4,NR==8' (2)4awk ‘NR==M,NR==N’ filename 5 6 7 8

    98790发布于 2018-01-17
  • 来自专栏初见Linux

    4.文本样式-CSS基础

    一、文本样式 字体样式:注重个体,针对的是文字本身效果。 文本样式:注重整体,针对的是整个段落的排版效果。 在CSS中,使用font和text两个前缀来区分这两类样式。 行高 letter-spacing、word-spacing 字母间距、词间距 二、text-indent(首行缩进) p元素首行不会缩进,因此在HTML中需要使用4个 来实现首行缩进2个字符的空格 四、text-decoration(文本修饰) 在CSS中,可以使用text-decoration属性来定义文本的修饰效果(下划线、中划线、顶划线)。 /*行高*/ } </style> </head> <body>

    蝶恋花·庭院深深深几许

    <h4> 宋·欧阳修</h4>

    庭院深深深几许,杨柳堆烟,帘幕无重数。

    1.6K20发布于 2020-10-28
  • 来自专栏全栈程序员必看

    R语言做文本挖掘 Part4文本分类

    Part4文本分类 Part3文本聚类提到过。与聚类分类的简单差异。 那么,我们需要理清训练集的分类,有明白分类的文本;測试集,能够就用训练集来替代。预測集,就是未分类的文本。 数据准备 训练集准备是一个非常繁琐的功能,临时没发现什么省力的办法,依据文本内容去手动整理。这里还是使用的某品牌的官微数据,依据微博内容。 做聚类时要先将文本转换为矩阵,做分类相同须要这个过程。用到tm软件包。 Maximal term length: 47 Weighting : term frequency (tf) > dtmAll_matrix <-as.matrix(hlzjAll.dtm) 4. 都出现了电脑内存不够的问题,我的电脑是4G的,看内存监控时能看到最高使用达到3.92G。 看样子要换台给力点的电脑了╮(╯▽╰)╭ 在硬件条件能达到时,应该实现分类没有问题。相关的算法能够用:??

    59620编辑于 2022-07-06
  • 来自专栏DATABASE

    4.文本文件编辑命令

    =RHEL8 2 # X Window System configuration information 3 xconfig --startxonboot 4 # License ens160 --onboot=off --ipv6=auto --no-activate network --bootproto=dhcp --hostname=localhost.localdomain 4. LOCALHOST.LOCALDOMAIN # ROOT PASSWORD ROOTPW --ISCRYPTED $6$TTBUW5DKOPYQQ.VI$RMK9FCGHOJOQ2QAPRURTQM.QOK2NN3YFN/I4F nologin /etc/passwd bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4: adm:/var/adm:/sbin/nologin lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin mail:x:8:12:mail:/var/spool/mail:

    1.3K20编辑于 2022-05-07
  • 来自专栏机器学习AI算法工程

    【LDA数学八卦-4文本建模

    4. 文本建模 我们日常生活中总是产生大量的文本,如果每一个文本存储为一篇文档,那每篇文档从人的观察来说就是有序的词的序列 d=(w1,w2,⋯,wn)。 包含M 篇文档的语料库 统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。 统计学被人们描述为猜测上帝的游戏,人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的,我们观察到的只是上帝玩这个游戏的结果 —— 词序列构成的语料,而上帝玩这个游戏的过程对我们是个黑盒子 上帝掷骰子 4.1 Unigram Model 假设我们的词典中一共有 V 个词 v1,v2,⋯vV,那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。 进一步,我们可以计算出文本语料的产生概率为 p(W|α→)=∫p(W|p→)p(p→|α→)dp→=∫∏k=1V**kkDir(p→|α→)dp→=∫∏k=1V**kk1Δ(α→)∏k=1Vpαk

    1.1K30发布于 2018-03-12
  • 来自专栏数说工作室

    海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)

    对于两段文本,我们分别映射成64位hash指纹之后,再每个文本分为四份,每个部分16位。对于这两段文本,如果海明距离在3以内,则它们对应的4个部分,至少有一个部分是一样的。 所以,一段文本的Simhash指纹,我们需要复制成四次存储,以text1为例,simhash 成64位之后,我们分成四个部分,A1-A2-A3-A4。 我们把这段存储四份,以使得每一部分都做一次K,剩下其他三个为V: ① K: A1, V: A2-A3-A4 ② K: A2, V: A1-A3-A4 ③ K: A3, V: A1-A2-A4 ④ K: A4, V: A1-A2-A3 这样就可以保证不会有遗漏。 16384*4=65536,约66W。

    11.2K136发布于 2018-08-17
  • 来自专栏张善友的专栏

    文本模板转换工具箱T4

    Visual Studio 2008包含了一个文本模板转换工具箱,又称为T4,是领域特定语言工具的一部分,并可用于基于文本模板的方式来生成代码。 一个文本模板是一个包含文本块和控制逻辑混合物的文件。 当你转换一个文本模板,控制逻辑结合了文本块与模型里的数据来生成一个输出文件。你可以用文本模板来生成文本的输出,例如代码文件和HTML报表。 参看InfoQ 的ASP.NET MVC中使用T4来生成代码,Scott建议使用T4来完成各种重复性的文本生成任务,即便它们与.NET无关:“如果您在公司里要把同一件事手动重复多遍,那么就让它自动生成吧 现在T4 将来到MonoDevelop上,MonoDevelop也是通过T4来支持ASP.NET MVC, 也就是Mono版的T4,参看Mono's Text Template Transformation Toolkit (T4)。

    82590发布于 2018-01-31
  • 来自专栏禹都一只猫博客

    Pandas文本数据处理 | 轻松玩转Pandas(4

    # 导入相关库 import numpy as np import pandas as pd 为什么要用str属性 文本数据也就是我们常说的字符串,Pandas 为 Series 提供了 str 属性, # 将文本转为小写 user_info.city.str.lower() ---------------------------- name Tom bei jing Bob shang

    2.1K20发布于 2018-09-19
  • 来自专栏kifroom

    Vue富文本编辑器-Ckeditor4

    Ckeditor4的下载 link: https://ckeditor.com/ckeditor-4/download/ 下载好后解压, 打开index, 打开后就是配置界面 to default configuration here. // For complete reference see: // https://ckeditor.com/docs/ckeditor4/ $removeEmpty.span = 0; config.language 设置语言;当前我的配置文件加了行高, 扩展 行高 具体参考 : ckeditor富文本编辑器使用行间距插件lineheight baseUrl = imgList.getItem(i).$.dataset.ckeSavedSrc; //获取img的src if (baseUrl.substring(0, 4)

    1.8K20编辑于 2023-02-27
  • 来自专栏菩提树下的杨过

    langchain4j 学习系列(7)-文本分类

    继续我们的langchain4j学习之旅,很多“智能客服”之类的AI应用,“问题分类”是非常重要的功能之一。 langchain4j 提供了2种分类方法: 一、基于LLM的语义理解 1.1 定义分类枚举 enum CustomerServiceCategory { PRODUCT("产品相关 "}"); } } 效果: 观察日志的话,能看到与LLM的交互: 2025-12-09T21:00:57.280+08:00 INFO 5948 --- [langchain4j-study 或者先用方法1,先做一轮分类,将结果人工复检后,用于完善方法2中的分类列表) 文中示例代码:GitHub - yjmyzz/langchain4j-study at day07

    20210编辑于 2025-12-24
  • 来自专栏机器学习AI算法工程

    风险事件文本分类(达观杯Rank4)

    而风险事件以文本的形式存在,需要采用自然语言理解模型实现风险事件的高精度智能识别,其本质是属于一个文本分类任务。    而文本分类在自然语言处理领域处于非常基础且核心的地位,目前文本分类已经广泛运用于金融、政务、银行、证券、运营商等各个行业中的多个场景中,如金融领域和政务领域的风险事件标签。    前海征信大数据算法:风险概率预测 【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类 VGG16迁移学习,实现医学图像识别分类工程项目 特征工程(一) 特征工程(二) :文本数据的展开 全球AI挑战-场景分类的比赛源码(多模型融合) 斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏) python+flask搭建CNN在线识别手写中文网站 中科院Kaggle全球文本匹配竞赛华人第

    1K20编辑于 2022-03-30
  • 来自专栏全栈程序员必看

    quick-cocos2d-x游戏开发【4】——加入文本

    文本的加入在quick中被封装在ui类中,它能够创建EditBox。菜单以及文本文本总得来说能够创建TTF和BMFont两种。 api对于它的说明非常具体。 ui.newBMFontLabel(params),參数中 text: 要显示的文本 font: 字体文件名称 align: 文字的水平对齐方式(可选) x, y: 坐标(可选) 所以我们创建一个文本能够使用这种代码 text: 要显示的文本 font: 字体名,假设是非系统自带的 TTF 字体,那么指定为字体文件名称 size: 文字尺寸,由于是 TTF 字体。

    60720编辑于 2022-07-07
  • 来自专栏陈黎栋的专栏啦

    4GB文本文件处理一例

    问题模型: 4GB文本文件in.triple每行包含两个顶点,一个边 : node1String, edgeString,node2String。 resource/Q20> 2,<http://dbpedia.org/ontology/description> 3,<http://wikidata.dbpedia.org/resource/Q17> 4, 3,2,"isla 3,2,"מדינה"@he 3,2,"கிழக்காசிய 3,2,"valsts 3,2,"østasiatisk 3,2,"کشوری 3,2,"quốc 3,2,"জাপান 4,2 ,"kontinent"@nb 4,2,"maanosa"@fi 初始算法 随机按行读in.triple,对每个nodeString去hash表查,获取或生成ID后把相关数据顺序追加写入 (资源利用率低) 耗时估算 原始数据4个G,估算输出数据5个G,前10个小时输出了约300M数据, 按48小时处理1.5G数据算,约3天可以处理完。

    58020发布于 2020-02-18
  • 来自专栏Nicky's blog

    Qt4系列之开发文本编辑器

    QTextCodec::codecForLocale());     setWindowIcon(QIcon(":/images/textEditor.png"));     setWindowTitle(tr("Qt文本编辑器     } } //帮助 void MainWindow::About(){     QMessageBox::about(this,tr("关于"),tr("这是一个文本编辑器

    96840编辑于 2022-05-07
  • 来自专栏iSharkFly

    Dom4j 如何输出 Document 中的内容到文本

    假设我们先定义一个 Dom4j 中的 Document 对象。 https://www.ossez.com/t/dom4j-document/13757

    2.2K30发布于 2021-09-30
  • 来自专栏数据派THU

    带你用4行代码训练RNN生成文本(附资源)

    本文介绍仅需几行代码就能训练出任意大小和复杂度的文本的神经网络文本发生器。 如何在无需构建和调整神经网络的情况下,轻松地生成文本? 让我们来看看下面这个项目,它允许您用几行代码就能在任意文本数据集上轻松地训练出任意大小和复杂度的文本,这便是神奇的神经网络文本发生器。 在这种情况下,让我们看一下 textgenrnn,它是一个允许你“用几行代码在任何文本数据集上轻松地训练出任意大小和复杂度文本的神经网络”的项目。 我选择那个日期范围内的文本,因为我不关心任何元数据,并将其保存到一个名为trump-tweets.txt的文本文件中。 训练模型 让我们看看用textgenrnn生成文本是多么简单。 以下4行代码是我们导入库、创建文本生成对象、在trump-tweets.txtfile上对模型进行10次训练所需的全部内容,然后生成一些样例推文。 ? 大约30分钟后,这是生成的文本: ?

    50720发布于 2018-07-30
  • 来自专栏ccf19881030的博客

    C#中使用OpenCvSharp4绘制直线、矩形、圆、文本

    C#中使用OpenCvSharp4绘制直线、矩形、圆、文本 继之前的Python中使用Opencv-python库绘制直线、矩形、圆、文本和VC++中使用OpenCV绘制直线、矩形、圆和文字,将之前的Python 一、OpenCvSharp4库 OpenCvSharp4库是一个基于.Net封装的OpenCV库,Github源代码地址为:https://github.com/shimat/opencvsharp,里面有关于 Windows下安装OpenCvSharp4库的描述,如下图所示: 二、C#中使用OpenCvSharp4绘制直线、矩形、圆、文本 1、使用VS2022创建一个C# .Net控制台程序,项目命名为OpenCVExample 2、安装OpenCvSharp4库 安装OpenCvSharp4和OpenCvSharp4.runtime.win两个NuGet包,或者直接安装OpenCvSharp4.Windows 3、使用OpenCvSharp4 绘制直线、矩形、圆、文本 对应的C#代码如下: using OpenCvSharp; using System; namespace OpenCVExample { public class

    2.7K00编辑于 2024-05-24
  • 来自专栏阿炬.NET

    asp.net mvc4 使用KindEditor文本编辑器

      最近做项目要用文本编辑器,编辑器好多种,这里介绍KindEditor在asp.net mvc4中的使用方法。   

    1.3K70发布于 2018-05-11
  • 来自专栏山行AI

    用GPT-4和ChromaDB与文本文件对话教程

    用GPT-4和ChromaDB向你的文本文件对话:一步一步的教程(LangChain ,ChromaDB,OpenAI嵌入,Web Scraping)。 在使用类似GPT-4或Google的PaLM 2这样的大型语言模型(LLMs)时,您经常会处理大量非结构化文本数据。结构化数据可以存储在SQL数据库中,但对于非结构化数据来说更加困难。 LangChain网站[7] #导入库 from bs4 import BeautifulSoup import requests import re #%% #从网站URL获取文本数据的函数 def 然后提取纯文本内容,清理并创建独特的文件。如果需要,它会创建一个文件夹以存储输出文件。最后,它将清理后的文本内容保存到指定文件夹中具有唯一名称的各个文本文件中。 docs 返回结果是4文本块及其对应的文件路径。

    3.2K50编辑于 2023-08-10
领券