搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏奇点大数据
话说量化（9）
别以为我在说瞎话，为了应付金融危机很多国家都采用量化宽松的政策，简单说就是印钱的方法来把财富集中在中央手里，然后好去做相关产业产能转化的鼓励工作，我说得够文雅吧。
49430发布于 2018-12-07
来自专栏机器学习之旅
GolVe向量化做文本分类向量化文本分类
向量化在之前，我对向量化的方法一直局限在两个点，第一种是常规方法的one-hot-encoding的方法，常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本： ? 这种方法简单暴力，直接根据文本中的单词进行one-hot-encoding，但是数据量一但大了，这个单句话的one-hot-encoding结果会异常的长，而且没办法得到词与词之间的关系。这种方法（这边以CBOW为例子）都是初始一个固定长度的随机向量作为每个单词的向量，制定一个目标词的向量，以上下文词向量的sum结果作为input进行前向传递，使得传递的结果和目标词向量尽可能一致，以修正初始的随机向量最近，我们突然发现了第三种方法，GolVe向量化。它也是开始的时候随机一个vector作为单词的表示，但是它不利用神经网络去修正，而是利用了一个自己构造的损失函数： ? 文本分类刚才开门见山的聊了蛮久向量化，看起来和文本分类没什么关系，确实在通常意义上来讲，我们的最简单最常用的方法并不是向量化的方法，比如通过朴素贝叶斯，N-Grams这些方法来做分类识别。
2K40发布于 2018-10-08
来自专栏人工智能LeadAI
GolVe向量化做文本分类
向量化在之前，我对向量化的方法一直局限在两个点，第一种是常规方法的one-hot-encoding的方法，常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本： ? 这种方法简单暴力，直接根据文本中的单词进行one-hot-encoding，但是数据量一但大了，这个单句话的one-hot-encoding结果会异常的长，而且没办法得到词与词之间的关系。这种方法（这边以CBOW为例子）都是初始一个固定长度的随机向量作为每个单词的向量，制定一个目标词的向量，以上下文词向量的sum结果作为input进行前向传递，使得传递的结果和目标词向量尽可能一致，以修正初始的随机向量文本分类刚才开门见山的聊了蛮久向量化，看起来和文本分类没什么关系，确实在通常意义上来讲，我们的最简单最常用的方法并不是向量化的方法，比如通过朴素贝叶斯，N-Grams这些方法来做分类识别。 eval script: matlab, octave or [default] python 6 7# 请把make这边注释掉，这个是让你去下个demo，我们直接改成自己的数据 8# make 9#
1.2K30发布于 2018-10-24
来自专栏R语言数据分析指南
如何向图形添加曲形文本
欢迎关注R语言数据分析指南 ❝本节来介绍如何在绘制图形中添加曲形文本，以往都是通过调整文本角度来展示看起来非常别扭但是使用「geomtextpath」包就显得丝滑了很多。手动设置填充颜色的比例尺，值分别为"#E6956F"和"#709AE1FF" annotate(geom='richtext', x = 1.5, y = 0, size = 4, # 添加富文本注释层 Height
4,902 feet"，填充为透明，标签颜色为透明 theme_void() + # 使用空白主题 theme(text = element_text(size = 9, color = "black"), # 设置文本大小为9，颜色为黑色 legend.position = "top", # 图例位置为顶部 legend.title unit(0.05, "cm"), # 图例水平间距为0.05厘米 legend.text = element_text(color = "black", size = 8), # 图例文本颜色为黑色
4.6K20编辑于 2023-08-18
来自专栏量子化学
利用MOKIT从PySCF向其他量化程序传轨道
近期笔者和另一开发者wsr在MOKIT程序中加入了fchk(),py2molpro,py2molcas,py2qchem等模块，可用于从PySCF程序向其他量子化学程序传递分子轨道。（为什么不用Gaussian算完了传轨道给其他程序：因为Gaussian是商业收费程序，有的课题组/机构没买）（3）自己基于PySCF开发新方法，无现有程序对应，但希望正确地传轨道至下一个量化程序进行后续计算 9. 注意Windows预编译版不支持本文功能，内含的是Gaussian与其他量化程序传轨道的小程序。
1.9K20编辑于 2022-12-07
来自专栏量子化学
利用MOKIT从ORCA向其他量化程序传轨道
本文介绍如何使用MOKIT从ORCA向其他量化程序传轨道，有以下可能的用途：（1）在ORCA中进行了RIJK或RIJCOSX加速的大体系HF/DFT计算，想传轨道给其他程序进行后续计算，或想产生fch 为了让AMESP读入轨道，需要运行 a2m h2o.amo 即将h2o.amo文本文件转化为二进制文件h2o.mo，其中a2m是AMESP自带的小程序。 2. 9. ORCA传轨道给PySCF mkl2py h2o.mkl 会产生h2o.fch和h2o.py文件。在运行.py文件时会从.fch文件里读取轨道。 10. 若读者在计算中使用全电子基组，自然无此问题；若用了赝势，按上文操作产生其他量化程序的文件不会含赝势信息，即使轨道系数正确，SCF也会剧烈振荡。这里笔者推荐一种解决办法： Step 1. 以防覆盖 mkl2fch ZnMe2_o.mkl # 将轨道传回ZnMe2_o.fch 后续可以使用fch2inp，fch2inporb，fch2com，bas_fch2py等小程序传给其他量化程序做计算
1.6K20编辑于 2023-09-03
来自专栏成长道路
文本型数据的向量化:TF-IDF
1.对于文本型数据的分类处理（或者其他的处理），根据ik和jcseg等分词器先对它们进行分词处理之后，大家都知道，计算机是处理不了汉字的，对于文本型的词我们如何才能让计算机处理呢？我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述，网上的资源非常多，这里我主要来看看是如何实现的。
2.1K00发布于 2017-12-28
来自专栏数据派THU
文本向量化的六种常见模式
来源：机器学习AI算法工程本文约1000字，建议阅读5分钟本文介绍了文本向量化的6种常见模式。一、文本向量化文本向量化：将文本信息表示成能够表达文本语义的向量，是用数值向量来表示文本的语义。词嵌入(Word Embedding)：一种将文本中的词转换成数字向量的方法，属于文本向量化处理的范畴。向量嵌入操作面临的挑战包括：（1）信息丢失：向量表达需要保留信息结构和节点间的联系。（2）可扩展性：嵌入方法应具有可扩展性，能够处理可变长文本信息。（3）维数优化：高维数会提高精度，但时间和空间复杂性也被放大。首先根据提供的文本构建词典，其中的数字可以视作对应词语的标签信息或者事物的分类信息。先将句子向量化，句子维度和字典维度一致，第 i 维上的数字代表 ID 为 i 的词语在该句子里出现的频率。
8.1K41编辑于 2023-03-29
来自专栏计算机视觉工坊
向文本到图像扩散模型添加条件控制
图像生成的成功结果首先在小规模 [25] 上报道，然后在相对较大的范围内报道 [9]。 Disco Diffusion 是 [9] 的剪辑引导实现，用于处理文本提示。稳定扩散是潜在扩散[44]的大规模实施，以实现文本到图像的生成。在这种情况下，术语“图像”、“像素”和“去噪”都指的是“感知潜在空间”中的相应概念[44] 给定图像 z0，扩散算法逐渐向图像添加噪声并产生噪声图像 zt，其中 t 是添加噪声的次数。 (4) 用户提示：用户给出提示 4.2 定性结果我们在图 4、5、6、7、8、9、10、11、12、13、14、15 中展示了定性结果。该模型使用与 Stability 的 Depth-to-Image 模型完全相同的方法进行训练（向 SD 添加通道并继续训练）图 21 显示了训练过程。
4K41编辑于 2023-02-24
来自专栏AI那点小事
算法提高 9-2 文本加密
问题描述　　先编写函数EncryptChar,按照下述规则将给定的字符c转化（加密）为新的字符：”A”转化”B”，”B”转化为”C”，… …”Z”转化为”a”，”a”转化为”b”,… …, “z”转化为”A”，其它字符不加密。编写程序，加密给定字符串。样例输出与上面的样例输入对应的输出。例：
52940发布于 2020-04-20
来自专栏机器学习算法原理与实践
文本挖掘预处理之向量化与Hash Trick
　　　　在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起，就是我们常说的向量化。词袋模型之向量化　　　　在词袋模型的统计词频这一步，我们会得到该文本中所有词的词频，有了词频，我们就可以用词向量表示这个文本。： (0, 16) 1 (0, 3) 1 (0, 15) 2 (0, 4) 1 (1, 5) 1 (1, 9) 1 (1, 2) 1 (1, 6) 1 (1, 14) Hash Trick 　　　　在大规模的文本处理中，由于特征的维度对应分词词汇表的大小，所以维度可能非常恐怖，此时需要进行降维，不能直接用我们上一节的向量化方法。
89520发布于 2018-08-14
来自专栏数据森麟
Panda处理文本和时序数据？首选向量化
更重要的是，这种向量化操作不仅适用于数值计算，对于文本和时间格式也有着良好的支持，而这就不得不从Pandas的属性接口谈起。 ? Pandas中的向量化，就像6个Pandas一样说起Pandas中的属性接口，首先要从数据类型谈起。数值型操作是所有数据处理的主体，支持程度自不必说，布尔型数据在Pandas中其实也有较好的体现，即通过&、|、~三种位运算符也相当于是实现了向量化的并行操作，那么对于字符串和时间格式呢？属性可调用一系列的字符串方法函数，其中这里的字符串方法不仅涵盖了Python中内置的字符串通用方法，比如split、strim等，还实现了正则表达式的绝大部分功能，包括查找、匹配和替换等、这对于Pandas处理文本数据来说简直是开挂一般的存在 03 小结一门编程语言中的基本数据类型无非就是数值型、字符串型、时间型以及布尔型，Pandas为了应对各种数据格式的向量化操作，针对字符串和时间格式数据专门提供了str和dt两个属性接口（数值型数据天然支持向量化操作
1.2K20发布于 2021-03-09
来自专栏小数志
Panda处理文本和时序数据？首选向量化
导读 Pandas作为Python数据分析的首选框架，不仅功能强大接口丰富，而且执行效率也相比原生Python要快的多，这是得益于Pandas底层由C实现，同时其向量化执行方式也非常利于并行计算。更重要的是，这种向量化操作不仅适用于数值计算，对于文本和时间格式也有着良好的支持，而这就不得不从Pandas的属性接口谈起。 ? Pandas中的向量化，就像6个Pandas一样说起Pandas中的属性接口，首先要从数据类型谈起。属性可调用一系列的字符串方法函数，其中这里的字符串方法不仅涵盖了Python中内置的字符串通用方法，比如split、strim等，还实现了正则表达式的绝大部分功能，包括查找、匹配和替换等、这对于Pandas处理文本数据来说简直是开挂一般的存在 03 小结一门编程语言中的基本数据类型无非就是数值型、字符串型、时间型以及布尔型，Pandas为了应对各种数据格式的向量化操作，针对字符串和时间格式数据专门提供了str和dt两个属性接口（数值型数据天然支持向量化操作
1.5K10发布于 2021-02-03
来自专栏智慧协同
CSS实现文本向两端对齐的方法
text-align:justify; text-justify:distribute-all-lines;/*ie6-8*/ text-align-last:justify;/* ie9*
1.8K10发布于 2019-06-13
来自专栏数据指象
向智而行：浅谈文本相似度的计算
文本是由多种词性的字词通过系统的语法规则组成而成的具有上下文语义的字词串。根据文本的定义，我们可以将文本的相似度分为两种：一，是文本包含字词的相似度；二，是文本内含语义的相似度。比如：文本1：我很喜欢这些小动物。（主+谓+宾）文本2：这些小动物，我很喜欢。（倒装句）我们可以轻松的看出这两个文本中所有的字词是一样的（也就是说字词的相似度是100%），同时在忽略上下文来看两个文本的语义也是极度相似。 2，将文本1、文本1 进行分词拆解，并找到对应的字词位置编码，这个过程叫做编码，编码的过程是将文本数字化，方便计算机的计算。比如：常有的余弦相似度计算公式可以计算得到两个文本的相似度为：1 ，文本的字词相似度是100%。计算机的算法擅长度量文本的字词相似度，却很难度量文本之间的语义相似度。
35710编辑于 2024-05-22
来自专栏日常技术分享
Axure RP9 文本框变色
屏幕快照 2019-06-04 10.45.50.png 如上图，一个简单的布局，首先我们选中文本框最外层的矩形屏幕快照 2019-06-04 10.48.30.png 点击：新建交互屏幕快照 2019 选中屏幕快照 2019-06-04 10.50.12.png 点击：更多样式选项屏幕快照 2019-06-04 10.51.45.png 勾选：线段颜色，选择一个颜色，点击：确定选中文本框
1.3K20发布于 2019-06-11
来自专栏Lan小站
试题算法提高 9-2 文本加密
　　先编写函数EncryptChar,按照下述规则将给定的字符c转化（加密）为新的字符："A"转化"B"，"B"转化为"C"，... ..."Z"转化为"a"，"a"转化为"b",... ..., "z"转化为"A"，其它字符不加密。编写程序，加密给定字符串。
26220编辑于 2022-07-13
来自专栏机器学习AI算法工程
用Python开始机器学习：文本特征抽取与向量化
这类问题处理的第一步，就是将文本转换为特征。因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化。 1、数据准备 Python的sklearn.datasets支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签，一个为“net”，一个为“pos”，每个目录下面有6个文本文件。 2、文本特征如何从这些英文中抽取情感态度而进行分类呢？最直观的做法就是抽取单词。通常认为，很多关键词能够反映说话者的态度。这样，求出每个文档中，每个单词的TF-IDF，就是我们提取得到的文本特征值。 3、向量化有了上述基础，就能够将文档向量化了。
3.2K140发布于 2018-03-13
来自专栏JavaEdge
90%的开发者都忽略的文本向量化技巧！
什么是文本张量表示？文本张量表示是将文本数据转换为张量（通常是矩阵）形式的过程。通常，每个词汇被表示为一个向量（称为词向量），这些词向量按顺序排列形成一个矩阵，从而表示整个文本。文本张量表示的作用将文本表示为张量（矩阵）形式，使得计算机能够处理和理解自然语言文本，从而进行后续的分析和处理任务。 3. 例如，给定一个窗口大小为 9 的文本，使用前后 4 个词汇来预测目标词汇。 3.2.2 Skip-Gram Skip-Gram 通过目标词汇预测上下文词汇。通过以下命令下载并解压数据： wget -c http://mattmahoney.net/dc/enwik9.zip -P dataunzip data/enwik9.zip -d data 4.2 bin")model = fasttext.load_model("fil9.bin") 5.
32410编辑于 2025-06-01
来自专栏AI理论与前沿
90%的开发者都忽略的文本向量化技巧！
1 啥是文本张量表示？将一段文本使用张量表示，一般将词汇表示成向量，称作词向量，再由各个词向量按序组成矩阵形成文本表示，如：["人生", "该", "如何", "起头"]==># 每个词对应矩阵中的一个向量[[1.32, 4,32 形式，能使语言文本可作为计算机处理程序的输入，进行后续的解析工作。图中窗口大小为9, 使用目标词汇对前后四个词汇进行预测。 $ unzip data/enwik9.zip -d data查看原始数据:$ head -10 data/enwik9# 原始数据将输出很多包含XML/HTML格式的内容, 这些内容并不是我们需要的<
58700编辑于 2025-03-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

话说量化（9）

GolVe向量化做文本分类向量化文本分类

GolVe向量化做文本分类

如何向图形添加曲形文本

利用MOKIT从PySCF向其他量化程序传轨道

利用MOKIT从ORCA向其他量化程序传轨道

文本型数据的向量化:TF-IDF

文本向量化的六种常见模式

向文本到图像扩散模型添加条件控制

算法提高 9-2 文本加密

文本挖掘预处理之向量化与Hash Trick

Panda处理文本和时序数据？首选向量化

Panda处理文本和时序数据？首选向量化

CSS实现文本向两端对齐的方法

向智而行：浅谈文本相似度的计算

Axure RP9 文本框变色

试题算法提高 9-2 文本加密

用Python开始机器学习：文本特征抽取与向量化

90%的开发者都忽略的文本向量化技巧！

90%的开发者都忽略的文本向量化技巧！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

话说量化（9）

GolVe向量化做文本分类向量化文本分类

GolVe向量化做文本分类

如何向图形添加曲形文本

利用MOKIT从PySCF向其他量化程序传轨道

利用MOKIT从ORCA向其他量化程序传轨道

文本型数据的向量化:TF-IDF

文本向量化的六种常见模式

向文本到图像扩散模型添加条件控制

算法提高 9-2 文本加密

文本挖掘预处理之向量化与Hash Trick

Panda处理文本和时序数据？首选向量化

Panda处理文本和时序数据？首选向量化

CSS实现文本向两端对齐的方法

向智而行：浅谈文本相似度的计算

Axure RP9 文本框变色

试题 算法提高 9-2 文本加密

用Python开始机器学习：文本特征抽取与向量化

90%的开发者都忽略的文本向量化技巧！

90%的开发者都忽略的文本向量化技巧！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

试题算法提高 9-2 文本加密