搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏简书专栏
基于jieba、TfidfVectorizer、LogisticRegression的文档分类
0.打开jupyter 在桌面新建文件夹命名为基于TfidfVectorizer的文档分类，如下图所示: ? 模型调用sklearn.feature_extraction.text库的TfidfVectorizer方法实例化模型对象。 TfidfVectorizer方法需要4个参数。查看TfidfVectorizer方法的更多参数用法，官方文档链接：http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(cutWords_list,
4.7K60发布于 2018-09-10
来自专栏大鹅专栏：大数据到机器学习
XGBoost 实现文本分类与sklearn NLP库TfidfVectorizer
TfidfVectorizer原理这里简单介绍下scikit-learn自然语言文本处理的一个开源方法——TfidfVectorizer，该方法分别是由两种方法 CountVectorizer 与 TfidfTransformer 的结合，下面进行说明，说明之前给出三个文档链接（本文基本翻译自官方文档）：（文档在手天下我有，有问题看文档）方法一：TfidfVectorizer 方法二：CountVectorizer、TfidfTransformer ——TF-IDF及相关知识 TfidfVectorizer 的使用相当于先调用了 CountVectorizer 方法，然后再调用 TfidfTransformer 方法，所以想了解 TfidfVectorizer 最后可以简单的描述下TfidfVectorizer了 TfidfVectorizer 功能：前文说过 TfidfVectorizer 相当于两者的结合使用，先后调用 CountVectorizer 和代码说明： from sklearn.feature_extraction.text import TfidfVectorizer VT = TfidfVectorizer() # 先后调用CountVectorizer
3.1K71编辑于 2021-12-23
来自专栏简书专栏
基于jieba、TfidfVectorizer、LogisticRegression的垃圾邮件分类
0.打开jupyter 在桌面新建文件夹命名为基于TfidfVectorizer的垃圾分类，如下图所示: ? TfidfVectorizer方法需要3个参数。 from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(cutWords_list, 特征矩阵通过TfidfVectorizer模型获得，预测目标值是标签编码的结果。 6.1 特征矩阵第1行代码调用TfidfVectorizer对象的fit_transform方法获得特征矩阵；第2行代码打印查看TfidfVectorizer对象的词表大小；第3行代码查看特征矩阵的形状
1.6K20发布于 2018-10-09
来自专栏素质云笔记
sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer
片段一：tfidf + LDA tfidf + sklearn的模型 3.4 HashingVectorizer 3.5 错误使用TfidfVectorizer方式，导致分类准确率一直为0.2 --- 主函数： class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error 方式，导致分类准确率一直为0.2 这边笔者自己的在尝试的时候，发现一开始使用TfidfVectorizer的时候分类准确率一直为0，也就是最终出来的val_y，预测结果全部为0，所以大概只有20%准确率一般是错误使用TfidfVectorizer造成的。 # 第一种方式：训练集/测试集先分开，再fit tfidf = TfidfVectorizer(**vect_params) x_train = tfidf.fit_transform(x_train)
4.2K31发布于 2019-05-26
来自专栏润风拂过存甘霖
sklearn: TfidfVectorizer 中文处理及一些使用参数
本文链接：https://blog.csdn.net/blmoistawinde/article/details/80816179 TfidfVectorizer可以把原始文本转化为tf-idf 基本应用如： #coding=utf-8 from sklearn.feature_extraction.text import TfidfVectorizer document = ["I have tfidf_model = TfidfVectorizer().fit(document) print(tfidf_model.vocabulary_) # {'一条': 1, '天狗' # 过滤出现在超过60%的句子中的词语 tfidf_model3 = TfidfVectorizer(token_pattern=r"(? tfidf_model4 = TfidfVectorizer(token_pattern=r"(?
3.7K10发布于 2019-10-30
来自专栏IT杂谈学习
【Python】已解决：AttributeError: ‘TfidfVectorizer’ object has no attribute ‘get_feature_names_out’
已解决：AttributeError: ‘TfidfVectorizer’ object has no attribute ‘get_feature_names_out’ 一、分析问题背景在使用scikit-learn 库中的TfidfVectorizer类进行文本特征提取时，有时会遇到AttributeError: ‘TfidfVectorizer’ object has no attribute ‘get_feature_names_out 但是，如果你的scikit-learn库版本较旧，TfidfVectorizer对象可能就没有get_feature_names_out这个属性，从而导致上述错误。三、错误代码示例下面是一个可能导致该错误的代码示例： from sklearn.feature_extraction.text import TfidfVectorizer # 示例文本数据 ] # 初始化TF-IDF向量化器 vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(documents)
44400编辑于 2025-05-23
来自专栏数据分析与挖掘
利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料）
]) 3、搭建模型接下来就可以搭建模型了，这里需要将二维数组转换一维数组，同时要将numpy数组转换为列表： from sklearn.feature_extraction.text import TfidfVectorizer train_data = train_data.reshape(len(train_data)).tolist() print(train_data[:2]) tfidf_model = TfidfVectorizer
1.4K52发布于 2020-10-10
来自专栏具身小站
Python文本特征提取（TF-IDF）
TfidfVectorizer 是 CountVectorizer 的扩展，它结合了词频(TF)和逆文档频率(IDF)，生成更有效的文本表示。关键参数详解 TfidfVectorizer 继承了 CountVectorizer 的所有参数，并增加了以下特有参数：参数类型默认值说明 norm ‘l1’, ‘l2’, None ‘l2’ CountVectorizer 对比场景选择简单词频统计 CountVectorizer 大多数文本分类任务 TfidfVectorizer 中文文本处理 TfidfVectorizer + jieba (lowercase=True) 2.2 合理设置n-gram范围： # 文本分类通常(1,2)足够，信息检索可能需要(1,3) TfidfVectorizer(ngram_range=(1, 2)) 2.3 频率阈值设置： # 避免极端高频/低频词 TfidfVectorizer(max_df=0.8, min_df=2) 2.4 特征数量控制： # 防止维度灾难 TfidfVectorizer(max_features
62210编辑于 2025-10-31
来自专栏数据科学CLUB
机器学习中的特征提取
而TfidfVectorizer除了考量某词汇在当前文本中出现的频率之外，同时关注包含这个词汇的文本条数的倒数。相比之下,训练文本的条目越多,TfidfVectorizer这种特征量化方式就更有优势。使用TfidfVectorizer并且不去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试. #从sklearn.feature_extraction.text里分别导入TfidfVectorizer. from sklearn.feature_extraction.text import TfidfVectorizer #采用默认的配置对TfidfVectorizer进行初始化(默认配置不去除英文停用词),并且赋值给变量tfidf_ vec。 tfidf_vec = TfidfVectorizer () #使用tfidf的方式,将原始训练和测试文本转化为特征向量。
1.9K10发布于 2020-06-12
来自专栏Michael阿明学习之路
基于sklearn.decomposition.TruncatedSVD的潜在语义分析实践
singular values corresponding to each of the selected components. 2. sklearn.feature_extraction.text.TfidfVectorizer sklearn.feature_extraction.text.TfidfVectorizer 官网介绍将原始文档集合转换为TF-IDF矩阵 class sklearn.feature_extraction.text.TfidfVectorizer l2', use_idf=True, smooth_idf=True, sublinear_tf=False) from sklearn.feature_extraction.text import TfidfVectorizer , ] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(corpus) print(vectorizer.get_feature_names sklearn.decomposition import TruncatedSVD # LSA 潜在语义分析 from sklearn.feature_extraction.text import TfidfVectorizer
1K21发布于 2020-07-13
来自专栏数据分析与挖掘
机器学习-文本分类（2）-新闻文本分类
sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer train_df['label'].values[10000:], val_pred, average='macro')) 0.65441877581244 （2）TF-IDF+岭分类 tfidf = TfidfVectorizer 增加至1.5，画出F1关于阿尔法的图像（1）针对于岭分类而言：阿尔法对模型的影响 sample = train_df[0:5000] n = int(2*len(sample)/3) tfidf = TfidfVectorizer （1）逻辑回归 from sklearn import linear_model tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=5000 （3）SVM from sklearn import svm tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=5000) train_test
1.2K30发布于 2020-08-26
来自专栏AI小白入门
【NLP】文本分类任务之逻辑回归
1、首先，我们利用TFIDF提取文本词语的信息： word_vectorizer = TfidfVectorizer( sublinear_tf=True, strip_accents= 为了充分表征文本信息，我们也提取文本字的ngram信息，我们将ngram设置为（2，6），也就是说我们会最少提取两个字母作为单词的信息，最多会提取6个字母作为单词： char_vectorizer = TfidfVectorizer 如果你想运行该代码，可参考完整代码如下： import numpy as np import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer comment_text] test_text = test[comment_text] all_text = pd.concat([train_text, test_text]) word_vectorizer = TfidfVectorizer word_vectorizer.transform(train_text) test_word_features = word_vectorizer.transform(test_text) char_vectorizer = TfidfVectorizer
1.3K10发布于 2020-02-14
来自专栏Datawhale专栏
基于机器学习的文本分类！
sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer 取大小为5000的样本，保持其他参数不变，令从0.15增加至1.5，画出关于和的图像 sample = train_df[0:5000] n = int(2*len(sample)/3) tfidf = TfidfVectorizer 3000、4000，研究max_features对模型精度的影响 f1 = [] features = [1000,2000,3000,4000] for i in range(4): tfidf = TfidfVectorizer 4.3 ngram_range对模型的影响 n-gram提取词语字符数的下边界和上边界，考虑到中文的用词习惯，ngram_range可以在(1,4)之间选取 f1 = [] tfidf = TfidfVectorizer 5.1 LogisticRegression LogisticRegression的目标函数为： from sklearn import linear_model tfidf = TfidfVectorizer
2.9K21发布于 2020-08-10
来自专栏自然语言处理
20 newsgroups数据介绍以及文本分类实例简介基本使用将文本转为TF-IDF向量使用贝叶斯进行分类参考
=True # 如果没有下载过，重新下载 ) 将文本转为TF-IDF向量 from sklearn.feature_extraction.text import TfidfVectorizer newsgroups_train = fetch_20newsgroups(subset='train',categories=categories) # 提取tfidf特征 vectorizer = TfidfVectorizer 我们从输出可以看出，提取的TF-IDF 向量是非常稀疏的，超过30000维的特征才有159个非零特征使用贝叶斯进行分类 from sklearn.feature_extraction.text import TfidfVectorizer newsgroups_train = fetch_20newsgroups(subset='train',categories=categories) # 提取tfidf特征 vectorizer = TfidfVectorizer
3.6K20发布于 2018-08-02
来自专栏萝卜大杂烩
使用sklearn+jieba完成一个文档分类器
TF） * 逆文档频率（IDF）词频（TF） = 某个词在文档中的出现次数/文章的总词数逆文档频率（IDF） = log（语料库的文档总数/（包含该词的文档数+1）） sklearn支持该算法，使用TfidfVectorizer 4.构建模型调用TfidfVectorizer类，使用TF-IDF算法拟合训练数据，再使用MultinomialNB类，生成训练模型，即朴素贝叶斯分类器 ? 5.使用生成的分类器做预测同样，使用训练集的分词创建一个TfidfVectorizer类，然后用TfidfVectorizer类对测试集的数据进行fit_transform拟合，即可以得到测试集的特征矩阵
1.5K11发布于 2019-07-17
来自专栏AI SPPECH
18_TF-IDF向量表示：从词频到文档相似度
scikit-learn是Python中常用的机器学习库，提供了高效的TF-IDF实现： from sklearn.feature_extraction.text import TfidfVectorizer 对于大多数日常任务，scikit-learn的TfidfVectorizer提供了良好的平衡，既简单易用又功能强大。 3. from sklearn.feature_extraction.text import TfidfVectorizer def compare_ngram_ranges(): documents 使用字符n-gram char_vectorizer = TfidfVectorizer(analyzer='char', ngram_range=(2, 3)) char_tfidf scikit-learn Documentation: TfidfVectorizer.
41910编辑于 2025-11-13
来自专栏Bay的专栏
如何使用 scikit-learn 为机器学习准备文本数据
如何使用 TfidfVectorizer 将文本转换为词频向量。如何使用 HashingVectorizer 将文本转换为唯一的整数。让我们开始吧。使用 TfidfVectorizer 统计词频单词计数是一个非常好、非常简单的起点。不过，简单计数也存在不足。 TfidfVectorizer 将标记文件、建立索引、求出逆文档频率权重，并允许您编码新的文件。 TfidfVectorizer 的实例化、拟合和转换方法和 CountVectorizer 类似。下面的示例展示了如何是使用 TfidfVectorizer 训练 3 个小文档的索引和逆文档频率，并编码其中一个文档。
1.7K50发布于 2018-02-14
来自专栏小樱的经验随笔
【机器学习笔记之八】使用朴素贝叶斯进行文本的分类
Transform a count matrix to a normalized tf or tf-idf representation feature_extraction.text.TfidfVectorizer 优化提取单词规则参数 TfidfVectorizer的一个参数token_pattern用于指定提取单词的规则。 1 nbc_4 = Pipeline([ 2 ('vect', TfidfVectorizer( 3 token_pattern=ur"\b[a-z0-9_\-\.] 优化省略词参数 TfidfVectorizer的一个参数stop_words这个参数指定的词将被省略不计入到标记词的列表中，比如一些出现频率很高的词，但是这些词对于特定的主题不能提供任何的先验支持。 1 nbc_6 = Pipeline([ 2 ('vect', TfidfVectorizer( 3 stop_words=stop_words, 4 token_pattern=ur"\b[a-z0
1.5K61发布于 2018-04-09
来自专栏有趣的Python和你
sklearn调包侠之朴素贝叶斯
from sklearn.datasets import load_files news_train = load_files('data/379/train') 通过TfidfVectorizer方法，将文档数据进行转换： from sklearn.feature_extraction.text import TfidfVectorizer vect = TfidfVectorizer(encoding
76850发布于 2018-07-04
来自专栏文武兼修ing——机器学习与IC设计
基于sklearn的文本特征抽取理论代码实现
sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer c_vec_s.fit_transform(x_train) x_count_stop_test = c_vec_s.transform(x_test) tfidf vectorizer t_vec = TfidfVectorizer t_vec.fit_transform(x_train) x_tfidf_test = t_vec.transform(x_test) tfidf vectorizer+去除停用词 t_vec_s = TfidfVectorizer
97170发布于 2018-04-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

基于jieba、TfidfVectorizer、LogisticRegression的文档分类

XGBoost 实现文本分类与sklearn NLP库TfidfVectorizer

基于jieba、TfidfVectorizer、LogisticRegression的垃圾邮件分类

sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer

sklearn: TfidfVectorizer 中文处理及一些使用参数

【Python】已解决：AttributeError: ‘TfidfVectorizer’ object has no attribute ‘get_feature_names_out’

利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料）

Python文本特征提取（TF-IDF）

机器学习中的特征提取

基于sklearn.decomposition.TruncatedSVD的潜在语义分析实践

机器学习-文本分类（2）-新闻文本分类

【NLP】文本分类任务之逻辑回归

基于机器学习的文本分类！

20 newsgroups数据介绍以及文本分类实例简介基本使用将文本转为TF-IDF向量使用贝叶斯进行分类参考

使用sklearn+jieba完成一个文档分类器

18_TF-IDF向量表示：从词频到文档相似度

如何使用 scikit-learn 为机器学习准备文本数据

【机器学习笔记之八】使用朴素贝叶斯进行文本的分类

sklearn调包侠之朴素贝叶斯

基于sklearn的文本特征抽取理论代码实现

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐