以下是我的代码:
sklearn_tfidf = TfidfVectorizer(ngram_range= (3,3),stop_words=stopwordslist, norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True)
sklearn_representation = sklearn_tfidf.fit_transform(documents)它通过删除所有的停止字来生成三格。
我想要它的允许那些在中间(而不是开始和结束)有塞子的
是否需要为此编写处理器。需要建议。
发布于 2018-04-11 12:20:56
是的,您需要提供您自己的分析器功能,它将根据您的需求将文档转换为特性。
根据文献资料
分析器: string,{‘word’,‘char’,‘char_wb’}或可调用 …………如果传递可调用函数,则用于从未处理的原始输入中提取功能序列。
在可调用的自定义语句中,您需要首先将句子拆分成不同的部分,删除特殊字符(如逗号、大括号、符号等),将它们转换为小写,然后将它们转换为n_grams。
默认实现按以下顺序对单个句子工作:
max_df或低于min_df的单词。如果要向analyzer中的TfidfVectorizer参数传递可调用的自定义函数,则需要处理所有这些问题。
或
您可以扩展TfidfVectorizer类,并且只覆盖最后两个步骤。就像这样:
from sklearn.feature_extraction.text import TfidfVectorizer
class NewTfidfVectorizer(TfidfVectorizer):
def _word_ngrams(self, tokens, stop_words=None):
# First get tokens without stop words
tokens = super(TfidfVectorizer, self)._word_ngrams(tokens, None)
if stop_words is not None:
new_tokens=[]
for token in tokens:
split_words = token.split(' ')
# Only check the first and last word for stop words
if split_words[0] not in stop_words and split_words[-1] not in stop_words:
new_tokens.append(token)
return new_tokens
return tokens然后,使用它,就像:
vectorizer = NewTfidfVectorizer(stop_words='english', ngram_range=(3,3))
vectorizer.fit(data)https://stackoverflow.com/questions/49746555
复制相似问题