我在ML和它里面的一切都是新手。
我有一个15K的日志,我的目标是从其中提取3到8克。我使用的代码部分是从this问题中采用的。
df = pd.read_fwf(r'C:\path\to\my\LOG.txt')
vect = sklearn.feature_extraction.text.CountVectorizer(ngram_range=(3,8))
vect.fit(df)
for w in vect.get_feature_names_out():
print(w)代码实际上可以工作,但我不能在txt上“迭代”。执行的结果只返回从日志的前2-3行提取的第一个X克。我如何从文档中读取和提取所有的n-克?
额外的问题:既然最后的目标是提取n-克并在其上构建tf-国防军模型,那么我的日志是TXT而不是CSV这一事实是否代表了一个问题?我有变长线,所以CSV是不可行的。
发布于 2022-09-15 10:04:30
使用文件对象上的for循环逐行读取它。与open一起使用(.)若要让上下文管理器确保在读取后文件被关闭,请执行以下操作:
with open("log.txt") as infile:
for line in infile:
print(line)https://stackoverflow.com/questions/73729113
复制相似问题