首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我的自定义停止词列表使用tf-以色列国防军

我的自定义停止词列表使用tf-以色列国防军
EN

Data Science用户
提问于 2022-02-17 11:36:22
回答 1查看 1.3K关注 0票数 3

我想做我自己的停止词清单,我计算了tf-以色列国防军的分数作为我的条件。

我能把那些用红色突出显示的词看作是停止词吗?我的门槛应该是什么来阻止那些依赖tf-国防军的话呢?我是否应该认为tf-国防军的高价值是我需要保留的最重要的词语?

@Erwan回答了这个问题,查看他们对他们所链接的问题的答案,这是非常有用的。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-02-17 12:46:13

  • 停止词没有标准的定义,但通常情况下,停止词是与文本意义无关的非常频繁的词,如限定词、代词等。重要的是,停止词是一种适用于词汇中独特词汇的属性。例如,如果单词w被认为是一个停止词,那么这适用于文本中w的所有出现,而不仅仅是其中的一些。
  • 相反,w适用于句子/文档中的词,因此在不同的句子/文档中,同一个词可能具有不同的值。
    • w是词汇层次上的一种属性,即所有出现的is都是相同的。
    • TF是特定于句子/文档的。如果w在A文件中出现的频率是在B文件中的3倍,那么它在A中的TFIDF值是在B中的3倍。

这就是为什么选择停止词没有真正意义上考虑TFIDF值的原因:前者是特定于句子/文档的,而不是第二个。您可以只使用IDF部分,但是只使用文档频率没有什么区别,而且实际上它会给出与使用整个频率相同的结果。

票数 8
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/108251

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档