文章/答案/技术大牛

发布

社区首页 >问答首页 >文本挖掘-词语之间的相似性以确定阈值

问文本挖掘-词语之间的相似性以确定阈值
EN

Data Science用户

提问于 2016-07-11 15:31:12

回答 2查看 653关注 0票数 4

当我试图找出一个地方(军事高中)和另一个地方(军事H学校或军事高中S)是如何相似的时候，我用LV算法来找出字符串的距离，然后把它们转换成一个刻度的百分比。

字符串(data一、1，data一、二，method = "lv")

虽然这是可以接受的，但我仍然需要一种更精确的方法来确定阈值。目标是设定一个接受标准名称变化的门槛，这样，如果这个词的门槛小于85%，它就会被拒绝。这个练习是数据预处理的一部分。

任何建议。

text-mining

回答 2

Data Science用户

回答已采纳

发布于 2016-11-10 08:22:41

你试过word2vec模型了吗？其中一个主要的应用是计算相似的单词，因为它们在特征向量空间中非常接近。因此，除了High_school和H_school，还有secondary_school，public_school也可以作为更接近的词来获得。重要的是，这种无监督的学习模式需要大量的句子。

参考文献：gensim，java中的word2vec 2vec

票数 3

Data Science用户

发布于 2016-07-11 19:45:11

为了优化字符串距离阈值，以最大限度地提高数据的分类精度，如果您还没有金本位数据集，则需要对部分数据进行标记。根据你的情况，这可能和你自己一样简单--将字符串对标记为相同或不一样。如果您需要更健壮的数据，您显然希望使用多个标记器，并使用某种程序来确保高的编码间可靠性(我在这个回答中的数据质量中详细地讨论了这一点)。

接下来，像以前一样计算这些数据上的字符串距离。创建一个阈值向量，例如thresholds <- seq(from = 0, to = 20, by = 1)，然后为每个阈值计算标记数据集上的性能指标(例如，准确性、精确性、召回性)。选择使所需度量最大化的阈值。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/12720

复制

相似问题

问文本挖掘-词语之间的相似性以确定阈值
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本挖掘-词语之间的相似性以确定阈值EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本挖掘-词语之间的相似性以确定阈值
EN