首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本挖掘-词语之间的相似性以确定阈值

文本挖掘-词语之间的相似性以确定阈值
EN

Data Science用户
提问于 2016-07-11 15:31:12
回答 2查看 653关注 0票数 4

当我试图找出一个地方(军事高中)和另一个地方(军事H学校或军事高中S)是如何相似的时候,我用LV算法来找出字符串的距离,然后把它们转换成一个刻度的百分比。

字符串(data一、1,data一、二,method = "lv")

虽然这是可以接受的,但我仍然需要一种更精确的方法来确定阈值。目标是设定一个接受标准名称变化的门槛,这样,如果这个词的门槛小于85%,它就会被拒绝。这个练习是数据预处理的一部分。

任何建议。

EN

回答 2

Data Science用户

回答已采纳

发布于 2016-11-10 08:22:41

你试过word2vec模型了吗?其中一个主要的应用是计算相似的单词,因为它们在特征向量空间中非常接近。因此,除了High_schoolH_school,还有secondary_schoolpublic_school也可以作为更接近的词来获得。重要的是,这种无监督的学习模式需要大量的句子。

参考文献:gensimjava中的word2vec 2vec

票数 3
EN

Data Science用户

发布于 2016-07-11 19:45:11

为了优化字符串距离阈值,以最大限度地提高数据的分类精度,如果您还没有金本位数据集,则需要对部分数据进行标记。根据你的情况,这可能和你自己一样简单--将字符串对标记为相同或不一样。如果您需要更健壮的数据,您显然希望使用多个标记器,并使用某种程序来确保高的编码间可靠性(我在这个回答中的数据质量中详细地讨论了这一点)。

接下来,像以前一样计算这些数据上的字符串距离。创建一个阈值向量,例如thresholds <- seq(from = 0, to = 20, by = 1),然后为每个阈值计算标记数据集上的性能指标(例如,准确性、精确性、召回性)。选择使所需度量最大化的阈值。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12720

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档