当我试图找出一个地方(军事高中)和另一个地方(军事H学校或军事高中S)是如何相似的时候,我用LV算法来找出字符串的距离,然后把它们转换成一个刻度的百分比。
字符串(data一、1,data一、二,method = "lv")
虽然这是可以接受的,但我仍然需要一种更精确的方法来确定阈值。目标是设定一个接受标准名称变化的门槛,这样,如果这个词的门槛小于85%,它就会被拒绝。这个练习是数据预处理的一部分。
任何建议。
发布于 2016-11-10 08:22:41
你试过word2vec模型了吗?其中一个主要的应用是计算相似的单词,因为它们在特征向量空间中非常接近。因此,除了High_school和H_school,还有secondary_school,public_school也可以作为更接近的词来获得。重要的是,这种无监督的学习模式需要大量的句子。
发布于 2016-07-11 19:45:11
为了优化字符串距离阈值,以最大限度地提高数据的分类精度,如果您还没有金本位数据集,则需要对部分数据进行标记。根据你的情况,这可能和你自己一样简单--将字符串对标记为相同或不一样。如果您需要更健壮的数据,您显然希望使用多个标记器,并使用某种程序来确保高的编码间可靠性(我在这个回答中的数据质量中详细地讨论了这一点)。
接下来,像以前一样计算这些数据上的字符串距离。创建一个阈值向量,例如thresholds <- seq(from = 0, to = 20, by = 1),然后为每个阈值计算标记数据集上的性能指标(例如,准确性、精确性、召回性)。选择使所需度量最大化的阈值。
https://datascience.stackexchange.com/questions/12720
复制相似问题