首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MySQL中的Damerau-Levenshtein距离算法

MySQL中的Damerau-Levenshtein距离算法
EN

Stack Overflow用户
提问于 2013-01-09 18:14:21
回答 3查看 5.6K关注 0票数 3

有没有人知道Damerau-Levenshtein距离算法作为存储过程/函数的MySQL实现,它接受单个指定的字符串作为参数,并在特定表的特定字段中查找该字符串的模糊匹配?

我发现了各种过程/函数代码示例,它们比较两个指定的字符串并计算出距离,但首先,这只是Levenshtein距离算法,而不是Damerau-Levenshtein算法,其次,我不会比较两个字符串,而是在我选择的字段中找到与我指定的字符串相似的模糊匹配。

我基本上是在尝试在MySQL中构建一个模糊关键字搜索器。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-01-09 20:46:40

MySQL Levenshtein and Damerau-Levenshtein UDF’s中,这个算法有几个实现。

票数 2
EN

Stack Overflow用户

发布于 2013-08-05 23:45:44

Github正在进行一项开发,以修改Sean Collins代码,使其支持UTF8并且不区分大小写。

示例:

代码语言:javascript
复制
mysql> select damlevlim('camión', 'çamion', 6);

+--------------------------------------+
| damlevlim('camión', 'çamion', 6) |
+--------------------------------------+
|                                    0 |
+--------------------------------------+
1 row in set (0.00 sec)

这在进行模糊匹配时特别有用。

代码语言:javascript
复制
mysql> select word,damlevlim(word, 'camion') as dist from wordslist where damlevlim(word, 'camion', 7)<1 limit 2;

+--------+------+
| word   | dist |
+--------+------+
| camión |    0 |
| camios |    1 |
+--------+------+
2 row in set (0.00 sec)
票数 3
EN

Stack Overflow用户

发布于 2016-02-01 06:38:58

这似乎是一个古老的话题,然而,如果有人想要寻找Damerau-Levenshtein distance的MYSQL实现,这里是我自己的实现(基于在本站点其他地方找到的一个简单的Levenshtein ),它适用于长度小于255个字符的字符串。第三个参数可以设置为FALSE以检索基本的Levenshtein距离:

代码语言:javascript
复制
CREATE FUNCTION levenshtein( s1 VARCHAR(255), s2 VARCHAR(255), dam BOOL)
RETURNS INT
DETERMINISTIC
BEGIN
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
    DECLARE s1_char, s2_char CHAR;
    -- max strlen=255
    DECLARE cv0, cv1, cv2 VARBINARY(256);
    SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0;
    IF s1 = s2 THEN
        RETURN 0;
    ELSEIF s1_len = 0 THEN
        RETURN s2_len;
    ELSEIF s2_len = 0 THEN
        RETURN s1_len;
    ELSE
        WHILE j <= s2_len DO
            SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1;
        END WHILE;
        WHILE i <= s1_len DO
            SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1;
            WHILE j <= s2_len DO
                SET c = c + 1;
                SET s2_char = SUBSTRING(s2, j, 1);
                IF s1_char = s2_char THEN
                    SET cost = 0; ELSE SET cost = 1;
                END IF;
                SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
                IF c > c_temp THEN SET c = c_temp; END IF;
                SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
                IF c > c_temp THEN SET c = c_temp; END IF;
                IF dam THEN
                    IF i>1 AND j>1 AND s1_char = SUBSTRING(s2, j-1, 1) AND s2_char = SUBSTRING(s1, i-1, 1) THEN
                        SET c_temp = CONV(HEX(SUBSTRING(cv2, j-1, 1)), 16, 10) + 1;
                        IF c > c_temp THEN SET c = c_temp; END IF;
                    END IF;
                END IF;
                SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
            END WHILE;
            IF dam THEN SET CV2 = CV1; END IF;
            SET cv1 = cv0, i = i + 1;
        END WHILE;
    END IF;
    RETURN c;
END
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14232851

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档