文章/答案/技术大牛

发布

社区首页 >问答首页 >用于立法的Diff算法

问用于立法的Diff算法
EN

Stack Overflow用户

提问于 2011-10-29 08:47:40

回答 2查看 130关注 0票数 2

作为一个雄心勃勃的项目的一部分，我正试图更好地理解写入美国国会提出的法案中的立法文本。我有最近账单的电子版本，并试图实现一个算法，将与以前的账单进行比较，寻找相似之处。假设是，许多失败的票据最终会被增选为其他票据。

显然，这是一项艰巨的任务。关于差异引擎存在许多问题，但我的问题略有不同。许多时候，法案被提出，将几个想法打包在一起。因此，差异引擎需要比较账单的部分，而不是整个账单。

有没有关于差分算法的建议或实现这一点的方法？我有强大的计算能力，但请记住，我将使用大约100,000张账单的数据集。

text

diff

text-processing

回答 2

Stack Overflow用户

发布于 2011-10-29 08:57:46

看看Simian - Similarity Analyser吧。它既适用于纯文本也适用于代码。

票数 1

Stack Overflow用户

发布于 2011-10-29 08:58:45

非常有趣的想法。我会从研究longest common subsequence算法开始，看看如何调整它们来(1)报告超过某个阈值的任何序列，比如20个单词，以及(2)看看是否可以让它们处理一些模糊性，以防一两个单词发生变化。我建议先看看diff代码。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7936247

复制

相似问题

问用于立法的Diff算法
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于立法的Diff算法EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于立法的Diff算法
EN