我注意到许多段落和文章部分被从一篇维基百科文章复制并粘贴到另一篇文章中,导致维基百科上过多的冗余文本。是否有任何工具、脚本或API可以自动识别这些重复的部分和段落(以便可以删除它们)?
发布于 2012-10-10 19:08:41
恐怕没有任何方法可以使用API或诸如此类的方法来做到这一点。但是,您可能可以使用维基媒体转储来查找您要寻找的复制类型。人民已经在做研究可能也能帮助你。
https://webapps.stackexchange.com/questions/30162
复制相似问题