所有人!对于这个问题我非常抱歉,但我没有任何正则表达式的经验,我想知道是否真的可以做一些事情。
我正在研究一个取自BBC新闻的新闻故事语料库。然而,一些新闻条目在我的语料库中是重复的,我想知道是否可以做一些事情来突出这些重复项,而不需要整理我的数据。非常感谢,我真的为这个天真的问题再次道歉。
发布于 2018-06-05 20:55:19
通常,我会对删除重复项进行排序,并将结果保存在不同的文件中(保持原始文件不变)。然后我比较这两个文件(总指挥官,考试差异,...)。
https://stackoverflow.com/questions/29435274
复制相似问题