问删除大文件中的重复行
EN

Stack Overflow用户

提问于 2018-08-23 22:21:01

回答 1查看 83关注 0票数 0

如何在使用Java读取.fastq(文本)文件时删除重复的字符串行？目前正在使用下一代测序(ngs)，需要从文件测序(大数据)中删除重复读数。我正在尝试在java中使用Counting Bloom Filter和Cuckoo filter，但仍然不能成功。

发布于 2018-08-23 22:40:18

布隆过滤器是O(1)查找，所以你不能比它更快。

任何类型的过滤器的另一个瓶颈是数据读取速度。你在以最快的速度读取文件吗？

如果这只是您正在寻找的bloom filter实现，我已经成功地使用了Google Guava one。

请给我们你的问题的更多细节，然后我们应该能够提供更多的帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51988034

复制

相似问题

问删除大文件中的重复行EN