文章/答案/技术大牛

发布

社区首页 >问答首页 >加载文件的MD5的最快方法是什么？

问加载文件的MD5的最快方法是什么？
EN

Stack Overflow用户

提问于 2018-01-13 12:13:34

回答 2查看 1.3K关注 0票数 2

我想加载五月不同文件的MD5。我跟踪这个answer就可以做到这一点，但是主要的问题是加载文件的MD5所花费的时间很长(可能是数百个)。

有什么方法可以不用花费很多时间就能找到文件的MD5吗？

注释-文件的大小可能很大(可能高达300 to )。

这是我使用的密码-

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum {

   public static byte[] createChecksum(String filename) throws Exception {
       InputStream fis =  new FileInputStream(filename);

       byte[] buffer = new byte[1024];
       MessageDigest complete = MessageDigest.getInstance("MD5");
       int numRead;

       do {
           numRead = fis.read(buffer);
           if (numRead > 0) {
               complete.update(buffer, 0, numRead);
           }
       } while (numRead != -1);

       fis.close();
       return complete.digest();
   }

   // see this How-to for a faster way to convert
   // a byte array to a HEX string
   public static String getMD5Checksum(String filename) throws Exception {
       byte[] b = createChecksum(filename);
       String result = "";

       for (int i=0; i < b.length; i++) {
           result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
       }
       return result;
   }

   public static void main(String args[]) {
       try {
           System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
           // output :
           //  0bb2827c5eacf570b6064e24e0e6653b
           // ref :
           //  http://www.apache.org/dist/
           //          tomcat/tomcat-5/v5.5.17/bin
           //              /apache-tomcat-5.5.17.exe.MD5
           //  0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
       }
       catch (Exception e) {
           e.printStackTrace();
       }
   }
}

java

android

md5

md5sum

md5-file

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-01-14 17:09:50

不能使用散列来确定内容的任何相似性。

例如，生成MD5 of hellostackoverflow1和hellostackoverflow2计算两个散列，其中字符串表示形式中没有一个字符匹配(7c35.85 of vs b 283.3d19)。这是因为哈希是根据文件的二进制数据计算的，因此同一件事的两种不同格式--例如.txt和.docx --都有不同的散列。

但是如前所述，使用本机代码可以达到一定的速度，因此NDK。此外，如果您仍然希望比较文件的精确匹配，首先比较大小(以字节为单位)，然后使用具有足够速度和较低冲突风险的散列算法。如前所述，CRC32很好。

票数 2

Stack Overflow用户

发布于 2018-01-13 12:23:19

哈希/CRC计算需要一段时间，因为文件必须被完全读取。

您介绍的createChecksum代码几乎是最优的。唯一可以调整的部分是读取缓冲区大小(我将使用缓冲区大小2048字节或更大)。然而，这可能会使你的速度提高1-2%。

如果这仍然太慢，剩下的唯一选择就是在C/C++中实现散列，并将其用作本机方法。除此之外你什么也做不了。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48239761

复制

相似问题

问加载文件的MD5的最快方法是什么？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问加载文件的MD5的最快方法是什么？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问加载文件的MD5的最快方法是什么？
EN