超大文件如何计算md5?

 我来答
HHYYagajy8d2
2017-12-11 · TA获得超过459个赞
知道答主
回答量:313
采纳率:97%
帮助的人:72.9万
展开全部

首先,至少没必要先把整个文件读到内存里。比如在 php 里,如果有人 md5(file_get_contents(big_file_name)) 就确实非常不妥当。因为 md5 是每 512 bit 作为一个 chunk 进行计算的。所以可以每次读取一部分的内容(最少 512 bit,比较合适是 st_blksize),进行那些 chunk 部分的计算,之后再读取下一部分内容继续计算。简单先说下,md5是有规范的,提供了现成的算法(规范的名字就是md5算法。RFC 1321 The MD5 Message-Digest Algorithm),我们只需要翻译成c、java、python、js等等代码。前端算超大文件可以取头跟尾chunk内容及整个文件的name + update 时间一起算md5值就比较快了,只是为了做唯一标识来做断点续传,从业务逻辑上应该够用了。推荐使用 js spark-md5 开源库,支持直接append各个部分然后算出md5。我做的断点续传功能就是用它在前端算的md5. 各大网盘 TB级别 md5算法应该是这样的,楼上几位都说了文件md5是文件流分块算出来的,那么网盘想获得TB级别文件的md5就必须读取整个文件的文件流才能得到,但是这么做效率十分低下,运算时间是个问题。但是大家忽略了一个问题,文件在上传的过程也是分块上传的,这些上传的碎片其实也是文件流。那么可以把计算md5的时间分摊到每一个碎片上。这样每上传一个片段就计算一点等上传完成了,文件的md5也就算出来了。okTB级别MD5不是问题了。上传完成md5自然就出来了。 不知道我的猜测大家有其他看法没有。刚才提出都传完了就还怎么秒传。秒传最基本的是先要前端算出md5然后传给后端(可能需要更多种哈希值)我研究了很久前端没有办法秒内完成超大文件MD5的,现在用html5 的api 可以算出任意大小文件的 md5 但是耗时相当长。我没有解决办法。也没有想到那些网盘怎么在前端快速获取md5的。

峰佘无敌186b6
2017-12-11 · TA获得超过427个赞
知道答主
回答量:283
采纳率:98%
帮助的人:67.8万
展开全部

在最近的开发及原有方案的改良中,一个feture就是加快对GB级大文件的读取和计算MD5的速度。这是一个IO密集和CPU密集的耗时操作,在无法硬性提高CPU的条件下,我考虑从IO上如何提高速率。超大文件的MD5计算,需要分段将文件中的内存更新到MessageDigest中。(注:MessageDigest的实例不能共享,CSDN等博客上介绍MD5计算的demo,将MessageDigest设置为单例模式,单线程计算一个文件的MD5不会出错,多线程计算就会出问题了。)Java的NIO中提供了内存映射,通过将文件的一部分映射到内存中,可以一定程度地提高IO速率,从提高整体的效率。使用NIO的内存映射需要注意 内存的释放(之前未释放内存,在100GB级的文件测试中,抛出了OOM错误)。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
一食者安康6822
2017-12-11 · TA获得超过367个赞
知道答主
回答量:323
采纳率:97%
帮助的人:69.9万
展开全部

Md5是一种散列算法,理论上是不可解密的,而且重复的几率极小极小,因此在平常的密码存储上应用比较广泛,这个值一般情况下是唯一的,所以在文件校验上也应用的比较多,下面说明一下C#中字符串以及文件获取Md5值方法。网上所说的Md5解密并不是真正的解密,因为Md5本就是一种不可解密的算法,其所称解密只是把一些常用的字符串获取Md5值,然后存入数据库,若是你输入Md5值在数据库里存在,那么就会返回与之对应的字符串了,若是没有就自然无法获取了,所以说密码还是要起的复杂些,加入一些特殊字符更好些。

本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式