我正在为SSE2指令集实现AES加密算法。
对于Subbyte函数,我使用movzx,在CPU的缓存中加载了S盒以获得更高的性能。这花费了大约56个老年退休金计划的翼CPU。
我在想,你能不能计算出字节的值,而不必如此认真地改变向量?特别是,我想问一下,你是否能大大改进一轮AES-128-加密需要大约108 OPS?
发布于 2014-04-30 12:59:32
在大量的研究论文中提出了AES的快速软件实现。最先进的方法是做一个切分实现,其中在相同位置的顺序块的比特在同一时间被处理。
迄今为止所描述的不使用AES-NI指令的最快实现是由Kasper和Schwabe设计的。他们的论文在网上被强烈推荐给那些对快速AES实现感兴趣的人。在这里复制整份文件是没有意义的,但具体问题可以回答。
https://crypto.stackexchange.com/questions/15899
复制相似问题