散列是一种用于以常数平均时间执行插入、删除和查找的技术。 每个关键字被映射到从0-TableSize-1这个范围中的某个数,并且被放到适当的单元中。 这种映射就叫做散列函数 我认为,先用散列函数将我们所要进行操作的集合整合成散列表,是对之后的操作的一种便利。放到实际中去,我们要进行操作的集合不仅仅只是数字,例如图书馆中的书籍分类等等。 我们可以通过某种规定,将每个关键字放到合适的为止上去,编写散列函数。但是难免会遇到两个关键词被单列到同一个值的情况,(称为冲突),如何解决冲突是一个很关键的问题,之后另开博。 int b[9]; int i; for(i = 0; i < 9; i++) { b[a[i]%10] = a[i]; //通过模10运算,将关键字散列合适的位置 设所有关键字最多8个字符长,由于char类型的值最多是127,因此这个散列函数之恩那个取值在0到27*8之间,若TableSize超过了1w,显然这并不是一种均匀的分配。
原来是Groudhog类没有重写hashCode()方法,所以这里是使用Object的hashCode()方法生成散列码,而他默认是使用对象的地址计算散列码。 二、理解hashCode() 散列的价值在于速度:散列使得查询得以快速执行。 备注:为使散列分布均衡,Java的散列函数都使用2的整数次方来作为散列表的理想容量。对现代的处理器来说,除法和求余是最慢的动作。使用2的整数次方的散列表,可用掩码代替除法。 也就是说,它必须基于对象的内容生成散列码。 应该产生分布均匀的散列码。如果散列码都集中在一块,那么在某些区域的负载就会变得很重。 3、合并计算得到的散列值:result=37*result+c; 4、返回 result; 5、检查hashCode()最后生成的结果,确保相同的对象有相同的散列码。
复杂度分析: 顺序查找: O(n) 二分查找: O(\log_2n) 散列方法: O(C) 散列表与散列方法 将一个元素的关键码和存储位置之间建立对应的函数关系 Hash( ), 使得每个关键码与结构中的唯一的存储位置相对应 : Address=Hash( ) 需要解决两个问题: 找到一个合适的散列函数,避免或尽量减少冲突 拟定解决冲突的方案 散列函数 取余法 散列表中地址数位m, p为不大于m但最接近m的质数. 将结果化成八进制 处理冲突的闭散列(开地址)方法 产生冲突元素的关键码互为同义词. 闭散列又叫开地址法. 所有的桶都直接放在散列表数组中,并且把该数组组织成环形结构. 每个桶只有一个元素. 当发生冲突时, 把这个元素存放进表中”下一个”空桶中.寻找空桶的方法有很多. 再散列 当表项数>表的70%时, 可以再散列. 即, 建立一个两倍大的表, 新的散列函数取距离原规模两倍大小最近的素数. 处理冲突的开散列(链地址)方法 将同义词放入同一个桶.
选择键值,冲突的时候采取不同的策略 散列函数: 简单的散列函数: 1 int hash(const string & key,int tableSize) 2 { 3 int hashVal = hashVal % tableSize; 9 } 比较好的散列函数: 1 int hash( const string & key,int tableSize ) 2 { 3 int hashVal 与 散列表大小的 比值 执行一次查找所需的时间:计算散列函数值所需要的常数时间加上遍历表所用的时间 不使用链表的散列表: 当冲突发生时,直接寻找下一单元 <线性探测> <平方探测> 使用探测策略的散列表的类接口 > 对分离散列表的再散列 1 void rehash() 2 { 3 vector<HashEntry> oldArray = array; 4 array.size(nextPrime if(oldArray[i].info == ACTIVE) 13 insert(oldArray[i].element); 14 } 15 } 对探测散列表的再散列
采用散列技术将记录存在在一块连续的存储空间中,这块连续存储空间称为散列表或哈希表。那么,关键字对应的记录存储位置称为散列地址。 散列技术既是一种存储方法也是一种查找方法。 散列技术的记录之间不存在什么逻辑关系,它只与关键字有关,因此,散列主要是面向查找的存储结构。 2.5 除留余数法 此方法为最常用的构造散列函数方法。对于散列表长为m的散列函数公式为: mod是取模(求余数)的意思。 总之,现实中,应该视不同的情况采用不同的散列函数,这里只能给出一些考虑的因素来提供参考: (1)计算散列地址所需的时间 (2)关键字的长度; (3)散列表的长度; (4)关键字的分布情况 综合以上等因素,才能决策选择哪种散列函数更合适。 处理散列冲突的方法 在理想的情况下,每一个关键字,通过散列函数计算出来的地址都是不一样的,可现实中,这只是一个理想。
散列 散列为一种用于以常数平均时间执行插入,删除和查找的技术。一般的实现方法是使通过数据的关键字可以计算出该数据所在散列中的位置,类似于Python中的字典。 关于散列需要解决以下问题: 散列的关键字如何映射为一个数(索引)——散列函数 当两个关键字的散列函数结果相同时,如何解决——冲突 散列函数 散列函数为关键字->索引的函数,常用的关键字为字符串,则需要一个字符串 ->整数的映射关系,常见的三种散列函数为: ASCII码累加(简单) 计算前三个字符的加权和$\sum key[i] * 27^{i}$ (不太好,3个字母的常用组合远远小于可能组合) 计算所有字符加权和并对散列长度取余 ,发生冲突,本次使用分离链接法解决: 每个散列中的数据结构有一个指针可以指向下一个数据,因此散列表可以看成链表头的集合 当插入时,将数据插入在对应散列值的链表中 访问时,遍历对应散列值的链表,直到找到关键字 ,因此需要定义一个散列节点用于计算散列值 point := h.table[temp.hash].next for point !
为了速度而散列 HashMap速度总所周知是非常快的,但是为什么会这么快,是因为它的散列技术,下面简单理解一下散列知识 散列的价值在于速度,使得查询得以快速。 一般容器查询的速度的瓶颈位于键的查询,采取的做法一般是对键进行排序,但散列则不是 散列的特点 散列的做法,通常把键保存到某个地方,存储一组元素最快的数据结构就是数组,所以用它来保存键的信息(不是键本身 散列的做法,数组不保存键本身,而是通过键对象生成一个随机数字,用作数组的下标,这个数字就是我们通常见到的hashCode。 我们查询是通过查询对象计算出一个散列码,如果能保证没有冲突,重复,那就可能有了一个完美的散列函数。 slot 和 bucket 散列中的槽位(solt)通常称为桶位,以内实际散列表的数组名称为bucket, 桶的数量都使用质数。
概念:如果当一个元素被插入时与一个已经插入的元素散列到相同的值, 那么就会产生冲突, 这个冲突需要消除。 解决这种冲突的方法有几种:本章介绍两种方法:分离链接法和开放定址法 1.分离链接法 其做法就是将散列到同一个值得所有元素保留到一个表中。我们可以使用标准库的实现方法。 为执行一次查找,我们使用散列函数来确定是那一个链表, 然后我们在被确定的链表中执行一次查找。 = 0) return true; else return false; } /* * 对分离链接散列表和探测散列表的在散列 hash.insert("SanZi"); System.out.println(hash.contains("Tom")); } } 2.开放定址法 不用链表的散列表
h(75)=75%13=13 h(43)=43%13=4 h(90)=90%13=12 根据散列地址把元素存储到长度为m的散列表中,假定该散列表用数组a表示,则得到的数组a中的内容为 4、平方取中法 平方取中法是取关键字平方的中间几位作为散列地址的方法,具体取多少位视实际要求而定。一个数平方后的中间几位和原数据中的每一位都有关。 它的缺点是不能探查到散列表上的所有单元,但至少能探查到一半单元(证明从略)。例如,当d0=5,m=17时,只能探查到单元地址依次为5、6、9、14、4、13、7、3、1的单元,而不能探查到剩余的单元。 (4)数据中元素之间的原有逻辑关系无法在散列表中体现出来,所以散列表只适合存储集合数据,不适合存储带有逻辑结构的线性表、树和图等数据结构。 4、对散列表的插入、删除和查找算法 (1)向散列表中插入元素的算法 向散列表中插入一个关键字为thekey的新元素obj,若当前散列表中不存在该元素,则插入后表示散列表元素个数的对象n增1
概念 散列的概念属于查找,它不以关键字的比较为基本操作,采用直接寻址技术。在理想情况下,查找的期望时间为O(1)。 hash函数就是把任意长的输入字符串变化成固定长的输出字符串的一种函数。 散列(Hashing)通过散列函数将要检索的项与索引(散列,散列值)关联起来,生成一种便于搜索的数据结构(散列表)。 应用 目前应用最为广泛的hash函数是SHA-1和MD5,大多是128位和更长。 (1)散列函数的计算简单,快速; (2)散列函数能将关键字集合K均匀地分布在地址集{0,1,…,m-1}上,使冲突最小。 通过平方扩大差别,另外中间几位与乘数的每一位相关,由此产生的散列地址较为均匀。这是一种较常用的构造哈希函数的方法。 (4)除留余数法: 取关键字被数p除后所得余数为哈希地址:H(key) = key MOD p (p ≤ m)。 注意:这是一种最简单,也最常用的构造哈希函数的方法。
哈希的概念 哈希(hash)⼜称散列,是⼀种组织数据的⽅式。从译名来看,有散乱排列的意思。 当使⽤除法散列法时,建议M取不太接近2的整数次冥的⼀个质数(素数) 1.4.2 乘法散列法 1. 这种情况是可以存在的,只要散列函数是公开且确定的,就可以实现此攻击。解决⽅法⾃然是⻅招拆招,给散列函数增加随机性,攻击者就⽆法找出确定可以导致最坏情况的数据。这种⽅法叫做全域散列 2. 需要注意的是每次初始化哈希表时,随机选取全域散列函数组中的⼀个散列函数使⽤,后续增删查改都固定使⽤这个散列函数,否则每次哈希都是随机选⼀个散列函数,那么插⼊是⼀个散列函数,查找⼜是另⼀个散列函数,就会导致找不到插 双重散列 1.
线性探测再散列 例如 哈希函数为: H(key) = key %13,key 为关键字,采用开放地址法中的线性探测再散列解决冲突,依次输入 11 个关键字,16,74,60,43,54,90,46, 二次探测再散列 例如 哈希函数为: H(key) = key %13,key 为关键字,采用开放地址法中的二次探测再散列解决冲突,依次输入 10 个关键字,36,21,45,17,29,55,35, 61,40,78,构造哈希表 image.png 对于29%13=3,将29放入3号位置, 55%13=3,此时3号位置已经有元素, 则查找 3 + 1^2 = 4,有元素 查找 3 - 1^2 =
散列运算具有4个特点: 1. 散列运算是不可逆的,可以将散列运算理解为单向的加密:根据原消息经过散列运算可以得到摘要(密文);但是根据摘要,无法推导出原消息。 2. 摘要的长度根据散列算法的不同而不同,如64位或128位等。 4. 散列运算可以接受字节数组,因此像MD5这样的算法,可以对任何数据进行散列运算并获取摘要,而不仅仅限于字符串形式的用户密码。 除了MD5以外,还有很多种其他的散列算法,比如MD4、SHA1(Secure Hash Algorithm,安全哈希算法)等。 进行散列运算,得到摘要后一起发送给接收方。 4. 接收方知道密钥机制,它在收到篡改过的消息"Hi world!" 散列运算具有4个特点 散列算法保证了消息的完整性 散列算法与密钥散列算法 .Net中对散列运算支持
Table of Content hash概念 hash冲突 构造hash散列 hash的应用 hash概念 hash散列是在记录的存储位置与他的关键字之间建立的对应关系f, 使得每个key都对应一个存储位置 这个hash函数也被称为hash table address = f(key) hash散列是一种查找的存储技术. hash冲突 每一个key对应一个address, 当key1 ! = key2, f(key1) == f(key2),这种情况被称为hash冲突(collision) 构造hash散列 hash的应用 cryptography, compression, checksum
那么关键字对应的记录存储位置,我们称为散列地址。 2.散列表查找步骤 (1)在存储时,通过散列函数计算记录的散列地址,并按此散列地址存储该记录。 (4)折叠法 折叠法是将关键字从左到右分割成位数相等的几部分(注意最后一部分位数不够时可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。 4.处理散列冲突的方法 (1)开放定址法 所谓的开放定址法就是一旦发生了冲突,就去寻找下一个空的散列地址,只要散列表足够大,空的散列地址总能找到,并将记录存入。 链地址法对于可能会造成很多冲突的散列函数来说,提供了绝不会出现找不到地址的保障。当然,这也就带来了查找时需要遍历单链表的性能损耗。 (4)公共溢出去法 这个方法其实就更加好理解,你不是冲突吗? :" + location4); } } 输出结果 1所在的位置:1 2所在的位置:2 3所在的位置:3 4所在的位置:4 6.复杂度分析 单纯论查找复杂度,对于无冲突的hash表而言,查找复杂度为
散列值的长度跟消息的长度无关,不论多少大小的长度的消息,都会计算出固定长度的散列值。 单向散列函数的性质 单向散列函数具有下面几个特性: 能够根据任意长度的消息计算出固定长度的散列值。 消息不同,散列值也不同。 这就意味着,如果仅仅是一点点的变动都会引起整个散列值的巨大变化。 因为散列值的大小是固定的,所以有可能会出现不同的消息产生相同散列值的情况。这种情况叫做碰撞。 当给定某条消息的散列值时,必须保证很难找到和该消息具有相同散列值的另一条消息。 单向散列函数必须具有单向性。所谓单向性是指无法通过散列值来反推出消息的性质。 单向散列函数的实现 单向散列函数有很多实现方式,你甚至可以自己写一个。常见的如MD4,MD5, MD(Message Digest)是消息摘要的缩写。 MD4和MD5是由Rivest在1990年设计的,现在已经不再安全了。 SHA-1 是由NIST设计的一种能够产生160比特散列值的单向散列函数。现在已经不推荐使用。
哈希也叫做散列,是一种映射,把值和值进行一对一或者一对多关联。 哈希表:使用哈希思想实现的数据结构。一般都是将值和存储位置建立映射关系。 解决哈希冲 闭散列 闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。 删除: 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。 其中:i =1,2,3…, H_0 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小。 开散列 开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中
在此称该函数H为哈函数或散列函数。按这种方法建立的表称为哈希表或散列表。 =1,2,3,…, m-1,称线性探测再散列; 2.di=1^2, -1^2, 2^2,-2^2, 3^2, …, ±(k)^2,(k<=m/2)称二次探测再散列; 3.di=伪随机数序列,称伪随机探测再散列 再散列法:Hi=RHi(key), i=1,2,…,k. 用二次探测再散列法解决冲突: 1:(key+1^2)%11=(49+1)%11=6,仍然发生冲突. 2:(key-1^2)%11=(49-1)%11=4,仍然发生冲突. 3:(key+2^2)%11 =(49+4)%11=9,不再发生冲突.
给定一系列整型关键字和素数P,用除留余数法定义的散列函数将关键字映射到长度为P的散列表中。用线性探测法解决冲突。 输入格式: 输入第一行首先给出两个正整数N(≤1000)和P(≥N的最小素数),分别为待插入的关键字总数、以及散列表的长度。第二行给出N个整型关键字。数字间以空格分隔。 输出格式: 在一行内输出每个整型关键字在散列表中的位置。数字间以空格分隔,但行末尾不得有多余空格。 输入样例: 4 5 24 15 61 88 输出样例: 4 0 1 3 线性探测法就是冲突了就后移一位。。
一、哈希函数/散列算法文档 1.1、哈希函数介绍 哈希函数(Hash function),又称散列函数、散列算法,它是一种不可逆的信息摘要算法,具体实现就是把任意长度的输入信息通过哈希算法变成固定长度的输出信息 1.3、哈希函数的特点 哈希函数没有特定的公式,一般只要符合散列算法的要求即可,只要符合散列算法的要求都可以称之为哈希算法,以下为哈希函数的主要特点: 无论输入的消息有多长,计算出来的哈希值总是固定的; 通常情况下,不同的需求使用不同安全系数的散列算法,常见的安全哈希算法分类为:MD算法、SHA算法、MAC算法。 MD2算法:它已被弃用,取而代之的是SHA-256和其他强大的散列算法; MD4算法:虽然安全性已受到严重威胁,但是很多哈希算法如MD、SHA算法等都是基于MD4演进而来; MD5算法:可以被破解,对于需要高度安全性的使用场景 因为MAC算法融合了密钥散列函数(keyed-Hash),通常我们也把MAC算法称为HMAC(Keyed-Hash Message Authentication Code)。