算法介绍（直接寻址表、hash，MD5，贪心算法、动态规划）

算法介绍（直接寻址表、hash，MD5，贪心算法、动态规划）
直接寻址表
- 直接寻址表，定义了一个所有关键字的域集合U，根据这个U生成一个包含所有域值的列表T
- 直接寻址技术优点：
  - 当数据量较小时，相对简单有效
- 直接寻址技术缺点：
  - 当U很大时，建立列表T，所消耗的内存空间非常大
  - 如果U非常大，而实际出现的key非常少，这样就对空间造成了极大的浪费
  - 当关键字key不是数字的时候就无法处理了
hash（哈希）
- 基本概念：hash，也称作散列、杂凑或者哈希，是一种线性表的存储结构。哈希表由一个直接寻址表和一个哈希函数组成，哈希函数h（）将元素的关键字k处理得到唯一的存储元素的位置信息。能把任意长度的输入，通过hash算法转化为固定长度的输出，是一种压缩映射。最大的特点就是从无法从结果推算出输入内容，所以称之为不可逆算法。本质上是通过哈希函数计算数据存储位置的数据结构。
- hash表示对直接寻址表的改进，具体的
  - 构建大小为m的寻址表T，[0,1,2,3,……,m-1]
  - 将关键字为k的元素，放置在T中的h（k）所指定的位置上
  - h() 是哈希函数，将U中的key映射到寻址表T中
- 哈希特性：
  - 过程不可逆，即拿到结果也不能反解出输入值是多少
  - 计算速度极快
- 哈希表存在的问题：
  - 哈希冲突
    
    由于关键字的数量是无限的，而hash创建的寻址表T是有限的，所以必定会出现存储位置冲突或重复，即当h（k）和h（k1）的值相同时，两个值的存储位置是冲突的。
    
    哈希冲突的解决方式：
    
    方式一：开放寻址法，如果哈希函数返回的位置已经有值，则继续向后探寻新的位置来存储这个值。而继续向下探寻位置的方法有
    
    线性探查，如果位置i被占用，则向下探查i+1,i+2 ……直至空位置
    
    二次探查，如果位置i被占用，则依次探查i+1^2，i+2^2……直至空位置
    
    二度哈希：有n个哈希函数，等使用第一个哈希函数h1，发生冲突时，依次尝试使用h2,h3……
    
    方式二：拉链法，哈希表每个位置都链接一个链表，当冲突发生时，冲突的元素被加到该位置链表后面
- 常见的哈希函数：
  - 除法哈希： h(k)=k%m
  - 乘法哈希：h(k) = floor(m*(A*key%1))
  - 全域哈希：h(k) = ((a*key+b) mod p) mod m a,b =1,2,……p-1
- hash表的基本操作：
  - insert(key,value) 插入键值对
  - get(key) 根据键取值
  - delete(key) 删除键值对
- 主要的应用方向：
  - python等语言的字典、集合等数据类型就是基于hash实现的
  - 密码，很多密码都是基于hash构造出来的
  - 可以用于检测文件的一致性
  - 用于数字签名
  - MD5，SHA-1，SHA-2
- hash表的简单实现（拉链法，单链表）
  - 1 """ 2 使用链表，实现hash。构建一个类似于集合的hash表 3 """ 4 class LinkList(object): 5 """ 6 对链表的进一步封装 7 """ 8 class Node(object): 9 """ 10 链表的节点类 11 """ 12 def __init__(self,item): 13 self.item = item 14 self.next = None 15 16 class LinkListIterator(object): 17 """ 18 将链表转为迭代器类 19 """ 20 def __init__(self,node): 21 self.node = node 22 23 def __next__(self): 24 if self.node: 25 cur_node = self.node 26 self.node = cur_node.next 27 return cur_node.item 28 else: 29 raise StopIteration 30 31 def __iter__(self): 32 return self 33 34 def __init__(self,iterable = None): 35 self.head = None 36 self.tail = None 37 if iterable: 38 self.extend(iterable) 39 40 def extend(self,iterable): 41 for obj in iterable: 42 self.append(obj) 43 44 def append(self,obj): 45 """ 46 使用尾插法，进行插入 47 :param obj: 48 :return: 49 """ 50 s = LinkList.Node(obj) # 链表节点创建 51 if not self.head: 52 self.head = s 53 self.tail = s 54 else: 55 self.tail.next = s 56 self.tail = s 57 58 def find(self,obj): 59 for val in self: 60 if val == obj: 61 return True 62 else: 63 return False 64 65 def __iter__(self): 66 return self.LinkListIterator(self.head) 67 68 def __repr__(self): 69 return "<<"+",".join(map(str,self)) +">>" 70 71 72 class HashTable(object): 73 """ 74 实现集合的部分功能，不可重复，可查询 75 """ 76 def __init__(self,size=101): 77 self.size = size 78 self.T = [LinkList() for _ in range(self.size)] # 创建寻址表 79 80 def h_func(self,k): 81 """ 82 哈希函数 83 :param k: 84 :return: 85 """ 86 return k%self.size 87 88 def find(self,k): 89 """ 90 根据给定的k值在现有的范围中查找是否存在 91 :param k: 92 :return: 93 """ 94 hash_num = self.h_func(k) # 获取给定数值的hash值 95 return self.T[hash_num].find(k) 96 97 98 def insert(self,k): 99 """ 100 实现插入前去重 101 :param k: 102 :return: 103 """ 104 if self.find(k): 105 print('element is exist') 106 else: 107 hash_num = self.h_func(k) # 获取插入的值的hash值 108 self.T[hash_num].append(k) 109 110 111 my_set = HashTable() 112 my_set.insert(1) 113 my_set.insert(2) 114 my_set.insert(102) 115 print(my_set.T) 116 print(my_set.find(2))
    
    View Code
- Python中hash的使用，通过调用hashlib模块实现
  - 通过hashlib调用不同的hash函数，实现不同数据的不同处理。
    
    实例化hash对象，hash_obj = hash.hash函数类型（），实例化过程中，可以通过添加参数，实现加盐操作
    
    常见的hash函数类型有md5，sha1，sha224，sha256，sha384，sha512等
    
    hash_obj.update( 处理内容 ) 注意，需要进行处理的内容必须是bytes类型
    
    hash_obj.digest() ，返回当前已处理内容的hash值（内容摘要），返回值二进制数据
    
    hash_obj.hexdigest()，返回当前已处理内容的hash值（内容摘要），返回值是十六进制数据
　　

MD5
- 曾是密码学中常用的hash函数
- 主要特点：
  - 同样的消息MD5相同
  - 可以快速计算出任意长度的消息的MD5
  - 除非暴力美剧，否则基本不能从哈希值反推出消息本身
  - 两条消息之间，即使是只有微笑差别，其MD5应该是完全不同，不相关的
  - 在有限时间内，无法人工构建出MD5值相同的两个不同的信息
- 应用举例：
  - 验证文件，例如是否是相同的文件，上传下载文件的完整性、云盘秒传等
SHA-1，SHA-2
- SHA-1和MD5都是曾经在密码学上经常用到的hash算法，但是目前，较为常用的是SHA-2
- SHA-2算法包含，SHA-224，SHA-256,SHA-384，SHA-512，SHA-512/224，SHA-512/256等算法，穷224,256,384与512代表的是哈希值的长度
贪心算法
- 贪心算法也叫做贪婪算法，基本思路是在求解过程中，只考虑当前步骤的最优选择，不从整体上进行考虑。贪心算法重点是放在了求解局部最优解，但是，很多情况下，贪心算法执行出来的结果也是整体上的最优解。
- 特点：解决的是部分最优化问题
- 实例：
  - 找零问题
  - 背包问题
  - 数字拼接问题
  - 活动选择问题
动态规划
- 动态规划关键点是找到关系到最优子结构的递推式，最优子结构
- 最优子结构，如果可以将最优解的规模为n的问题，划分为规模更小的最优解问题，这些子问题是独立求解的，通过组合子问题的最优解可以得到原整体问题的最优解，就可以称之为最优子结构。
- 动态规划特征
  - 最优子结构，最优解问题中，原问题的最优解中涉及到多个子问题
  - 重叠子问题
- 实例：
  - 钢条切割问题
  - 最长公共子序列
    
    子序列与子串，子序列是在某个序列中删除若干元素后得到的序列，与子串的区别是，子序列的元素在原序列中，不一定是相邻的，而子串的元素在原序列中一定是相邻的
    
    应用场景
    
    字符串相似度（模糊查询）
    
    内容相似比对
    
    基因测序等
　　
相关阅读:
团队项目-smart原则
 团队项目-作业管理系统
 团队模式和团队的开发模式是什么，它们有什么关系？
软件工作量的估计有哪些方法？
腾讯qq的发展史
 软件过程与项目管理（第二次作业）
有学生提到，在大学选课的时候，可以写一个“刷课机”的程序，利用学校选课系统的弱点或漏洞，帮助某些人选到某些课程。或者帮助用户刷购票网站，先买到火车票。这些软件合法么？符合道德规范么？是在“软件工程”的研究范围么？
mysql中explain的type的解释
 php 中类型转换 numfamat、round函数tips
python client端收不到server端构造的结构体数据
原文地址：https://www.cnblogs.com/jesse1/p/11057016.html