作者:Ai酱
这个方法为什么叫这个名字?如果是我们自己做我会怎么设计?为什么提出者能想到这个想法?一直问为什么来找方向,自己去尝试解释为什么
通过问这三个问题让我们看到一个概念时候就方向感,知道从哪入手。万事开头难。我用这几个问题问自己悟出这个回答:计算机生态圈是怎么样的?。
就拿香农的《信息熵= 》来讲。是不是完全不懂“信息熵”是什么?怎么学?从哪学?查定义也似懂非懂。这个难度绝对是超过很多概念的难度。这个你都会其他的那就容易了。
这个方法为什么叫这个名字?如果是我们自己做我会怎么设计?为什么提出者能想到这个想法?通过这3问我有把握让你几分钟内理解它。
- [步骤1]为何叫这个名字?
信息这个能理解。熵是什么(找到一个方向了)查资料发现是衡量混乱度的一个数值。现在我们知道了它是衡量信息混乱程度的一个数字。新的问题方向来了,什么是混乱程度?你走在路上你发现前面一堆人在乱走,这叫做混乱。你走在路上,你发现大家都成一条队伍走,这叫做不混乱。那么究竟是什么让你感觉混乱呢?答:是不确定性。我不确定我前面有没有人挡我路,不确定我下一步一定走哪才不会撞人。
再举个例子:
10个球,5个红球5个白球。把它们放到口袋里面。我摸一个球,能确定是红还是白吗?答:不确定。这叫做混乱(又有红色又有白色)
10个球,10个红球0个白球。把它们放到口袋里面。我摸一个球,能确定是红还是白嘛?答:能确定。这叫做不混乱(都是红色的,都没有杂质怎么叫做混乱?)
- [步骤2]如果我们自己做我会怎么设计一种计算方法衡量混乱程度?
还是哪红白球举例子:
10个球,5红5白,5*5=25(混乱)
... ...
10个球,8红2白,8*2=16
10个球,9红1白,9*1=9。
10个球,10红0白,10*0=0。(不混乱)
你会发现,这不就是小学学的。两个数加起来相同的时候,两个数差值越大乘起来越小。两种不同物质的数量比例越均等,那么越混乱。
然后我们可不可以把各个部分的比例用相乘的得到一个数值,用这个数值来衡量混乱程度?因为各个部分的比例之和肯定是1,这是一个固定的数。比例越均等,乘起来越大(5*5=25那么例子),越混乱。
然后你看看信息熵那个公式, 。
何等的微妙。就是我们自己想出来的设计连乘。
那么新的问题方向来了?为何香农不直接用连乘,还要加个log?
我们还是用自己的解释,应该是连乘求导不方便.f(x)g(x)h(x)
,对他们求导。还得用乘法求导法则展开。f'(x)g(x)h(x)+f(x)g'(x)h(x)...
。然后加个对数让它就可以把乘法变成加法。
。
就这个提出一个为什么然后尝试去解释它
输入是什么?输出是什么?评价标准是什么?
拿机器学习和神经网络举例。这些算法千千万,但是无一例额外的都逃不过下面这四步。按照这四步分析和学习机器学习就能看透算法的本质。当然它也可以拓展到其他领域,我想本质的东西是通用的。这个讲起来就复杂了,我今天弄了个知识分享,免费性质的《看本质,从算法发明者的角度让你醍醐灌顶的快速入门机器学习》(平台要求满60人才能写文章)。
- 输入是什么,输出是什么?
- 能用哪个模型套上去。
- 模型有哪些要我们设定的参数。
- 怎么评估参数设定的好不好。
- 怎么求解最优的参数。