很简单的一个问题,当softmax的变量过大或过小怎么办,比如
softmax([100,101,102])的结果是什么?
有一个方法计算上溢的情况,也就是每个变量都减去最大值,然后做softmax,
所以softmax([100,101,102])和softmax([-2,-1,0])是一样的结果;同样也适用于softmax([-100,-101,-102])的情况
还有一种方法是直接用log softmax
很简单的一个问题,当softmax的变量过大或过小怎么办,比如
softmax([100,101,102])的结果是什么?
有一个方法计算上溢的情况,也就是每个变量都减去最大值,然后做softmax,
所以softmax([100,101,102])和softmax([-2,-1,0])是一样的结果;同样也适用于softmax([-100,-101,-102])的情况
还有一种方法是直接用log softmax