6-随机近似与随机梯度下降

6-随机近似与随机梯度下降

Mean estimation 首先有一个随机集合X,希望求这个集合的期望

Mean estimation

image-20231222093455329

  • 首先有一个随机集合X,希望求这个集合的期望

  • 对集合中进行随机采样

  • 根据求平均的方法求出来他的期望

image-20231222093758467

方法一是指等全部采样完成之后,再进行一个mean的计算,这样做的问题是在于要等待采样结束,需要很长的时间

方法二则是每次采样结束都进行一个mean的计算,然后进行迭代,这样的效率会更高

image-20231222094121700

这里的目的是为了建立起Wk与Wk+1之间的关系

image-20231222094332078

这是一个求平均式的迭代式的算法,也就是上面的方法二,这样就不需要等到采样全部完成再进行求平均数

image-20231222094442883

而且每一次求出Wk都会用到其他任务中去,虽然最开始的Wk和真实值的关系不是很大,但是随着数据的增加,就会越来越接近真实值

image-20231222094629696

Robbins-Monro 算法

Stochastic approximation(SA)

image-20231222094849122

SA可以不需要直到方程的表达式等信息,依然可以进行求解

Robbins-Monro 算法

image-20231222095013080

随机梯度下降与mean estimation 算法都是属于特殊的RM算法

image-20231222095143368

对于最优化问题,通常是找到函数的极值,也就是函数的梯度(暂时理解为斜率)等于0的情况,则是一个函数达到最大或者最小的必要条件

image-20231222095332026

如何求解这个梯度等于0的情况?

当知道表达式的时候,可以用一些特定的算法进行梯度的计算

如果什么都不知道的情况下怎么计算呢?

类比于神经网络

算法说明

image-20231222095553123

Wk是第k次的估计,而Wk+1是第k+1次的估计,这个估计就等于了Wk减去了一个ak g(Wk,nk),实际上这个g(Wk,nk)就是一个带有噪音的梯度

image-20231222095810433

这里的梯度实际上就是一个黑箱

中心思想始终还是,没有模型的话,我们就得使用数据,这里的模型实际上就是表达式

收敛性分析

image-20231222131414360

image-20231222131429226

image-20231222133038027

Wk+1始终比Wk距离W*更近

image-20231222133305636

image-20231222133456695

条件一:g必须是有界的,且g需要是单调递增的,才能表明g有一个零点

image-20231222133741962

image-20231222133938609

条件二

image-20231222134023867

当右边趋向于0的时候,坐标也就是趋向于0的,也就是趋向于收敛的

image-20231222134117804

image-20231222134335140

image-20231222134424817

应用

image-20231222134514608

image-20231222145710203

Stochastic gradient descent(SGD)

算法描述

image-20231222145958558

通过优化W,让J(W)达到最小就是SGD的目的

方法一(梯度下降)

image-20231222150420545

最小化一个函数的方法是梯度下降,如果想要最大化一个函数,需要使用梯度上升

方法二(批量梯度下降)

image-20231222151838982

每一次去采样Wk的时候都要采样N次,还是很困难

方法三(随机梯度下降)

image-20231222151937756

相当于直接采样一次的批量梯度下降,只用采样一次的Wk来进行梯度下降

例子与收敛性

例子

image-20231222152237170

这个地方相当于E[f(w,x)]中的fx是w到X之间的距离

image-20231222152620221

问题一:为什么最优解W*是等于E[X]?

J(w)要达到最小值,相当于对它求梯度,要等于0

则相当于E[w-x]=0,则w=E[x]

image-20231222153006458

收敛性

image-20231222153210478

相当于只用一个随机采样的值取替代一个期望

收敛过程中的行为

image-20231222153918756

image-20231222154023219

image-20231222154107449

虽然平均值的初始估计值离真实值很远,但SGD估计值可以快速接近真实值的邻域。

当估计值接近真实值时,它表现出一定的随机性,但仍逐渐接近真实值。

问题

MBGD,BGD,SGD

image-20231222154659464

BGD就是对一个分支全部采样完,然后再求E

MBGD就是选取部分采样后,求E

SGD就是只采样一次,求E

image-20231222154845766

  • MBGD与BGD和SGD的比较:与SGD相比,MBGD的随机性更小,因为它使用了更多的样本,而不是SGD中的一个样本。

  • 与BGD相比,MBGD不需要在每次迭代中使用所有的样本,使其更加灵活和高效。

  • m = 1时,MBGD变为SGD。

  • 如果m = n,严格来说MBGD不成为BGD,因为MBGD使用随机获取的n个样本,而BGD使用所有n个数字。特别是,MBGD可能多次使用{xi}=1中的值,而BGD只使用每个数字一次。

例子

image-20231222155029978

image-20231222155101549

image-20231222155137906

总结


Comment