贝叶斯优化

 1、bayesian-optimization 理论+实践

http://krasserm.github.io/2018/03/21/bayesian-optimization/

高斯过程回归 Gauss Process Regression

1、高斯过程 随机过程 高斯过程回归

https://blog.csdn.net/slx_share/article/details/83573339

2、浅谈高斯过程回归

https://www.cnblogs.com/hxsyl/p/5229746.html

3、Gaussian Processes for Machine Learning

http://www.gaussianprocess.org/gpml/

 

高斯过程

1、高斯过程 随机过程 高斯过程回归

https://blog.csdn.net/slx_share/article/details/83573339

 

 

 

核函数、高斯核函数

1、自己写的笔记

2、核函数&径向基核函数 (Radial Basis Function)--RBF

https://blog.csdn.net/huang1024rui/article/details/51510611

3、统计学习方法

4、高斯核函数

https://blog.csdn.net/wuyanxue/article/details/79642758

要点:高斯核函数是两个向量欧式距离的单调函数。

即,在不进行核函数映射时,通过计算欧式距离可以计算两个向量的距离,也可称相似性。映射到高微后,向量在高维的相对距离是不变的。

即A,B欧式距离比A,C更近,核函数会保持这种性质,但是距离实际值的差异会变化。

5、高斯核函数

径向基函数:
k(x,x') = exp(-σ * square( || x-x' || ) ) ;σ>0
介于0-1之间,是一种相似性度量。
线性度量是: 欧氏距离。
https://blog.csdn.net/wuyanxue/article/details/79642758
两点重合时为1,越远越为0。
距离衰减的非常快,由超参σ确定。

并且,σ越大,那么高斯核函数的局部影响范围就会越大。

σ越小,距离衰减越快! σ可以近似认为高斯的标准差。“所以实际上(数值上近似一下)相当于一个低维的子空间;”

 

在SVM中,我们的w可以表示为如下:

贝叶斯优化 高斯过程 核函数-保持愤怒

其中α参数由训练时求得。所以,对于新点 x的预测,只需要计算它与训练数据点的内积即可。

而所有非Supporting Vector所对应的系数贝叶斯优化 高斯过程 核函数-保持愤怒都是等于零的,因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

原始核是线性的核,<xi,x> = xi * x 。所以,整体计算完,其维度是x_dim维度的线性加权,再求和。

而对于,高斯核的映射函数,是一个无限映射,而高斯核是极限情况下的结果。所说是无限维度,但是受超参σ影响,当σ固定时,数值大小是一定的,会在某程度衰减到作用非常小。从数值意义上,其实差别不大。

比如:等差数列,1, 1/100, 1/10000,1/1000000 无限等比数列,其前4项值已经极大意义上代表了极限值。

注意有时候会说σ越大衰减越慢,是因为有些在表达高斯核时,σ参数放在了分母上。

 

.T 转置

y = x.T *

函数映射:

y = ϕ(x).T * ϕ(z)

对于多项式核:ϕ  = square(x1 + x2 + x3)

“高斯核函数通过泰勒展开可以被描述成ϕ(x).T * ϕ(x′)的形式,而ϕ(x)是无穷维的。”

贝叶斯优化 高斯过程 核函数-保持愤怒

 

贝叶斯优化 高斯过程 核函数-保持愤怒
贝叶斯优化 高斯过程 核函数-保持愤怒

由上图理解,高斯核定义了一个相似度,或者说是距离度量。

每一个样本点都可以定义一个以改点为中心的多元高斯,距离中心近的越接近1,越远的接近于0。

均值即该样本点,方差是超参。方差越大,距离缩减的越慢,越小缩减的越快。

从这个视角看,有多少样本就可以建立多少维度的坐标轴。

如果方差设置的足够小,在该样本维度上,则该样本点为1,其他样本点为0。则必然线性可分。