博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
非参数估计——Parzen窗与k近邻估计
阅读量:5169 次
发布时间:2019-06-13

本文共 2307 字,大约阅读时间需要 7 分钟。

       在做分类问题时,有时候需要使用样本的概率密度函数来求其后验概率。但是很多情况下并不知道其概率密度函数的形式(即样本的分布未知),此时就需要对样本进行非参数估计,来求解其概率密度函数。

       求解未知分布样本的概率密度函数的一种方法是:\(n\)个样本点中,在某点周围取一个区间\(R_{n}\),计算区间\(R_{n}\)的体积\(V_{n}\)以及落在\(R_{n}\)中的样本的个数\(k_{n}\),然后就可以求出该点处的概率密度:

\[p(\boldsymbol{x})=\frac{(k_{n}/n)}{V_{n}}\quad \quad \quad(1)\]

       Parzen窗方法就是一种非参数估计的方法,它的主要思想是选取一个窗函数\(\varphi(\boldsymbol{u})\),通过该窗函数来统计落在所取区间中的样本个数\(k_{n}\),然后通过公式(1)得到某个点的概率密度。一种窗函数\(\varphi(\boldsymbol{u})\)定义如下:

\[\varphi(\boldsymbol{u})= \begin{cases} \\ 1 \qquad |u_{j}| \leq 0.5; \qquad j = 1,...,d \\\\\\\\ \\ 0 \qquad 其它 \end{cases}\]

其中\(d\)表示空间的维度。若取区间\(R_{n}\)为一个超立方体,它的边长为\(h_{n}\),则可以通过如下表达式计算\(k_{n}\)

\[k_{n} = \sum _{i=1} ^{n}\varphi(\frac {\boldsymbol{x}- \boldsymbol{x_{i}}}{h_{n}})\]

因此样本中某点\(\boldsymbol{x}\)处的概率密度为:

\[p(\boldsymbol{x}) = \frac{1}{n} \sum _{i=1} ^{n} \frac{1}{h^d _{n}} \varphi(\frac {\boldsymbol{x}- \boldsymbol{x_{i}}}{h_{n}})\]

       Parzen窗方法的代码实现如下,其中参数\(Data\)为样本总体,\(X\)为需要求概率密度的点坐标,\(h\)为参数,\(d\)为样本空间的维度,\(f\)为窗函数\(\varphi(\boldsymbol{u})\)

def Parzen(Data, X, h, d, f) :    Prob = []    n = len(Data)    for x in X :        p = 0.0        for s in Data :            p += f((s-x)/h)        Prob.append(p / (n * (h**d)))    return np.array(Prob)

如下代码是上述\(\varphi(\boldsymbol{u})\)函数的实现,即判断当前样本点是否落在了所取的超立方体空间中:

def cube(u) :    T = abs(u)    if all(t <= 0.5 for t in T) :        return 1    else :        return 0

       窗函数\(\varphi(\boldsymbol{u})\)的形式可以有很多方式,但必须满足如下的性质,以此保证最终求解的概率密度函数是合理的。

\[\varphi(\boldsymbol{u}) \geq 0 \quad 以及 \quad \int \varphi(\boldsymbol{u})d\boldsymbol{u} = 1\]

例如当样本空间为一维时,我们可以也定义窗函数是一个高斯函数:

\[\varphi(\boldsymbol{u})= \frac{1}{\sqrt{2 \pi}} e^{-u^{2}/2}\]

       Parzen窗方法是给定区间的范围\(h_{n}\),求落在区间的样本点个数\(k_{n}\),以此估计概率密度。除了Parzen窗方法外,k近邻估计也可以实现对概率密度函数的估计,与Parzen窗方法不同的是,k近邻估计是先给定要取的样本点的个数\(k_{n}\),然后求点\(\boldsymbol{x}\)附近包含\(k_{n}\)个样本的区间的范围\(h_{n}\),最后通过公式(1)求解概率密度。如下是k近邻估计的实现代码,其中参数\(f\)为求解两个点直接距离的函数。

def knn(Data, X, kn, d, f) :    t = kn / len(Data)    Prob = []    for x in X :        dis = []        for s in Data :            dis.append(f(x,s))        dis.sort()        v = (dis[kn] * 2) ** d        Prob.append(t/v)    return np.array(Prob)

        下图是通过Parzen窗方法和k近邻估计对某个样本(二维正态分布样本随机采样获得)概率密度函数的估计结果。

nonparam

以上两种非参数估计的Python实现可以在我的中获取到。


1.参考文档:

       [1]. 模式分类              Richard O.Duda 等著       李宏东 等译

转载于:https://www.cnblogs.com/alants/p/10552242.html

你可能感兴趣的文章
Struts 2 常用技术
查看>>
树形DP
查看>>
python flask解决上传下载的问题
查看>>
语法测试
查看>>
CES1
查看>>
CES2
查看>>
文件方式实现完整的英文词频统计实例
查看>>
ListControl的用法
查看>>
单个SWF文件loading加载详解(转)
查看>>
SQLServer中的CTE通用表表达式
查看>>
linux第1天 fork exec 守护进程
查看>>
Ajax原理学习
查看>>
最新最潮的24段魔尺立体几何玩法(2016版)
查看>>
C# 3.0 LINQ的准备工作
查看>>
CodeForces - 449D Jzzhu and Numbers
查看>>
mysql批量插入更新操作
查看>>
静态代码审查工具FxCop插件开发(c#)
查看>>
创建代码仓库
查看>>
理解裸机部署过程ironic
查看>>
Django 组件-ModelForm
查看>>