谱聚类

April 10, 2014

谱聚类算法简介

谱聚类算法是建立在图论基础上的,与传统算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。其本质是将聚类问题转化为图的最优划分问题,找到一种图分割方法使得链接不同组的边的权重尽可能的低(组间相似度尽可能低), 组内的边权重尽可能的高(组内相速度尽可能高),以达到聚类的目的。

算法步骤

来自百度百科 谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V, E),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。

虽然根据不同的准则函数及谱映射方法,谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归纳为下面三个主要步骤:

1) 构建表示对象集的相似度矩阵W;

2) 通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间;

3) 利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。

上面的步骤只是谱聚类算法的一个总体框架,由于划分准则、相似度矩阵计算方法等因素的差别,具体的算法实现同样会有所差别,但其本质依然是图划分问题的连续放松形式。

[拉普拉斯矩阵](http://baike.baidu.com/view/10667256.htm

Apache上部署Django Web

将Django部署在Apache上的步骤和配置。 Continue reading

Django静态文件、文件上传与apache部署

Published on October 22, 2014

CRF原理及wapiti使用

Published on May 10, 2014