完美的聚类显然是应该把各种不同的图形放入一类,事实上很难找到完美的聚类方法,各种方法在实际中难免有偏差,所以我们才需要对聚类算法进行评价看聚类效果如何。
法一:purity
purity方法是极为简单的一种聚类评价方法,只需计算正确聚类的文档数占总文档数的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚类的集合ωK表示第k个聚类的集合。C = {c1, c2, . . . , cJ}是文档集合,cJ表示第J个文档,N表示文档总数。
优点是方便计算,值在0~1之间,完全错误的聚类方法值为0,完全正确的方法值为1。同时,purity方法的缺点也很明显它无法对退化的聚类方法给出正确的评价,设想如果聚类算法把每篇文档单独聚成一类,那么算法认为所有文档都被正确分类,那么purity值为1!而这显然不是想要的结果。
法二:RI
实际上这是一种用排列组合原理来对聚类进行评价的手段,公式如下:
其中TP是指被聚在一类的两个文档被正确分类了,TN是只不应该被聚在一类的两个文档被正确分开了,FP只不应该放在一类的文档被错误的放在了一类,FN只不应该分开的文档被错误的分开了。注意和分类的区别,这里是成对的概念。
法三:F值
这是基于上述RI方法衍生出的一个方法,
RI方法有个特点就是把准确率和召回率看得同等重要,事实上有时候我们可能需要某一特性更多一点,这时候就适合F值方法。
分享到:
相关推荐
包含外部有效性指标和内部有效性指标,Rand index、 Adjusted Rand index、 Mirkin index、Hubert indexSilhouette、 Davies-Bouldin、Calinski-Harabasz、Krzanowski-Lai、Hartigan、weighted inter- to intra-...
6种聚类评价指标ppt+代码 凑够20字、、、、、、、、、、
聚类评价指标的各种说明,非常详细,请仔细阅读。
c++实现的D,CH,I,S,SSE聚类评价指标。自己在用,希望对大家有帮助。有不足之处请多多包涵,附有参考文献和说明。
为判断聚类结果质量的好坏,需要一个客观的评价指标来评价聚类结果的合理性。聚类性能评价方法通常分为三种:外部评价法,内部评价法,相对评价法。外部评价法将聚类结果得到类标签和已知类标签进行比较,此评价法的...
常用内部(Sil,CH,DBI,KL)、外部评价指标(Rand等4个),用自带样本集“leuk72_3k.txt”测试可用!
K-means聚类算法也称k均值聚类算法,是集简单和经典...它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
关于层次聚类的评价指标
聚类评价指标之轮廓系数C++源码附详细注释,适用于相关算法研发人员按照源码及注释对其原理进行深入理解和掌握,另外也可调用进行相关的配置参数调试
大数据-算法-方差优化初始聚类中心的Kmed省略ids算法及外部聚类评价指标研究.pdf
聚类评价指标之CH指数_方差比C++源码附详细注释,适用于相关算法研发人员按照源码及注释对其原理进行深入理解和掌握,另外也可调用进行相关的配置参数调试
代码包含三个聚类分析常用的外部评价指标:调整兰德指数(ARI),标准化互信息(NMI),准确度(AC)。
这个包里包含了两个函数,是NMI指标的两种实现方式,nmi_saveTime函数运用了矩阵运算,有效节省了计算时间,可用于数据量大的时候对聚类或者分类算法结果进行评价
聚类算法评价指标
为验证在聚类分析的聚类结果,重要的是要使用一些客观评价聚类质量的指标。本matlab工具箱提供4个外部效度指标和8个内部效度指标: Rand index, Adjusted Rand index, Silhouette, Calinski-Harabasz, Davies-Bouldin,...
Python使用技巧,机器学习基本原理分享,源码参考。 Python使用技巧,机器学习基本原理分享,源码参考。Python使用技巧,机器学习基本原理分享,源码参考。Python使用技巧,机器学习基本原理分享,源码参考。...
包括聚类算法Kmeans Kmedoids FCM GK GG,聚类评价方法,聚类降维可视化方法。 其中,说明文档我做了书签,便于大家阅读。 PS:本来没打算索要资源分,因为是人家开源发布的东西。但是,上传资源的时候点选了资源分...
为了更好地评价无监督聚类算法的聚类质量,解决因簇中心重叠而导致的聚类评价结果失效等问题,对常用聚类评价指标进行了分析,提出一个新的内部评价指标,将簇间邻近边界点的最小距离平方和与簇内样本个数的乘积作为...