`

不平衡分类以及生成模型和判别模型

阅读更多

不平衡分类:

把一个好的电子邮件分成垃圾电子邮件或者垃圾电子邮件分成好的电子邮件,通常前者要严重的多,故要对前者做惩罚。

分来有四种情况:(只考虑正例)

1. GG-把好的分成好的

2. GB-把好的分成坏的

3. BG-把坏的分成好的

4. BB-把坏的分成坏的

 

precision = GG/BG+GG

recall = GG/GG+GB

这个时候,一般倾向于调高precisionprecisionrecall 也是一个trade-off。

 

在文本分类中:p(class|content)

判别模型:会对每一个类学习一个模型,然后选择一个似然概率最大的类作为预测结果

生成模型:从历史文本中学习出一个模型,对于content,根据特征判断属于哪一类

 

生成模型(Generative Models)和判别模型(Discriminative Models)的区别.

对于分类和聚类问题而言.

①判别模型只关心类的决定边界在哪里;生成模型关心的是类本身而非决定边界.

②判别模型只能判定数据点属于哪个类别,无法将过程描述出来;生成模型可以将过程描述.

③生成模型可以得到判别模型;判别模型推不出生成模型.

④判别模型估计的是条件概率分布(Conditional distribution);生成模型估计的是联合概率分布(Joint probability distribution)

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics