分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error).

Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

对于 SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减 少这些样本对分类结果没有影响。

分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连 续数值。

聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型 (或函数),以便能够使用模型预测类标记未知的对象类

具有较高的支持度的项集具有较高的置信度。

如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其 中 是 X 的子集。

先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频 繁的。

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数 。

关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。