例如,预测其需求。另一方面,分类器将输入空间映射到预定义的类别中。例如,分类器可以用来将抵押贷款消费者分为好消费者(按时全额偿还抵押贷款)和坏消费者(延迟偿还)。
分类器有很多表示方法策树、概率摘要、代数函数等。与回归和概率估计一样,分类是研究最多的模型之一,也可能是最具实际意义的模型之一。分类技术的进步具有巨大的潜在效益,因为这项技术对数据挖掘及其应用等其他领域都产生了巨大的影响。
分类
分类 是将观测值分配到离 手机号数据库列表 散类别中,而不是估计连续的数量。最简单的情况是,有两个可能的类别;这种情况称为 二元分类。许多重要的问题都可以用二元分类来表达。例如,某个客户会离开我们,转而选择竞争对手吗?
某个病人是否患有癌症?一张给定的图片中是否包含热狗?执行二元分类的算法尤为重要,因为许多用于执行更通用的分类(其中存在任意标签)的算法只是一堆二元分类器协同工作而已。
例如,手写识别问题的一个简单解决方案是简单地训练一组二元分类器:0 检测器、1 检测器、2 检测器等等,它们输出图像属于相应数字的确定性。分类器只输出确定性最高的数字。
一些最常用的分类算法
- K—最近邻
- 决策树
- 朴素贝叶斯
- 支持向量机
在学习步骤中,分类模型通 层收集有关负面评论最常见原因的重要 过分析训练集来构建分类器。在分类步骤中,预测给定数据的类标签。待分析的其相关的类标签被分成训练集和测试集。
构成训练集的各个元组是从待分析数据集中随机抽取的。其余元组构成测试集,并且与训练元组无关,这意味着它们不会用于构建分类器。
测试集用于评估分类器的预测准确率。分类器的准确率是指被分类器正确分类的测试元组的百分比。为了获得更高的准确率 线数据库,最好的方法是测试不同的算法,并尝试每种算法中的不同参数。可以通过交佳算法。
为了为问题选择一个好的算法,必须考虑不同算法的准确性、训练时间、线性、参数数量和特殊情况等参数。
K最近邻:
如果一个算法只是存储训练集的元组,并等待测试元组出现,那么我们就称其为 惰性学习器 。只有当它看到测试元组时,才会根据其与存储的训练元组的相似性进行泛化