基于SVM的数据分类方法实现
[关键词:SVM,数据分类] [热度 ]提示:此毕业设计论文完整版包含【论文】 作品编号:txgc0401,word全文:46页,合计:19000字 |
本文首先回顾了基于支持向量机的数据分类方法,对已有的最大间隔法与模型当中存在的问题提出改进,提高了分类的正确率。在LIBSVM软件的环境下,对算法进行了训练优化,在训练中通过经典的交叉验证法对LIBSVM参数进行优化设置,在其基础上获得支持向量机最优分类模型,在这个模型下,运行编写的分类程序进行实验,得到分类的最优超平面,最终实现二维数据集的分类。
本实验采用C-SVC支持向量机模型,核函数选用RBF径向基函数为核函数,进行交叉校验的分组参数V指定为5。在各个不同的数据组当中选择不同的误差惩罚因子参数C和核函数参数,分别用这些参数来对应样本数据集分类,分类结果的比较见表5- 2所示(其中K为输入样本数据集的属性数目,本文实验中K的取值为200)。表格中的最优参数是通过交叉校验过程得到的。实验结果显示出这组参数的错误率最低,表明通过交叉校验得到的参数可以作为最优参数。
在实验过程中我们还发现,误差惩罚因子参数C、核函数参数都以2的指数形式变化更加合适,尤其当参数C的指数数值缓慢增大到5或6,同时参数的指数数值急速减小到-10左右的时候,错误率达到最低。这时如果我们继续调整C和的数值,反而出现了过学习现象,造成分类的正确率降低。
根据选择出的最优参数,我们在LIBSVM环境下构建出最优分类模型,为分类程序提供最为精确的平台,为程序运行和分析做好充实的准备。
分析与讨论
分析分类的结果,我们可以肯定,设计实现了对二维数据集的分类,并且通过建立训练后的支持向量机模型,分类的错误率很低(一般为0.5%左右),然而我们在实验中也发现,即使是在相同参数的模型下,分类的结果也是不同的,原因是训练样本时处于类边界上的支持向量并没有被完全准确的找出来,那么在存在一定错误率的模型下去分类,就必然存在着误差。
在参数的选择上,我们运用交叉验证法尽可能的确定最优参数,然而仍不可能得到理论上的最优,参数选择是解决这类问题的难点,也是最关键的环节。
附录2附上了另外一个对数据集的分类实例,通过本文中列举的两个例子,可以看到支持向量机技能在二维分类上比较成熟,但是当要对多类进行分类时,就需要构建相应的多类分类器,这也是支持向量机的一点不足,相信在将来通过对支持向量机的研究能把这一问题方便地解决。
提示:此毕业设计论文完整版包含【论文】 作品编号:txgc0401,word全文:46页,合计:19000字 |
本通信工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于SVM的数据分类方法实现(论文)!