Python Sklearn库SVM算法应用
Sklearn库SVM算法
下面我看一下 Python 的 Scikit -Learn(简称 Sklearn) 库是如何实现 SVM 算法的。支持向量机算法被包含在 sklearn.svm 模块中,该模块提供了 7 个常用类,这些不同的类分别应用了不同的核函数,因此它们可以解决不同的问题,比如分类问题、回归问题以及无监督学习中的异常点检测等。下表对它们做了简单的介绍:
SVM算法类别 | 描述 |
|---|---|
LinearSVC类 | 基于线性核函数的支持向量机分类算法 |
LinearSVR类 | 基于线性核函数的支持向量机回归算法 |
SVC类 | 可选择多种核函数的支持向量机分类算法,通过“kernel”参数可以传入 linear:选择线性函数; polynomial:选择多项式函数; rbf:选择径向基函数; sigmoid:选择 Logistics 函数作为核函数; precomputed:使用预设核值矩阵, SVC 类默认以径向基函数作为核函数。 |
SVR类 | 可选择多种核函数的支持向量机回归算法 |
NuSVC类 | 与 SVC 类非常相似,但可通过参数“nu”设置支持向量的数量。 |
NuSVR类 | 与SVR类非常相似,但可通过参数“nu”设置支持向量的数量。 |
OneClassSVM类 | 用支持向量机算法解决无监督学习的异常点检测问题 |
SVM 主要用于解决二分类的问题,上述表格中最常使用的是 SVC 类。下面对使用该算法的步骤进行总结:
读取数据,将原始数据转化为 SVM 算法所能识别的数据格式;
将数据标准化,防止样本中不同特征数值大小相差较大影响分类器性能;
选择核函数,在不清楚何种核函数时,使用“rbf”(径向基核函数)
利用交叉验证网格搜索寻找参数;(交叉验证的目的是防止过拟,利用网格搜索可以在指定的范围内寻找参数)
使用参数来训练模型;
测试得到的分类模型。
SVM算法应用
下面使用 SVM 算法对鸢尾花数据集进行分类处理(若想下载鸢尾花数据集可从UCI官方下载)如图所示:
图1:鸢尾花数据集
数据集的中每一行都是一个鸢尾花的观察结果,前四个数据代表鸢尾花的生物属性,比如花萼长度、宽度以及花瓣的长度、宽度,一项表示鸢尾花的类别,共三类,分别是山鸢尾(0表示)、色鸢尾(1表示)、维吉尼亚鸢尾(2表示),我们的任务就是对它们进行正确分类,数据集的部分数据展示如下:

图2:鸢尾花数据集
下面使用支持向量机(SVM)算法对鸢尾花数据集进行分类,代码如下所示:
from sklearn.datasets import load_iris # 导入鸢尾花数据集
from sklearn.svm import SVC #使用支持向量机算法
import matplotlib.pyplot as plt
# 加载鸢尾花数据集,返回特征值 X 以及标签 y
X,y = load_iris(return_X_y=True)
# 使用SVM.SVC分类算法搭建预测模型,并以径向基函数做为核函数的实现高维映射
clf = SVC(kernel='rbf')
# 训练模型,使用fit喂入数据X,y,即特征值和标签
clf.fit(X, y)
# 预测分类
result=clf.predict(X)
print(result)
# 对模型进行评分
score=clf.score(X,y)
print(score)
plt.figure()
# 分割图1行1列个图
plt.subplot(111)
# 选择X特征值中的列特征值和第三列特征值进行绘图
plt.scatter(X[:,0],X[:,3],c =y.reshape((-1)),edgecolor='k',s=50)
plt.show()
输出结果如下:
对分类结果进行可视化展示:# 类别预测结果
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2
2 2]
# 模型得分
0.9733333333333334

图3:数据可视化
支持向量机算法在分类问题中有着非常出色的表现,它的特点是够解决非线性问题,并且训练模型的时候不必依赖于全部数据,主要使用处于分类边缘的样本点,因此它也适用解决小样本群体的分类问题,并且泛化能力较强。
当然,SVM 也有一些不足之处,比如核函数的寻找难度较大,并且最原始的 SVM 算法只适用于二分类问题。后经过不断的拓展、延伸,目前的 SVM 算法可以解决多分类问题,同时能够解决文本分类问题。
- 随机文章
- 核心危机(核心危机魔石合成攻略)
- 饿了么红包怎么用(饿了么红包怎么用微信支付)
- 儿童教育文章(儿童教育)
- 光遇花手先祖位置(安卓光遇手花先祖)
- 广州4a广告公司(广州4a广告公司创意总监年薪)
- 抖音卡(抖音卡顿怎么解决)
- xboxones(xboxone手柄怎么配对主机)
- 兵马俑(兵马俑介绍和历史背景)
- 陈武简历
- 帆船比赛(帆船比赛视频)
- 海猫鸣泣之时游戏(海猫鸣泣之时游戏在哪玩)
- 韩国媳妇和小雪(韩国媳妇和小雪的父亲工资是多少)
- 儋州市第二中学(儋州市第二中学录取分数线)
- 鬼泣5攻略(鬼泣5攻略第三关怎么跳)
- 地球日主题(2020年世界地球日主题)
- 冰客(冰客果汁)
- yy魔兽(yy魔兽世界)
- 国外成人游戏(国外成人游戏注册需要visa信用卡)
- 充值卡代理(充值卡代理加盟)
- 东天目山(东天目山景区)
- 杭同(杭同培训中心怎么样)
- 大松电饭煲(美的大松电饭煲)
- 服饰加盟(服饰加盟店招商)
- 疯狂填字(疯狂填字5)
- 点对点短信息(点对点短信息费是什么意思)
- 河北省大运会(河北省大运会时间)
- 骇客神条(骇客神条怎么辨别真假)
- 杜星霖(杜星霖图片)
- 广州晓港公园(广州晓港公园正门图片)
- 钢筋等级符号(钢筋等级符号电脑怎么输入)
