sklearn 基础教程

sklearn 特征工程

sklearn 基础教程

sklearn 分类算法

sklearn 回归算法

sklearn 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/sklearn-dataset.html

sklearn 内置数据集


sklearn内置了一些机器学习的数据集,其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体能训练数据集和酒质量数据集。

Iris(鸢尾花)数据集

Iris数据集是常用的分类实验数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

Iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的50个样本数据构成。其中的一个种类与另外两个种类是线性可分的,后两个种类是非线性可分的。

Iris数据集的相关统计

数据集样本实例数:150(每个类都有50个样本实例)。

特征(属性)个数:4个数字特征和1个类别特征。

特征(属性)信息:4个特征属性分别是sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、petal width(花瓣宽度),单位是cm(厘米),具体如下:

- sepal length in cm

- sepal width in cm

- petal length in cm

- petal width in cm

- class:

          - Iris-Setosa

          - Iris-Versicolour

          - Iris-Virginica​

数据集相关统计摘要:主要是数据集中特征相关数据的统计数据,具体如下:

  Min Max Mean SD(标准差) Class Correlation
sepal length 4.3 7.9 5.84 0.83 0.7826
sepal width 2.0 4.4 3.05 0.43 -0.4194
petal length 1.0 6.9 3.76 1.76 0.9490(high!)
petal width 0.1 2.5 1.20 0.76 0.9565(high!)

特征(属性)缺失值:不存在。

类分布情况:3个类中的每个类占比33.3%。

数据集的创建者:R.A. Fisher。

数据集的贡献者:Michael Marshall。

数据集贡献日期:1988.7

iris数据集使用

使用sklearn.datasets包下的load_iris函数即可加载相关数据:

from sklearn.datasets import load_iris

# 加载sklearn自带的iris(鸢尾花)数据集
dataset = load_iris()

# 提取特征数据和目标数据
X = dataset.data
y = dataset.target

乳腺癌数据集

scikit-learn内置的乳腺癌数据集来自加州大学欧文分校机器学习仓库中的威斯康辛州乳腺癌数据集。

乳腺癌数据集是一个共有569个样本、30个输入变量和2个分类的数据集。

乳腺癌数据集的相关统计

数据集样本实例数:569个。

特征(属性)个数:30个特征属性和2个分类目标(恶性-Malignant,良性-Benign)。

特征(属性)信息:

30个数值型测量结果由数字化细胞核的10个不同特征的均值、标准差和最差值(即最大值)构成。这些特征包括:

  • radius(半径):mean of distances from center to points on the perimeter
  • texture(质地):standard deviation of gray-scale values
  • perimeter(周长)
  • area(面积)
  • smoothness(光滑度):local variation in radius lengths
  • compactness(致密性):perimeter^2 / area - 1.0
  • concavity(凹度):severity of concave portions of the contour
  • concave points(凹点)
  • symmetry(对称性)
  • fractal dimension(分形维数):"coastline approximation" - 1

根据这些名字,所有特征似乎都与细胞核的形状和大小有关。除非你是一个癌症医师,否则你不大可能知道每个特征如何与良性或者恶性肿块联系在一起。 

序号 属性 最小值 最大值
1 radius(mean) - 半径(平均值) 6.981 28.11
2 texture(mean) - 质地(平均值) 9.71 39.28
3 perimeter(mean) - 周长(平均值) 43.79 188.5
4 area(mean) - 面积(平均值) 143.5 2501.0
5 smoothness(mean) - 光滑度(平均值) 0.053 0.163
6 compactness(mean) - 致密性(平均值) 0.019 0.345
7 concavity(mean) - 凹度(平均值) 0.0 0.427
8 concave points(mean) - 凹点(平均值) 0.0 0.201
9 symmetry(mean) - 对称性(平均值) 0.106 0.304
10 fractal dimension(mean) - 分形维数(平均值) 0.05 0.097
11 radius(standard error) - 半径(标准差) 0.112 2.873
12 texture(standard error) - 质地(标准差) 0.36 4.885
13 perimeter(standard error) - 周长(标准差) 0.757 21.98
14 area(standard error) - 面积(标准差) 6.802 542.2
15 smoothness(standard error) - 光滑度(标准差) 0.002 0.031
16 compactness(standard error) - 致密性(标准差) 0.002 0.135
17 concavity(standard error) - 凹度(标准差) 0.0 0.396
18 concave points(standard error) - 凹点(标准差) 0.0 0.053
19 symmetry(standard error) - 对称性(标准差) 0.008 0.079
20 fractal dimension(standard error) - 分形维数(标准差) 0.001 0.03
21 radius(worst) - 半径(最大值) 7.93 36.04
22 texture(worst) - 质地(最大值) 12.02 49.54
23 perimeter(worst) - 周长(最大值) 50.41 251.2
24 area(worst) - 面积(最大值) 185.2 4254.0
25 smoothness(worst) - 光滑度(最大值) 0.071 0.223
26 compactness(worst) - 致密性(最大值) 0.027 1.058
27 concavity(worst) - 凹度(最大值) 0.0 1.252
28 concave points(worst) - 凹点(最大值) 0.0 0.291
29 symmetry(worst) - 对称性(最大值) 0.156 0.664
30 fractal dimension(worst) - 分形维数(最大值) 0.055 0.208

目标分类分布: 212-恶性(Malignant),357-良性(Benign)

数据集的创建者: Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian

数据集的创建时间:1995年11月

乳腺癌数据集的使用

使用sklearn.datasets包下的load_breast_cancer函数即可加载相关数据:

from sklearn.datasets import load_breast_cancer

# 加载sklearn自带的乳腺癌数据集
dataset = load_breast_cancer()

# 提取特征数据和目标数据,都是numpy.ndarray类型
X = dataset.data
y = dataset.target

波士顿房价数据集

scikit-learn自带波士顿房价数据集,该数据集来源于1978年美国某经济学杂志上。该数据集包含若干波士顿房屋的价格及其各项数据,每个数据项包含14个相关特征数据,分别是房屋均价及周边犯罪率、是否在河边、师生比等相关信息,其中最后一项数据是该区域房屋均价。

波士顿房价数据集是一个回归问题,共有506个样本,13个输入变量和1个输出变量。

波士顿房价数据集的相关统计

数据集样本实例数:506个。

特征(属性)个数:13个特征属性和1个目标数值。

特征(属性)信息(按照顺序):

  1. CRIM - 城镇人均犯罪率,per capita crime rate by town
  2. ZN - 住宅用地所占比例(每25000平方英尺),proportion of residential land zoned for lots over 25,000 sq.ft.
  3. INDUS - 城镇非商业用地所占比例,proportion of non-retail business acres per town
  4. CHAS - 查尔斯河的指标虚拟化(区域在河附近用1表示,否则为0),Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
  5. NOX - 一氧化氮浓度,nitric oxides concentration (parts per 10 million)
  6. RM - 每栋住宅的房间数,average number of rooms per dwelling
  7. AGE - 1940年之前建成的自用住宅的比例,proportion of owner-occupied units built prior to 1940
  8. DIS - 距离5个波士顿就业中心的加权距离,weighted distances to five Boston employment centres
  9. RAD - 距离高速公路的便利指数,index of accessibility to radial highways
  10. TAX - 每10000美元的全值财产税率,full-value property-tax rate per $10,000
  11. PTRATIO - 城镇师生比例,pupil-teacher ratio by town
  12. B - 城镇中黑人比例,1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
  13. LSTAT - 低收入人群的百分比,% lower status of the population
  14. MEDV - 房屋房价的中位数(以千美元为单位),Median value of owner-occupied homes in $1000's

数据集的创建者: Harrison, D. and Rubinfeld, D.L.

波士顿房价数据集的使用

使用sklearn.datasets包下的load_boston函数即可加载相关数据:

from sklearn.datasets import load_boston

# 加载sklearn自带的波士顿房价数据集
dataset = load_boston()

# 提取特征数据和目标数据,都是numpy.ndarray类型
X = dataset.data
y = dataset.target