找回密码
 立即注册

QQ登录

只需一步,快速开始

机器学习资料整理【内有福利】 加入本站QQ交流群 本站落实实名发帖政策的通知
本帖最后由 小玩家 于 2018-1-10 11:38 编辑 由北京图象图形学学会主办的第十三届图像图形技术与应用学术会
该方向有什么好作
本帖最后由 北北 于 2017-12-21 16:11 编辑 参加了老大的自然语言处理课程,收获颇
链接:http://pan.baidu.com/s/1mhPOXs8 密码:3uzd
TensorFlow官方文档—中文版 链接:https://pan.ba
该教程将通过知识点讲解+答疑指导相结合的方式,让大家循序渐进的了解深度学习模型并通过实操演示掌握相关框架及TensorFlow工
本帖最后由 周天 于 2018-1-2
最最经典的
机器学习算法需要作用于数据,而数据的本质则决定了应
RT
505 链接:https://pan.baidu.com/s/1nwDa2VJ 密码:371b
504 链接:https://pan.baidu.com/s/1dFZvlap 密码:htvm
为什么要从自然语言处理入门机器学习: 机器学习必须和具体的数据类型、应用场景结合。由于文本
链接:https://pan.baidu.com/s/1b7t48A 密码:p06Y
链接: https://pan.baidu.com/s/1qYBej2s 密
链接: https://pan.baidu.com/s/1qXD5NEO 密码: e47u
优达学院面试技能三件套,包括找工作策略、模拟面试、拓展人脉三门课程
编者按:2017年是不平凡的一年(当然,事实上,每一年都是;P)
查看: 218|回复: 3

最流行的4个机器学习数据集

[复制链接]

190

主题

337

帖子

2万

积分

管理员

积分
24443
发表于 2018-1-12 11:23:46 | 显示全部楼层 |阅读模式
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
IrisIris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
[td]
数据集特征:多变量记录数:150领域:生活
属性特征:实数属性数目:4捐赠日期1988-07-01
相关应用:分类缺失值?网站点击数:563347
Adult该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
[td]
数据集特征:多变量记录数:48842领域:社会
属性特征:类别型,整数属性数目:14捐赠日期1996-05-01
相关应用:分类缺失值?网站点击数:393977
Wine这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
[td]
数据集特征:多变量记录数:178领域:物理
属性特征:整数,实数属性数目:13捐赠日期1991-07-01
相关应用:分类缺失值?网站点击数:337319
Car Evaluation这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
[td]
数据集特征:多变量记录数:1728领域:N/A
属性特征:类别型属性数目:6捐赠日期1997-06-01
相关应用:分类缺失值?网站点击数:272901
小结
通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。
以上数据集下载地址http://archive.ics.uci.edu/ml/


作者:紫松
链接:https://www.jianshu.com/p/be23b3870d2e
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

回复 论坛版权

使用道具 举报

0

主题

41

帖子

101

积分

普通会员

积分
101
发表于 2018-1-16 18:06:41 | 显示全部楼层
回复

使用道具 举报

0

主题

41

帖子

145

积分

普通会员

积分
145
发表于 2018-1-23 22:23:26 | 显示全部楼层
谢谢
回复

使用道具 举报

0

主题

49

帖子

1289

积分

中级会员

积分
1289
发表于 前天 00:18 | 显示全部楼层
謝謝分享!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|申请友链|小黑屋|手机版|人工智能A7论坛(aqinet.cn) ( 沪ICP备15039134号-1 ) 人工智能A7论坛坛友会

GMT+8, 2018-2-20 11:45 , Processed in 0.055386 second(s), 47 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表