找回密码
 立即注册

QQ登录

只需一步,快速开始

机器学习资料整理【内有福利】 加入本站QQ交流群 本站落实实名发帖政策的通知
【摘要】我国市场经济的不断完善和人们生活节奏的加快,汽车的需求呈快速增长的趋势。机动车的数量迅速增加,而与之配套的停车场的数量却增长缓慢
【摘要】城市道路两侧划定的停车位,因其便利性而广受欢迎。近年来,为规范道路两侧的停车行为,不少城市对此类停车位如何划定、收
“NLPIR-ICTCLA2018分词最新版本发布与用户交流大会暨实验室开发日”将在2018年7月21日北京理工大学召开
  社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的
TensorFlow官方文档—中文版 链接:https://pan.ba
该教程将通过知识点讲解+答疑指导相结合的方式,让大家循序渐进的了解深度学习模型并通过实操演示掌握相关框架及TensorFlow工
本帖最后由 周天 于 2018-1-2
最最经典的凸
lhh.163@163.com
机器学习算法需要作用于数据,而数据的本质则决定了应
本帖最后由 lqf921205 于 2018-4-14 22:32 编辑 原文链接:https://blog.csdn.net/lqf921205/article/details/798614941. CS224D2. NLP到W
本帖最后由 lqf921205 于 2018-4-14 22:
https://pan.baidu.com/s/10QwrNQd6RnEgFD_sZFs
为什么要从自然语言处理入门机器学习: 机器学习必须和具体的数据类型、应用场景结合。由于文本
在科创驱动新经济发展的时代风口上,国家部委工信部等近期密集颁布了
当今世界,随着人工智能技术的成熟,城市管理正在步入“智慧”时代,人工智能作为智慧城市的关键核心,
优达学院面试技能三件套,包括找工作策略、模拟面试、拓展人脉三门课程
编者按:2017年是不平凡的一年(当然,事实上,每一年都是;P)
查看: 735|回复: 7

最流行的4个机器学习数据集

[复制链接]

193

主题

351

帖子

1万

积分

管理员

积分
16302
发表于 2018-1-12 11:23:46 | 显示全部楼层 |阅读模式
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
IrisIris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
[td]
数据集特征:多变量记录数:150领域:生活
属性特征:实数属性数目:4捐赠日期1988-07-01
相关应用:分类缺失值?网站点击数:563347
Adult该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
[td]
数据集特征:多变量记录数:48842领域:社会
属性特征:类别型,整数属性数目:14捐赠日期1996-05-01
相关应用:分类缺失值?网站点击数:393977
Wine这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
[td]
数据集特征:多变量记录数:178领域:物理
属性特征:整数,实数属性数目:13捐赠日期1991-07-01
相关应用:分类缺失值?网站点击数:337319
Car Evaluation这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
[td]
数据集特征:多变量记录数:1728领域:N/A
属性特征:类别型属性数目:6捐赠日期1997-06-01
相关应用:分类缺失值?网站点击数:272901
小结
通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。
以上数据集下载地址http://archive.ics.uci.edu/ml/


作者:紫松
链接:https://www.jianshu.com/p/be23b3870d2e
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

回复 论坛版权

使用道具 举报

0

主题

41

帖子

101

积分

普通会员

积分
101
发表于 2018-1-16 18:06:41 | 显示全部楼层
回复

使用道具 举报

0

主题

41

帖子

145

积分

普通会员

积分
145
发表于 2018-1-23 22:23:26 | 显示全部楼层
谢谢
回复

使用道具 举报

0

主题

60

帖子

3065

积分

高级会员

积分
3065
发表于 2018-2-18 00:18:56 | 显示全部楼层
謝謝分享!
回复

使用道具 举报

0

主题

16

帖子

29

积分

普通会员

积分
29
发表于 2018-6-22 20:32:58 | 显示全部楼层
感谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

宸ュ晢钀ヤ笟鎵х収鐢靛瓙璁稿彲璇 | QQ|申请友链|小黑屋|手机版|人工智能A7论坛(aqinet.cn) ( 沪ICP备15039134号-1 ) 人工智能A7论坛坛友会

GMT+8, 2018-7-21 23:23 , Processed in 0.063861 second(s), 50 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表