找回密码
 立即注册

QQ登录

只需一步,快速开始

机器学习资料整理【内有福利】 加入本站QQ交流群 本站落实实名发帖政策的通知
OpenPose是一个实时多人关
【活动简介】人脸、虹膜、指纹等生物特征识别技术已经广泛应用于智能手机、金融支付、公安司法、边检
人类被指挥与控制来自描述及与这些描述相连接的行为能力,可以用一个字或者概
互联网时代的社会语言学:基于SNS的文本数据挖掘from:http://www.matrix67.com/blog/archives/50
TensorFlow官方文档—中文版 链接:https://pan.ba
该教程将通过知识点讲解+答疑指导相结合的方式,让大家循序渐进的了解深度学习模型并通过实操演示掌握相关框架及TensorFlow工
本帖最后由 周天 于 2018-1-2
最最经典的
什么是大数据随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一
机器学习算法需要作用于数据,而数据的本质则决定了应
大数据创业之路上的“九九八十一难”该如何迈过? 近年来,伴随着信息技术的飞速发展,大数据创业
本帖最后由 lqf921205 于 2018-4-14 22:32 编辑 原文链接:https://blog.csdn.net/lqf921205/article/details/798614941. CS224D2. NLP到W
本文转载自:创成汇-创新成果转化服务平台(http://www.chuangcheng.org.cn/16)大赛设置企业赛道和创客团队赛道
为深入贯彻落实党的十九大报告中提出的“加快建设创新型国家”国家战略,根据《中
“汇新杯”新兴科技互联网创新大赛之大数据产业创业大数据是信息化发展的新阶段,是继土地、劳动力、资
背景介绍 本项目主要解决 check 和 opinion2 张历史数据表(历史数据
优达学院面试技能三件套,包括找工作策略、模拟面试、拓展人脉三门课程
编者按:2017年是不平凡的一年(当然,事实上,每一年都是;P)
查看: 465|回复: 4

最流行的4个机器学习数据集

[复制链接]

194

主题

349

帖子

2万

积分

管理员

积分
25847
发表于 2018-1-12 11:23:46 | 显示全部楼层 |阅读模式
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
IrisIris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
[td]
数据集特征:多变量记录数:150领域:生活
属性特征:实数属性数目:4捐赠日期1988-07-01
相关应用:分类缺失值?网站点击数:563347
Adult该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
[td]
数据集特征:多变量记录数:48842领域:社会
属性特征:类别型,整数属性数目:14捐赠日期1996-05-01
相关应用:分类缺失值?网站点击数:393977
Wine这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
[td]
数据集特征:多变量记录数:178领域:物理
属性特征:整数,实数属性数目:13捐赠日期1991-07-01
相关应用:分类缺失值?网站点击数:337319
Car Evaluation这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
[td]
数据集特征:多变量记录数:1728领域:N/A
属性特征:类别型属性数目:6捐赠日期1997-06-01
相关应用:分类缺失值?网站点击数:272901
小结
通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。
以上数据集下载地址http://archive.ics.uci.edu/ml/


作者:紫松
链接:https://www.jianshu.com/p/be23b3870d2e
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

回复 论坛版权

使用道具 举报

0

主题

41

帖子

101

积分

普通会员

积分
101
发表于 2018-1-16 18:06:41 | 显示全部楼层
回复

使用道具 举报

0

主题

41

帖子

145

积分

普通会员

积分
145
发表于 2018-1-23 22:23:26 | 显示全部楼层
谢谢
回复

使用道具 举报

0

主题

56

帖子

2181

积分

高级会员

积分
2181
发表于 2018-2-18 00:18:56 | 显示全部楼层
謝謝分享!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

宸ュ晢钀ヤ笟鎵х収鐢靛瓙璁稿彲璇 | QQ|申请友链|小黑屋|手机版|人工智能A7论坛(aqinet.cn) ( 沪ICP备15039134号-1 ) 人工智能A7论坛坛友会

GMT+8, 2018-4-27 14:33 , Processed in 0.062330 second(s), 50 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表