找回密码
 立即注册

QQ登录

只需一步,快速开始

机器学习资料整理【内有福利】 加入本站QQ交流群 本站落实实名发帖政策的通知
全球人工智能技术和计算机视觉技术领跑者,肇观电子(NextVPU),日前正式发布世界
基于图像的三维模型重建是计算机视觉领域的一个非常重要的研
  自然语言处理(又叫自然语言理解,计算语言学)是当前IT领域的重要技术之一。随着互联
  随着信息技术的不断发展,人们已经进入信息极大丰富的时代,一方面信息来源广泛,
作为一个刚接触AI行业的小萌新,好不容易做好了一个深度学习的模型,然后就兴冲冲的想要在我的电脑上做训练,
TensorFlow官方文档—中文版 链接:https://pan.ba
本帖最后由 周天 于 2018-1-2
最最经典的凸
lhh.163@163.com
机器学习算法需要作用于数据,而数据的本质则决定了应
深度学习是计算机领域中目前非常火的话题,那么初学者该从哪些方面去了解呢
学习一下
为答谢各位论坛会员对本论坛的
本帖最后由 做人要淡定 于 2018-8-3 16:33 编辑   很多人说深度学习就是个黑箱子,把图像预处理之后丢进 tensorflo
“N+”大会是面向全球 AR、VR、AI 等互联网新技术领域的行业领袖及从业者的盛会。 旨在推动全球
  维塔利克˙布特林(Vitalik Buterin)将莅临“2018区块链技术于场景落地峰会”做报告 764   布特林,一个誓言用区块链颠覆真实经济体系的俄罗斯小子,他打造的全新
优达学院面试技能三件套,包括找工作策略、模拟面试、拓展人脉三门课程
编者按:2017年是不平凡的一年(当然,事实上,每一年都是;P)
查看: 973|回复: 9

最流行的4个机器学习数据集

[复制链接]

193

主题

353

帖子

1万

积分

管理员

积分
17341
发表于 2018-1-12 11:23:46 | 显示全部楼层 |阅读模式
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
IrisIris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
[td]
数据集特征:多变量记录数:150领域:生活
属性特征:实数属性数目:4捐赠日期1988-07-01
相关应用:分类缺失值?网站点击数:563347
Adult该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
[td]
数据集特征:多变量记录数:48842领域:社会
属性特征:类别型,整数属性数目:14捐赠日期1996-05-01
相关应用:分类缺失值?网站点击数:393977
Wine这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
[td]
数据集特征:多变量记录数:178领域:物理
属性特征:整数,实数属性数目:13捐赠日期1991-07-01
相关应用:分类缺失值?网站点击数:337319
Car Evaluation这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
[td]
数据集特征:多变量记录数:1728领域:N/A
属性特征:类别型属性数目:6捐赠日期1997-06-01
相关应用:分类缺失值?网站点击数:272901
小结
通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。
以上数据集下载地址http://archive.ics.uci.edu/ml/


作者:紫松
链接:https://www.jianshu.com/p/be23b3870d2e
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

回复 论坛版权

使用道具 举报

0

主题

41

帖子

101

积分

普通会员

积分
101
发表于 2018-1-16 18:06:41 | 显示全部楼层
回复

使用道具 举报

0

主题

41

帖子

145

积分

普通会员

积分
145
发表于 2018-1-23 22:23:26 | 显示全部楼层
谢谢
回复

使用道具 举报

0

主题

62

帖子

3977

积分

高级会员

积分
3977
发表于 2018-2-18 00:18:56 | 显示全部楼层
謝謝分享!
回复

使用道具 举报

0

主题

17

帖子

35

积分

普通会员

积分
35
发表于 2018-6-22 20:32:58 | 显示全部楼层
感谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

宸ュ晢钀ヤ笟鎵х収鐢靛瓙璁稿彲璇 | QQ|申请友链|小黑屋|手机版|人工智能A7论坛(aqinet.cn) ( 沪ICP备15039134号-1 ) 人工智能A7论坛坛友会

GMT+8, 2018-10-21 07:01 , Processed in 0.060595 second(s), 50 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表