开元4234com

开元4234com品牌产品
数据挖掘哪家强?谈谈数据科学家们眼中的Kaggle、天池和DataCastle…
发布时间:2024-05-05
  |  
阅读量:
本文摘要:本文取得知乎作者老王TEVC许可随着人工智能众多分支学科,如,机器学习,数据挖掘,进化计算出来等,在理论上大大成熟期。云计算、分布式计算,在理论和技术上大大突破新的瓶颈。“互联网+”、“工业4.0”、“私人自定义”等思想概念的引导下,“大数据”不可避免地显得更加火,更加热,必要造成大数据问题的分析和解决问题更加沦为全球众多领域科学家们的新课题。近些年,也大自然地产生了一些大数据问题实践中的平台, 如Kaggle、天池、DataCastle等。

开元4234com

本文取得知乎作者老王TEVC许可随着人工智能众多分支学科,如,机器学习,数据挖掘,进化计算出来等,在理论上大大成熟期。云计算、分布式计算,在理论和技术上大大突破新的瓶颈。“互联网+”、“工业4.0”、“私人自定义”等思想概念的引导下,“大数据”不可避免地显得更加火,更加热,必要造成大数据问题的分析和解决问题更加沦为全球众多领域科学家们的新课题。近些年,也大自然地产生了一些大数据问题实践中的平台, 如Kaggle、天池、DataCastle等。

那么,这些主流平台有何区别呢-笔者从以下几个方面浅谈之,能力受限,不周或错误之处青睐读者求证。一,赛题方面对参赛者而言,比如我自己,关心的是:赛题的趣味性,赛题对个人能力提高的起到以及公平性。笔者指出,天池平台整体上更为“亲民”。Kaggle等离线数据量大,但较天池的在线数据较少,PC低配的数据玩家有门槛。

(1)赛题趣味性:这个有可能更容易种族主义。荐几个例子感受一下吧。1,智慧交通,让算法提早告诉最重要路口的路况,解决问题有车族交通拥堵苦恼。

2,移动引荐,让算法引荐您讨厌的商品,解决问题您仍然以来的自由选择恐惧症。3,穿衣配上,让算法沦为您购物时的配上专家,解决问题您仍然以来“会穿衣装扮”后遗症。4,阿里音乐,让算法提早告诉他你哪个艺人未来不会火,解决问题您仍然以来“杨家抱着错大腿”的失望。5,......等。

趣味性怎么样-(2)赛题对个人能力提高起到:首先,笔者仍然指出,一个人的能力之一是解决问题分析问题的能力,特别是在是分析问题的能力。这在赛题上,必须获取明确含义,明确业务背景,否则,一堆数据是无法让您大脑有合理的思维和想象的。

这一点,天池不仅获取数据表,还不会有明确的含义解释。这样您的一些点子,不仅可以知其然,还可以知其所以然。而Kaggle, DataCastle上现有的大部分赛题获取的数据是没明确含义解释的,甚至必要给您一堆知道含义的特征样本。(3)赛题的公平性:大数据赛题。

公平的基础是数据量要大,能较好地自由选择出有优质的算法。我想要很多参与过比赛的运动员有可能都会有这样的感觉: 一个算法的性能优劣必要受到数据量的影响。在离线数据方面,Kaggle的离线赛数据虽较为大,但也使得一些较低配备的PC有可能玩游戏不一起。

天池离线数据量比Kaggle要小,平台数据比Kaggle和DataCastle都要大,这种方式对于PC配备没有那么低的运动员来说更为适合,也不利于运动员对数据的分析和解读,整体上更为公平(平台赛事还防止了小号引起的不公平现象)。二,大数据计算出来平台如何让点子“飞”一起-必须大数据问题与平台用于的融合。天池的模式堪称一个众智对外开放的平台,而不仅仅限于几场比赛。大数据问题与大数据计算出来平台是一个整体,谁都缺乏没法谁。

对于大数据竞赛爱好者,不仅兴趣于解决问题大数据问题,而且也有适当体验和(最少)学会用于问题设施的大数据计算出来平台。这一点,我想要对大部分IT技术男来讲是一个共识吧。也就是,分析解决问题能力很好,但是会用于大数据平台,甚至对大数据平台的计算能力没一个基本体验,是一件十分难过的事情,也无法让自己点子“飞”一起。

三个平台中,目前看,只有天池是唯一称得上上获取了计算出来平台的,在一定限度内,需要用于阿里云计算资源做到数据研发和算法研发。这一点上Kaggle和DataCastle都不具备,这也是为什么天池更加看起来一个众智对外开放的平台,而不是局限于一个大数据竞赛。当然每个队伍能用于的计算资源有一定容许,但即便容许下,速度也十分了不得的。三,影响力对许多运动员而言,还包括笔者,都会某种程度地考虑到平台影响力的问题。

平台影响力对一个运动员的重要性须多说道(这个道理和录985,211高校, 去名企工作差不多)。Kaggle归属于目前国际上较为成熟期的数据竞赛平台(正式成立于2010年),主要是欧美玩家,整体素质较高。

天池平台以众智的形式,目前早已总计举行25场比赛、有全球40个国家地区、1600多所学校的3万多名数据爱好者参予。在国内来看,天池的冠军含金量十分低,且在国内BAT阵营中,入职拒绝早已明确提出参与过天池大赛的优先任用。DataCastle是目前在国内刚蓬勃发展的一个大数据竞赛,不具备一定的条件,比起前两者来说,规模和影响力受限。

四,鼓舞没总有一天的冠军,只有大大的打破。奖金:Kaggle最少,其次是天池,DataCastle在奖金鼓舞上远不及这两者。数据科学家名列:Kaggle和天池都有数据科学家的排行榜,DataCastle当前没。人才证书:除了天池,另两个都还没。

这种技术证书,随着天池的大大发展,更加成熟期和权威,也不会显得更加简单,当然,也不会更加无以拿(不妨,先下手为强)。其他鼓舞:粮票鼓舞(天池独特)。可以通过定期的活动,参与公开发表大赛,和参与挑战BaseLine赛(天池永久对外开放了部分历年赛题的冠军排行榜,只要能打破冠军的算法都将晋级顺利,PS:这个还能取得其他鼓舞,下文闻:https://tianchi.shuju.aliyun.com/getStart/index.htm-spm=0.0.0.0.MPesZBid= 此外,天池部分赛题还不会有每周有周星星鼓舞,比赛完结不会根据名列放礼品券。


本文关键词:数据挖掘,开元4234com,哪家,强,谈谈,数据,科学家,们眼

本文来源:开元4234com-www.zjsxinheng.com

咨询电话
084-463280521
公司地址:江苏省南京市玄武区玄武湖
邮箱:admin@zjsxinheng.com
淘宝店铺:
Copyright © 2007-2023 www.zjsxinheng.com. 开元4234com科技 版权所有 ICP备11984401号-2