首页 > 百科 > 生活百科

kaggle是什么(kaggle比赛拿奖容易吗)

时间:2022-10-17来源:网络作者:小千点击数:
简介:机器心脏报告编辑:周晓张骞想通过Kaggle磨练自己的数据科学技能?我们先来听听Kaggle Grandmaster分享了哪些成功经验。

kaggle是什么(kaggle比赛拿奖容易吗)

点击下载文档

格式为doc格式

【菜科解读】

想通过Kaggle磨练自己的数据科学技能?我们先来听听Kaggle Grandmaster分享了哪些成功经验。

对于机器学习和数据科学领域的初学者来说,Kaggle是一个可以让人学以致用,快速成长的平台。

在上一篇文章中,我们已经介绍了很多优秀的Kaggle特级大师,他们都有自己独特的成长路径和解决问题的思路。

在这篇文章中,我们还介绍了两位杰出的大师——克里斯托弗·汉高和菲利普·辛格,他们在Kaggle排名中分列第三和第四位。

文章中,他们介绍了自己在Kaggle比赛中的成功经验,以及Kaggle给他们带来的帮助。

克里斯托夫·汉高:不爱看书的三重宗师

Christhenkel(代号Dieter)是英伟达的数据科学家。

他拥有慕尼黑大学数学博士学位,在Kaggle榜单中排名第四。

虽然在Kaggle社区的时间不长,但是汉高已经有了三位大师(竞赛大师、笔记本大师、讨论大师)。

谈及参加Kaggle竞赛的原因,汉高表示自己一直对AI领域很感兴趣,在博士最后一年自学了Python和一些深度学习教程。

虽然比赛一开始成绩不尽如人意,但汉高意识到“Kaggle可能是掌握机器学习领域知识最有效的 *** 。

在自学过程中,汉高观看了许多高质量的Youtube视频和吴恩达和杰里米·霍华德的热门课程。

有趣的是,汉高对深度学习领域的书籍并不感兴趣,因为他认为这些书很快就会过时。

他说,“参加一个简单的Kaggle比赛比读书能学到更多东西。

为了获得新的灵感,汉高现阶段主要是看论文。

解决Kaggle问题的一般步骤

当被问及解决Kaggle问题的一般步骤时,汉高总结了以下几点:

首先,你需要做非常简单的数据探索,对数据和手头的问题有一个大概的了解,思考一个好的交叉验证应该是什么样子的。

接下来你要建立一个简单的初步模型,检查本地验证和比赛排名的相关性是否良好;

如果上述相关性不能满足要求,就需要迭代了解可能存在的差异并加以解释;

剩下的比赛时间用来浏览论文、Kaggle论坛、内核等。

以获得新的灵感;

在比赛的最后一周,检查模型集成和模型鲁棒性。

为了更具体地解释他提到的解题步骤,汉高举了一个孟加拉语手写字母分类比赛的例子。

这项比赛要求参赛者将给出的手写字母分为三类:词根、元音和辅音。

“(拿到数据后,)我先把给定的图片调整到64*64,以便在比赛前半段快速迭代思路。

接下来,我创建了一个resnet18基线,并复制了竞赛度量来检查我的本地验证分数是否与排行榜分数相当,结果相差不大。

然后,我使用了不同的增强 *** 和模型架构,最终选择了一个效果更好的。

虽然我在接下来的步骤中使用了更大的图像(128*128),但我的分数变化不大。

所以我看了很多关于孟加拉语手写系统的书,发现这种语言有很多特殊而微妙的特点。

这使我能够改进我的解决方案,并最终独自获得了之一名。

汉高回忆道。

参见:https://www.kaggle.com/c/bengaliai-cv19/discussion/136129的完整竞争解决方案。

工具和技术

在采访中,汉高介绍了比赛中使用的工具和技巧。

在框架方面,他现在使用PyTorch。

除了灵活性和稳定性,他还喜欢Pytorch在多GPU环境下的易用性,这在Kaggle比赛中变得越来越重要。

如果你手头有一些表格数据,汉高会使用RAPIDS平台来加快计算速度,因为它提供了一个类似于Sklearn或pandas的接口,但它运行在GPU上。

此外,他还尝试了许多辅助工具,如日志记录和数据存储。

目前使用neptune.ai(测井工具)和AWS(数据存储)。

硬件方面,汉高有两个深度学习单元。

一个是3x英伟达RTX 2080Ti,一个是4x V100,是英伟达给的。

不过汉高表示,这个配置对于Kaggle竞争来说太豪华了。

“之前我只有两辆GTX 1080Ti的时候,也取得了不错的成绩。

汉高补充道,“我喜欢将所有代码和数据留在我的工作站中进行处理。

但是最近我也开始用云来解决一些短期的需求。

此外,对于一些计算密集型的比赛,汉高喜欢使用脚本,因为脚本可以自动执行超级参数调整和模型部署等步骤。

菲利普·辛格:成功来自积累

Philipp Singer是H2O.ai的高级数据科学家,他获得了软件开发和商业管理硕士学位,格拉茨技术大学计算机科学荣誉博士学位,还获得了包括万维网大会更佳论文奖在内的多个奖项。

在Kaggle field,Philipp,更好的称呼是Psi,在Kaggle榜单中排名第三,获得过两次特级大师的称号(竞赛特级大师和讨论特级大师)。

菲利普最重要的成就之一就是他与H2O.ai的数据科学家Dmitry Gordeev一起获得了第二届NFL大数据碗,来自世界各地的2000多名数据科学家在Kaggle展开角逐,菲利普辛格和Dmitry Gordeev的方案最终获得了5万美元的更高奖金。

2019-20大数据碗,菲利普·辛格和德米特里·戈尔杰耶夫(后)发表获奖感言。

菲利普·辛格(Philipp Singer)在采访中讲述了自己在Kaggle比赛中的成功经历。

问:你在Kaggle的尝试是如何开始的,是什么支撑你一步步走向特级大师?

#p#分页标题#e#

Philipp:大约八年前,我加入了Kaggle,因为我听说过这个平台,并想了解更多。

但是注册之后,我已经六年没碰过了。

大约两年前,我和德米特里决定尝试一起参加Kaggle上的比赛,作为业余项目。

起初,我们并没有抱什么期望,但最终,我们赢得了比赛,这让我着迷,于是我开始了自己的Kaggle之旅。

在Kaggle上,我通过解决新类型的问题保持动力,每隔一段时间就会有令人兴奋的新问题需要解决。

也喜欢和Kaggle上的人才交流,了解社区所做的努力。

问:最近你以惊人的成绩刷新了Kaggle榜单,获得了NFL之一名和Future-Impact Detection第二名。

你是如何在这些比赛中频频获奖的?

菲利普:人们经常问我如何赢得Kaggle比赛,但我不认为有什么普遍的秘密。

Kaggle的很多成功都是建立在经验基础上的,需要去了解和学习那些一看就不知道的东西。

在比赛过程中,我积累了一个通用工具箱,里面有我用来完成每次比赛的积木,比如如何设置合适的交叉验证,模型需要哪些库,如何合适的拟合模型,如何跟踪模型的性能等等。

因此,我可以花更多的时间关注新的领域和最近比赛的关键方面。

我总是在每次比赛后努力改进我的工作流程,以提高我的效率和竞争力。

菲利普在卡格尔上的成就。

问:你通常如何处理Kaggle问题?要不要分享一些喜欢的ML资源(课程,博客等)。

)与社区?

菲利普:我尝试用我积累的 *** 、工具和经验来研究手头的具体问题。

这意味着我将在Kaggle上研究之前类似问题的解决方案,并阅读相关论文。

学习问题更好的 *** 是练习,逐步学习。

问:你在Kaggle学到了哪些可以应用到H2O.ai工作中的东西?

Philipp:我在Kaggle学到的最重要的一件事是如何建立一个健壮的模型,这样它就可以很好地泛化,而不会遭受强烈的过拟合。

这对Kaggle至关重要,因为该模型需要推广到从未见过的数据。

这意味着你会学到很多关于健壮交叉验证的知识,并关心特征分布转移等数据信息。

我可以在H2O.ai的工作中充分利用这些知识,这也是我们产品不可或缺的一部分。

问:数据科学领域发展迅速。

你是如何跟上所有最新发展的?

Philipp:我主要用Kaggle了解最新动态;对于新技术能否解决实际问题来说是一个极好的过滤器

通常情况下,健壮的 *** 能够脱颖而出,而只是偶尔起作用的技术会被筛选掉。

同时,我试图通过Twitter等平台上的知名研究人员和从业者了解该领域的最新进展。

菲利普在2020年1月9日维也纳的数据科学活动上。

问:对于刚刚开始数据科学之旅,有点野心挑战Kaggle竞赛的人,你有什么建议?

菲利普:不断尝试,不要害怕失败,永远渴望学习新事物。

参考链接:https:// *** yticsindiamag . com/ka ggle-interview-grand-master-christof-henkel/

https://towards data science . com/meet-the-data-scientist-who-just-not-stop-winning-on-ka ggle-DFC 0 e 6 Fe 88 f 8

声明:本文内容仅代表作者个人观点,与本站立场无关。

如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理