【菜科解读】
想通过Kaggle磨练自己的数据科学技能?我们先来听听Kaggle Grandmaster分享了哪些成功经验。
对于机器学习和数据科学领域的初学者来说,Kaggle是一个可以让人学以致用,快速成长的平台。
在上一篇文章中,我们已经介绍了很多优秀的Kaggle特级大师,他们都有自己独特的成长路径和解决问题的思路。
在这篇文章中,我们还介绍了两位杰出的大师——克里斯托弗·汉高和菲利普·辛格,他们在Kaggle排名中分列第三和第四位。
文章中,他们介绍了自己在Kaggle比赛中的成功经验,以及Kaggle给他们带来的帮助。
Christhenkel(代号Dieter)是英伟达的数据科学家。
他拥有慕尼黑大学数学博士学位,在Kaggle榜单中排名第四。
虽然在Kaggle社区的时间不长,但是汉高已经有了三位大师(竞赛大师、笔记本大师、讨论大师)。
谈及参加Kaggle竞赛的原因,汉高表示自己一直对AI领域很感兴趣,在博士最后一年自学了Python和一些深度学习教程。
虽然比赛一开始成绩不尽如人意,但汉高意识到“Kaggle可能是掌握机器学习领域知识最有效的 *** 。
ぃ
在自学过程中,汉高观看了许多高质量的Youtube视频和吴恩达和杰里米·霍华德的热门课程。
有趣的是,汉高对深度学习领域的书籍并不感兴趣,因为他认为这些书很快就会过时。
他说,“参加一个简单的Kaggle比赛比读书能学到更多东西。
为了获得新的灵感,汉高现阶段主要是看论文。
当被问及解决Kaggle问题的一般步骤时,汉高总结了以下几点:
首先,你需要做非常简单的数据探索,对数据和手头的问题有一个大概的了解,思考一个好的交叉验证应该是什么样子的。
接下来你要建立一个简单的初步模型,检查本地验证和比赛排名的相关性是否良好;
如果上述相关性不能满足要求,就需要迭代了解可能存在的差异并加以解释;
剩下的比赛时间用来浏览论文、Kaggle论坛、内核等。
以获得新的灵感;
在比赛的最后一周,检查模型集成和模型鲁棒性。
为了更具体地解释他提到的解题步骤,汉高举了一个孟加拉语手写字母分类比赛的例子。
这项比赛要求参赛者将给出的手写字母分为三类:词根、元音和辅音。
“(拿到数据后,)我先把给定的图片调整到64*64,以便在比赛前半段快速迭代思路。
接下来,我创建了一个resnet18基线,并复制了竞赛度量来检查我的本地验证分数是否与排行榜分数相当,结果相差不大。
然后,我使用了不同的增强 *** 和模型架构,最终选择了一个效果更好的。
虽然我在接下来的步骤中使用了更大的图像(128*128),但我的分数变化不大。
所以我看了很多关于孟加拉语手写系统的书,发现这种语言有很多特殊而微妙的特点。
这使我能够改进我的解决方案,并最终独自获得了之一名。
汉高回忆道。
参见:https://www.kaggle.com/c/bengaliai-cv19/discussion/136129的完整竞争解决方案。
在采访中,汉高介绍了比赛中使用的工具和技巧。
在框架方面,他现在使用PyTorch。
除了灵活性和稳定性,他还喜欢Pytorch在多GPU环境下的易用性,这在Kaggle比赛中变得越来越重要。
如果你手头有一些表格数据,汉高会使用RAPIDS平台来加快计算速度,因为它提供了一个类似于Sklearn或pandas的接口,但它运行在GPU上。
此外,他还尝试了许多辅助工具,如日志记录和数据存储。
目前使用neptune.ai(测井工具)和AWS(数据存储)。
硬件方面,汉高有两个深度学习单元。
一个是3x英伟达RTX 2080Ti,一个是4x V100,是英伟达给的。
不过汉高表示,这个配置对于Kaggle竞争来说太豪华了。
“之前我只有两辆GTX 1080Ti的时候,也取得了不错的成绩。
ぃ
汉高补充道,“我喜欢将所有代码和数据留在我的工作站中进行处理。
但是最近我也开始用云来解决一些短期的需求。
」
此外,对于一些计算密集型的比赛,汉高喜欢使用脚本,因为脚本可以自动执行超级参数调整和模型部署等步骤。
Philipp Singer是H2O.ai的高级数据科学家,他获得了软件开发和商业管理硕士学位,格拉茨技术大学计算机科学荣誉博士学位,还获得了包括万维网大会更佳论文奖在内的多个奖项。
在Kaggle field,Philipp,更好的称呼是Psi,在Kaggle榜单中排名第三,获得过两次特级大师的称号(竞赛特级大师和讨论特级大师)。
菲利普最重要的成就之一就是他与H2O.ai的数据科学家Dmitry Gordeev一起获得了第二届NFL大数据碗,来自世界各地的2000多名数据科学家在Kaggle展开角逐,菲利普辛格和Dmitry Gordeev的方案最终获得了5万美元的更高奖金。
2019-20大数据碗,菲利普·辛格和德米特里·戈尔杰耶夫(后)发表获奖感言。
菲利普·辛格(Philipp Singer)在采访中讲述了自己在Kaggle比赛中的成功经历。
问:你在Kaggle的尝试是如何开始的,是什么支撑你一步步走向特级大师?
#p#分页标题#e#Philipp:大约八年前,我加入了Kaggle,因为我听说过这个平台,并想了解更多。
但是注册之后,我已经六年没碰过了。
大约两年前,我和德米特里决定尝试一起参加Kaggle上的比赛,作为业余项目。
起初,我们并没有抱什么期望,但最终,我们赢得了比赛,这让我着迷,于是我开始了自己的Kaggle之旅。
在Kaggle上,我通过解决新类型的问题保持动力,每隔一段时间就会有令人兴奋的新问题需要解决。
也喜欢和Kaggle上的人才交流,了解社区所做的努力。
问:最近你以惊人的成绩刷新了Kaggle榜单,获得了NFL之一名和Future-Impact Detection第二名。
你是如何在这些比赛中频频获奖的?
菲利普:人们经常问我如何赢得Kaggle比赛,但我不认为有什么普遍的秘密。
Kaggle的很多成功都是建立在经验基础上的,需要去了解和学习那些一看就不知道的东西。
在比赛过程中,我积累了一个通用工具箱,里面有我用来完成每次比赛的积木,比如如何设置合适的交叉验证,模型需要哪些库,如何合适的拟合模型,如何跟踪模型的性能等等。
因此,我可以花更多的时间关注新的领域和最近比赛的关键方面。
我总是在每次比赛后努力改进我的工作流程,以提高我的效率和竞争力。
菲利普在卡格尔上的成就。
问:你通常如何处理Kaggle问题?要不要分享一些喜欢的ML资源(课程,博客等)。
)与社区?
菲利普:我尝试用我积累的 *** 、工具和经验来研究手头的具体问题。
这意味着我将在Kaggle上研究之前类似问题的解决方案,并阅读相关论文。
学习问题更好的 *** 是练习,逐步学习。
问:你在Kaggle学到了哪些可以应用到H2O.ai工作中的东西?
Philipp:我在Kaggle学到的最重要的一件事是如何建立一个健壮的模型,这样它就可以很好地泛化,而不会遭受强烈的过拟合。
这对Kaggle至关重要,因为该模型需要推广到从未见过的数据。
这意味着你会学到很多关于健壮交叉验证的知识,并关心特征分布转移等数据信息。
我可以在H2O.ai的工作中充分利用这些知识,这也是我们产品不可或缺的一部分。
问:数据科学领域发展迅速。
你是如何跟上所有最新发展的?
Philipp:我主要用Kaggle了解最新动态;对于新技术能否解决实际问题来说是一个极好的过滤器。
通常情况下,健壮的 *** 能够脱颖而出,而只是偶尔起作用的技术会被筛选掉。
同时,我试图通过Twitter等平台上的知名研究人员和从业者了解该领域的最新进展。
菲利普在2020年1月9日维也纳的数据科学活动上。
问:对于刚刚开始数据科学之旅,有点野心挑战Kaggle竞赛的人,你有什么建议?
菲利普:不断尝试,不要害怕失败,永远渴望学习新事物。
参考链接:https:// *** yticsindiamag . com/ka ggle-interview-grand-master-christof-henkel/
https://towards data science . com/meet-the-data-scientist-who-just-not-stop-winning-on-ka ggle-DFC 0 e 6 Fe 88 f 8
声明:本文内容仅代表作者个人观点,与本站立场无关。
如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理