【最全资料汇总】如何12个月内成为数据科学家?

IM即时通信 132℃

RoyalMail数据科学家Freddie Odukomaiya曾经用12个月的时间让自己成功的成为数据科学家,以下是他的经验分享和他所使用的学习资源。

以下内容译自:https://blog.usejournal.com/how-to-become-a-data-scientist-in-12-months-71aa9ee822d9

想成为数据科学家,以下8点非常重要

  • 选择一种编程语言,坚持下去

不要不断改变你选择的语言。如果这样做,你的进度将大大减慢。

  • 明确你的动机

这很重要,因为学习数据科学很难,所以在过程中很容易失去动力。如果你的动力清晰而强大,那么就更容易忍受和坚持。

  • 不要迷失在课程中

如果你只是不断的在学习教程,你很容易陷入一种自我欺骗“我知道自己在干什么”。最好的方法是在项目中学习。找一个你感兴趣的项目,把数据科学应用其中,比如,我的项目是预测英超联赛的冠军。

  • 精准选择小部分资源

现在有太多学习数据科学基础知识的资源。一个普遍的现象是,大家很难坚持使用一个资源学习,很多人使用一个资源开始学习,看到了一个更好的资源后立即就更换了学习资源,这样成本是非常高的,要尽量避免这种情况。相反,我们应该选择一组涵盖不同主题的资源(例如,construct a curriculum),坚持下去,知道你完成他们

  • 让自己沉浸在社区中

你需要让数据科学包围自己。可以通过以下几种方式:订阅DS简报,阅读数据科学文章和书籍,收听数据科学播客,在youtube上观看数据科学讲座,通过参加所有和任何数据科学活动,利用MeetupEventbrite等网站。查找在线DS社区并加入他们。

  • 去黑客马拉松!

不要等到你“准备好”再去参加黑客马拉松,参加黑客马拉松的好处远远超过你认为你会经历的任何负面影响。黑客马拉松也可以在线参与,例如,Kaggle本质上就是一个永无止境的在线黑客马拉松。

  • 寻找导师。

这对我来说是最困难的部分,因为我对导师的定义有些许误解。导师只是一位经验丰富且值得信赖的老师/辅导员。你可以拥有多个导师,甚至可能无法直接与他们互动。我最终的导师其实是哪些有影响力的数据科学家,我通过社交媒体关注他们,订阅他们的新闻通讯,阅读他们的书籍和听他们的谈话/播客。当我觉得我需要建议时,我通过电子邮件和社交媒体与他们联系,虽然不是每个人都回复了我,但那些确实帮助了我很多。

  • 准备好牺牲你工作日的晚上和周末。

你必须投入大量的精修勤练,花费大量时间学习,你的社交生活会受到影响。努力工作很重要,但聪明地工作更有价值,请你准备一份时间表,关于你正在学习的课程,正在阅读的书籍以及正在开展的项目。

最全学习资源汇总

充分利用这些信息资源才能更好的学习数据科学哦。

【课程】

  • 开源数据科学大师  - @clarecorthell制作了涵盖数据科学所有不同方面的课程,并附有相关课程,书籍等的链接。
  • Class Central  - 这是谷歌的在线课程。您可以通过简介和用户评分找到与任何主题相关的在线课程。
  • DataCamp  - 一家通过互动在线课程教授数据科学的EdTech公司。

【实践】

  • Kaggle  - Kaggle是预测建模和分析竞赛的平台。
  • #100DaysOfCode  - 这是一个挑战,初学者尝试每天至少编码一个小时,持续100天。
  • Codewars  - 通过与其他人一起训练真实代码的挑战来提高您的技能。
  • DrivenData  - DrivenData让众包成为世上最大的社会挑战和组织之一。
  • HackerRank  - 练习编码。参与竞争。找工作。

【书籍】

  • Machine Learning with Python Cookbook by Chris Albon
  • An Introduction to Statistical Learning: with Applications in R
  • Hands-On Machine Learning with Scikit-Learn and TensorFlow by Aurélien Géron
  • Think Stats: Exploratory Data Analysis by by Allen B. Downey
  • The Signal and the Noise: The Art and Science of Prediction by Nate Silver
  • Prediction Machines: The Simple Economics of Artificial Intelligence
  • How to Lie with Statistics by Darrell Huff
  • Automate the Boring Stuff with Python by Al Sweigart

【通讯/博客】

  • Data Elixir — Data Elixir每周二会发送到您的收件箱,其中包含从网络上挑选的数据科学内容。
  • Data Science Roundup - 互联网上最有用的数据科学文章。由Tristan Handy策划。
  • FiveThirtyEight  - Nate Silver使用统计分析来解决政治和体育问题的热门博客。
  • Variance Explained  - David Robinson的数据科学博客,DataCamp的首席数据科学家,这是一家通过互动在线课程教授数据科学的EdTech公司。
  • Flowing Data  - FlowingData探索统计学家,设计师,数据科学家和其他人如何使用分析、可视化和探索去理解数据和我们自己。
  • The Pudding  -  The Pudding通过视觉论文解释了文化中争论的观点
  • Datacamp  - 帮助您成为数据科学家的数据科学博客。
  • Kaggle Blog  - Kaggle.com的官方博客
  • Machine Learning Mastery  - 即使你是从0开始,也可以在真实应用程序中使用它来掌握机器学习。
  • Chris Albon  - 流行的Machine Learning Flashcards背后的数据科学家和Machine Learning with Python Cookbook作者。
  • KD Nuggets  - KDnuggets™是业务分析,大数据,数据挖掘,数据科学和机器学习的领先站点。
  • Analytics Vidhya  - 了解有关Data Analytics的所有信息。

【播客】

  • Linear Digressions  - 在每一集中,主持人通过有趣的应用程序探索机器学习和数据科学。
  • Partially Derivative  - 日常生活中每天的数据,由Data Science超级极客主持。
  • Data Skeptic  - 介绍与数据科学,机器学习,统计和人工智能相关的主题的访谈和教育讨论。
  • This Week In Machine Learning and Artificial Intelligence- 迎合热爱机器学习的观众和AI爱好者。
  • Software Engineering Daily  - 关于软件主题的技术访谈。
  • DataFramed  - 通过DataCamp,专注于探索数据科学可以解决的问题。
  • Talking Machines  - 机器学习正在改变我们可以提出的问题,我们探索如何提出最佳问题以及如何解决问题。
  • Becoming A Data Scientist Podcast  - 访问数据科学家,了解他们成功的方法。
  • AI in Industry- 每周Dan Faggella都会采访Top AI和ML高管,投资者和研究人员。

【Youtube频道】

  • 3Blue1Brown  - 到目前为止最好的数学教程频道。以可视方式解释复杂概念。
  • Brandon Foltz  - 我第二喜欢的数学频道,主要侧重于从初级到高级教学统计。
  • Computerphile  - 关于计算机和计算机的视频。
  • PyData  - PyData为数据分析工具的用户和开发人员的国际社区提供了一个论坛,分享想法,相互学习。
  • Sentdex  - Youtuber和程序员会提供高质量的数据科学教程。
  • Siraj Raval  - 与Sentdex类似,可生成有趣且信息丰富的数据科学内容。
  • 两分钟论文  - 在2分钟内解释最新的数据科学研究论文。
  • Enthought  - 从SciPy等流行的数据科学会议中寻找精彩的对话和讨论。

【大家要关注】

  • @BecomingDataSci  - HelioCampus的数据科学家Renee Teate和流行的Becoming A Data Scientist网站和播客的创建者。
  • @drob  - 大卫罗宾逊,DataCamp的首席数据科学家,Tidytext软件包和O’Reilly的书籍Text Mining with R的共同作者。
  • @chrisalbon  - Chris Albon,流行的Machine Learning Flashcards背后的数据科学家和Machine Learning with Python Cookbook的作者。
  • @frankchn  - Frank Chen,Google Brain的软件工程师,负责TensorFlow。
  • @fchollet  - Francois Chollet,Google的深度学习。神经网络库Keras的创造者。“Deep Learning with Python”的作者。
  • @goodfellow_ian  -Ian Goodfellow,Google脑研究科学家,领导一个研究人工智能对抗技术的团队。Deep Learning Book的主要作者。
  • @jakevdp  - Jake VanderPlas,华盛顿大学电子科学研究所数据科学家。访问Google的研究员; Python Data Science Handbook的作者。
  • @dataandme  - 来自Rstudio的Tidyverse Dev Advocate的Mera Averick。
  • @math_rachel  - Rachel Thomas,Fast.ai的联合创始人和旧金山大学教授。

【在线社区】

  • Python for Data Science
  • FreeCodeCamp Data Science Room
  • Reddit’s Data Science Subreddit
  • Kaggle’s online forum
  • #100DaysOfCode  - #100DaysOfCode Challenge参与者的Slack频道。
  • Stack Overflow  - 全球最大的开发者社区。

 

数据科学的学习是一个永无止境的过程,有了方法和学习资源最重要的一定还是坚持。

享受学习,享受知识,享受进步,大家加油鸭!!

 

 

想要阅读更多技术干货文章,欢迎关注网易云信博客

了解网易云信,来自网易核心架构的通信与视频云服务。


网易云信(NeteaseYunXin)是集网易18年IM以及音视频技术打造的PaaS服务产品,来自网易核心技术架构的通信与视频云服务,稳定易用且功能全面,致力于提供全球领先的技术能力和场景化解决方案。开发者通过集成客户端SDK和云端OPEN API,即可快速实现包含IM、音视频通话、直播、点播、互动白板、短信等功能。