J'ai classé chaque cours d'introduction à la science des données sur Internet, sur la base de milliers de points de données

Il y a un an, j'ai abandonné l'un des meilleurs programmes d'informatique au Canada. J'ai commencé à créer mon propre programme de maîtrise en science des données en utilisant des ressources en ligne. J'ai réalisé que je pouvais apprendre tout ce dont j'avais besoin via edX, Coursera et Udacity à la place. Et je pourrais l'apprendre plus rapidement, plus efficacement et pour une fraction du coût.

J'ai presque fini maintenant. J'ai suivi de nombreux cours liés à la science des données et vérifié des parties de beaucoup d'autres. Je connais les options disponibles et les compétences nécessaires pour les apprenants qui se préparent à un rôle d'analyste de données ou de scientifique de données. Il y a quelques mois, j'ai commencé à créer un guide axé sur la révision qui recommande les meilleurs cours pour chaque sujet de la science des données.

Pour le premier guide de la série, j'ai recommandé quelques cours de codage pour le data scientist débutant. Ensuite, ce sont les statistiques et les classes de probabilité.

Passons maintenant aux introductions à la science des données.

(Ne vous inquiétez pas si vous n'êtes pas sûr de ce qu'implique un cours d'introduction à la science des données. Je vous expliquerai sous peu.)

Pour ce guide, j'ai passé plus de 10 heures à essayer d'identifier chaque cours d'introduction en ligne à la science des données proposé à partir de janvier 2017, à extraire des informations clés de leurs programmes et critiques, et à compiler leurs notes. Pour cette tâche, je me suis tourné vers nul autre que la communauté open source Class Central et sa base de données de milliers de notes et de critiques de cours.

Depuis 2011, le fondateur de Class Central, Dhawal Shah, a surveillé de plus près les cours en ligne que quiconque dans le monde. Dhawal m'a personnellement aidé à rassembler cette liste de ressources.

Comment nous avons choisi les cours à considérer

Chaque cours doit répondre à trois critères:

  1. Il doit enseigner le processus de science des données. Plus d'informations à ce sujet bientôt.
  2. Il doit être à la demande ou offert tous les quelques mois.
  3. Il doit s'agir d'un cours en ligne interactif, donc pas de livres ou de didacticiels en lecture seule . Bien que ce soient des moyens d'apprentissage viables, ce guide se concentre sur les cours.

Nous pensons avoir couvert tous les cours notables répondant aux critères ci-dessus. Puisqu'il existe apparemment des centaines de cours sur Udemy, nous avons choisi de ne considérer que les cours les plus évalués et les mieux notés. Cependant, il y a toujours une chance que nous ayons raté quelque chose. Alors s'il vous plaît laissez-nous savoir dans la section commentaires si nous avons laissé un bon cours.

Comment nous avons évalué les cours

Nous avons compilé la note moyenne et le nombre d'avis de Class Central et d'autres sites d'évaluation pour calculer une note moyenne pondérée pour chaque cours. Nous avons lu des critiques de texte et avons utilisé ces commentaires pour compléter les évaluations numériques.

Nous avons fait des appels de jugement subjectifs du programme basés sur deux facteurs:

1. Couverture du processus de science des données. Le cours effleure-t-il ou saute-t-il certains sujets? Couvre-t-il certains sujets de manière trop détaillée? Voir la section suivante pour ce que ce processus implique.

2. Utilisation d'outils communs de science des données. Le cours est-il enseigné à l'aide de langages de programmation courants tels que Python et / ou R? Ceux-ci ne sont pas nécessaires, mais utiles dans la plupart des cas, donc une légère préférence est donnée à ces cours.

Quel est le processus de science des données?

Qu'est-ce que la science des données? Que fait un data scientist? Ce sont les types de questions fondamentales auxquelles un cours d'introduction à la science des données devrait répondre. L'infographie suivante des professeurs de Harvard Joe Blitzstein et Hanspeter Pfister décrit un processus typique de science des données , qui nous aidera à répondre à ces questions.

Notre objectif avec ce cours d'introduction à la science des données est de se familiariser avec le processus de science des données. Nous ne voulons pas une couverture trop approfondie des aspects spécifiques du processus, d'où la partie «intro» du titre.

Pour chaque aspect, le cours idéal explique les concepts clés dans le cadre du processus, présente des outils communs et fournit quelques exemples (de préférence pratiques).

Nous cherchons seulement une introduction. Ce guide n'inclura donc pas de spécialisations complètes ou de programmes tels que la spécialisation en science des données de l'Université Johns Hopkins sur Coursera ou le Data Analyst Nanodegree d'Udacity. Ces compilations de cours échappent à l'objectif de cette série: trouver les meilleurs cours individuels pour chaque matière pour constituer une formation en science des données. Les trois derniers guides de cette série d'articles couvriront en détail chaque aspect du processus de science des données.

Expérience de base en codage, statistiques et probabilités requise

Plusieurs cours énumérés ci-dessous nécessitent une expérience de base en programmation, en statistiques et en probabilités. Cette exigence est compréhensible étant donné que le nouveau contenu est raisonnablement avancé et que ces matières ont souvent plusieurs cours qui leur sont dédiés.

Cette expérience peut être acquise grâce à nos recommandations dans les deux premiers articles (programmation, statistiques) de ce guide de carrière en science des données.

Notre choix pour le meilleur cours d'introduction à la science des données est…

  • Data Science AZ ™: Exercices de science des données réels inclus (Kirill Eremenko / Udemy)

Le Data Science AZ ™ de Kirill Eremenko sur Udemy est le gagnant incontestable en termes d'ampleur et de profondeur de couverture du processus de science des données des plus de 20 cours qualifiés. Il a une note moyenne pondérée de 4,5 étoiles sur 3071 avis, ce qui le place parmi les cours les mieux notés et les plus commentés de ceux considérés.

Il décrit le processus complet et fournit des exemples concrets. À 21 heures de contenu, c'est une bonne durée. Les évaluateurs aiment la prestation de l'instructeur et l'organisation du contenu. Le prix varie en fonction des remises Udemy, qui sont fréquentes, vous pouvez donc acheter un accès pour aussi peu que 10 $.

Bien que cela ne coche pas notre case «utilisation des outils communs de science des données» , les choix d'outils non Python / R (gretl, Tableau, Excel) sont utilisés efficacement en contexte. Eremenko mentionne ce qui suit pour expliquer le choix de gretl (gretl est un progiciel statistique), bien qu'il s'applique à tous les outils qu'il utilise (c'est moi qui souligne):

En gretl, nous pourrons faire la même modélisation comme en R et Python mais nous n'aurons pas à coder. C'est le gros problème ici. Certains d'entre vous connaissent peut-être déjà très bien R, mais certains ne le savent peut-être pas du tout. Mon objectif est de vous montrer comment créer un modèle robuste et de vous donner un cadre que vous pouvez appliquer dans n'importe quel outil de votre choix . gretl nous aidera à éviter de nous enliser dans notre codage.

Un critique éminent a noté ce qui suit:

Kirill est le meilleur professeur que j'ai trouvé en ligne. Il utilise des exemples de la vie réelle et explique les problèmes courants afin que vous ayez une compréhension plus approfondie du cours. Il fournit également de nombreuses informations sur ce que signifie être un data scientist: travailler avec des données insuffisantes jusqu'à la présentation de votre travail à la direction de classe C. Je recommande vivement ce cours aux étudiants débutants aux analystes de données intermédiaires!

Une excellente introduction axée sur Python

  • Introduction à l'analyse des données (Udacity)

L'introduction à l'analyse des données d'Udacity est une offre relativement nouvelle qui fait partie du populaire Data Analyst Nanodegree d'Udacity. Il couvre le processus de science des données de manière claire et cohérente en utilisant Python, bien qu'il manque un peu l'aspect de la modélisation. Le délai estimé est de 36 heures (six heures par semaine sur six semaines), bien qu'il soit plus court d'après mon expérience. Il a une note moyenne pondérée de 5 étoiles sur deux avis. Ce est gratuit.

Les vidéos sont bien produites et l'instructrice (Caroline Buckey) est claire et sympathique. De nombreux quiz de programmation appliquent les concepts appris dans les vidéos. Les étudiants quitteront le cours confiants dans leurs compétences nouvelles et / ou améliorées NumPy et Pandas (ce sont des bibliothèques Python populaires). Le projet final - qui est noté et examiné dans le Nanodegree mais pas dans le cours individuel gratuit - peut être un ajout intéressant à un portfolio.

Une offre impressionnante sans données d'évaluation

  • Fondamentaux de la science des données (Big Data University)

Data Science Fundamentals est une série de quatre cours dispensée par l'Université Big Data d'IBM. Il comprend des cours intitulés Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools et R 101.

Il couvre l'ensemble du processus de science des données et présente Python, R et plusieurs autres outils open source. Les cours ont une valeur de production énorme. 13 à 18 heures d'effort sont estimées, selon que vous suivez le cours «R 101» à la fin, ce qui n'est pas nécessaire aux fins de ce guide. Malheureusement, il ne dispose d'aucune donnée d'évaluation sur les principaux sites d'évaluation que nous avons utilisés pour cette analyse, nous ne pouvons donc pas encore le recommander parmi les deux options ci-dessus. Ce est gratuit.

La compétition

Notre choix n ° 1 a obtenu une note moyenne pondérée de 4,5 étoiles sur 5 sur 3068 avis. Regardons les autres alternatives, triées par note décroissante. Vous trouverez ci-dessous plusieurs cours axés sur R, si vous souhaitez une introduction dans cette langue.

  • Bootcamp Python pour la science des données et l'apprentissage automatique (Jose Portilla / Udemy): Couverture complète des processus avec une concentration sur les outils (Python). Moins axé sur les processus et plus d'une introduction très détaillée à Python. Bien sûr incroyable, mais pas idéal pour la portée de ce guide. Comme le cours R de Jose ci-dessous, il peut servir à la fois d'intros à Python / R et d'intros à la science des données. 21,5 heures de contenu. Il a une note moyenne pondérée de 4,7 étoiles sur 1644 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Bootcamp sur la science des données et l'apprentissage automatique avec R (Jose Portilla / Udemy): Couverture complète des processus avec une concentration sur les outils (R). Moins axé sur les processus et plus d'une introduction très détaillée au cours R. Amazing, mais pas idéal pour la portée de ce guide. Comme le cours Python de Jose ci-dessus, il peut servir à la fois d'intros à Python / R et d'intros à la science des données. 18 heures de contenu. Il a une note moyenne pondérée de 4,6 étoiles sur 847 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Science des données et apprentissage automatique avec Python - Pratique! (Frank Kane / Udemy): Couverture partielle du processus. Se concentre sur les statistiques et l'apprentissage automatique. Durée décente (neuf heures de contenu). Utilise Python. Il a une note moyenne pondérée de 4,5 étoiles sur 3 104 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Introduction à la science des données (Data Hawk Tech / Udemy): Couverture complète des processus, mais profondeur de couverture limitée. Assez court (trois heures de contenu). Couvre brièvement à la fois R et Python. Il a une note moyenne pondérée de 4,4 étoiles sur 62 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Applied Data Science: An Introduction (Syracuse University / Open Education by Blackboard): Couverture complète du processus, mais pas uniformément répartie. Se concentre fortement sur les statistiques de base et R. Trop appliqué et pas assez de concentration sur les processus aux fins de ce guide. L'expérience des cours en ligne semble décousue. Il a une note moyenne pondérée de 4,33 étoiles sur 6 avis. Libre.
  • Introduction à la science des données (Nina Zumel & John Mount / Udemy): Couverture partielle des processus uniquement, bien que la préparation des données et la modélisation soient bien approfondies. Bonne durée (six heures de contenu). Utilise R. Il a une note moyenne pondérée de 4,3 étoiles sur 101 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Science des données appliquée avec Python (V2 Maestros / Udemy): Couverture complète du processus avec une bonne profondeur de couverture pour chaque aspect du processus. Durée décente (8,5 heures de contenu). Utilise Python. Il a une note moyenne pondérée de 4,3 étoiles sur 92 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Vous voulez devenir Data Scientist? (V2 Maestros / Udemy): Couverture complète du processus, mais profondeur de couverture limitée. Assez court (3 heures de contenu). Couverture d'outils limitée. Il a une note moyenne pondérée de 4,3 étoiles sur 790 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Data to Insight: an Introduction to Data Analysis (Université d'Auckland / FutureLearn): l'étendue de la couverture n'est pas claire. Prétend se concentrer sur l'exploration, la découverte et la visualisation des données. Non offert sur demande. 24 heures de contenu (trois heures par semaine pendant huit semaines). Il a une note moyenne pondérée de 4 étoiles sur 2 avis. Gratuit avec certificat payant disponible.
  • Orientation de la science des données (Microsoft / edX): Couverture partielle des processus (manque d'aspect de modélisation). Utilise Excel, ce qui est logique étant donné qu'il s'agit d'un cours de marque Microsoft. 12 à 24 heures de contenu (deux à quatre heures par semaine pendant six semaines). Il a une note moyenne pondérée de 3,95 étoiles sur 40 avis. Gratuit avec certificat vérifié disponible pour 25 $.
  • Data Science Essentials (Microsoft / edX): Couverture complète des processus avec une bonne profondeur de couverture pour chaque aspect. Couvre R, Python et Azure ML (une plate-forme d'apprentissage automatique Microsoft). Plusieurs critiques 1 étoile citant le choix de l'outil (Azure ML) et la mauvaise prestation de l'instructeur. 18 à 24 heures de contenu (trois à quatre heures par semaine pendant six semaines). Il a une note moyenne pondérée de 3,81 étoiles sur 67 avis. Gratuit avec certificat vérifié disponible pour 49 $.
  • Applied Data Science with R (V2 Maestros / Udemy): Le compagnon R du cours Python de V2 Maestros ci-dessus. Couverture complète du processus avec une bonne profondeur de couverture pour chaque aspect du processus. Durée décente (11 heures de contenu). Utilise R. Il a une note moyenne pondérée de 3,8 étoiles sur 212 avis. Le coût varie en fonction des remises Udemy, qui sont fréquentes.
  • Introduction à la science des données (Udacity): Couverture partielle des processus, bien que bonne profondeur pour les sujets abordés. Manque l'aspect exploration, bien qu'Udacity propose un excellent cours complet sur l'analyse exploratoire des données (EDA). Prétend être une durée de 48 heures (six heures par semaine sur huit semaines), mais est plus courte selon mon expérience. Certains avis pensent que la configuration du contenu avancé fait défaut. Se sent désorganisé. Utilise Python. Il a une note moyenne pondérée de 3,61 étoiles sur 18 avis. Libre.
  • Introduction à la science des données en Python (Université du Michigan / Coursera): Couverture partielle des processus. Pas de modélisation et de visualisation, bien que les cours n ° 2 et n ° 3 de la spécialisation Applied Data Science with Python couvrent ces aspects. Suivre les trois cours serait trop approfondi aux fins de ces guides. Utilise Python. Quatre semaines. Il a une note moyenne pondérée de 3,6 étoiles sur 15 avis. Options gratuites et payantes disponibles.
  • Prise de décision basée sur les données (PwC / Coursera): couverture partielle (manque de modélisation) avec une orientation commerciale. Présente de nombreux outils, notamment R, Python, Excel, SAS et Tableau. Quatre semaines. Il a une note moyenne pondérée de 3,5 étoiles sur 2 avis. Options gratuites et payantes disponibles.
  • Un cours accéléré en science des données (Université Johns Hopkins / Coursera): Un aperçu extrêmement bref de l'ensemble du processus. Trop bref pour les besoins de cette série. Durée de deux heures. Il a une note moyenne pondérée de 3,4 étoiles sur 19 avis. Options gratuites et payantes disponibles.
  • The Data Scientist's Toolbox (Johns Hopkins University / Coursera): un aperçu extrêmement bref de l'ensemble du processus. Plus d'un cours de mise en place pour la spécialisation en science des données de l'Université Johns Hopkins. Prétend avoir de 4 à 16 heures de contenu (une à quatre heures par semaine sur quatre semaines), même si un critique a noté qu'il pourrait être terminé en deux heures. Il a une note moyenne pondérée de 3,22 étoiles sur 182 avis. Options gratuites et payantes disponibles.
  • Gestion et visualisation des données (Wesleyan University / Coursera): Couverture partielle des processus (manque de modélisation). Quatre semaines. Bonne valeur de production. Utilise Python et SAS. Il a une note moyenne pondérée de 2,67 étoiles sur 6 avis. Options gratuites et payantes disponibles.

Les cours suivants n'avaient pas été évalués en janvier 2017.

  • CS109 Data Science (Harvard University): Couverture complète du processus en grande profondeur (probablement trop approfondie pour les besoins de cette série). Un cours de premier cycle complet de 12 semaines. La navigation dans les cours est difficile car le cours n'est pas conçu pour une consommation en ligne. Les véritables conférences de Harvard sont filmées. L'infographie sur le processus de science des données ci-dessus provient de ce cours. Utilise Python. Aucune donnée d'examen. Libre.
  • Introduction to Data Analytics for Business (University of Colorado Boulder / Coursera): Couverture partielle des processus (manque d'aspects de modélisation et de visualisation) avec un accent sur les affaires. Le processus de science des données est déguisé en «chaîne de valeur information-action» dans leurs conférences. Quatre semaines. Décrit plusieurs outils, mais ne couvre que SQL en profondeur. Aucune donnée d'examen. Options gratuites et payantes disponibles.
  • Introduction à la science des données (Lynda): Couverture complète des processus, bien que la couverture soit limitée. Assez court (trois heures de contenu). Présente à la fois R et Python. Aucune donnée d'examen. Le coût dépend de l'abonnement Lynda.

Emballer

Ceci est le troisième d'une série de six articles qui couvre les meilleurs cours en ligne pour vous lancer dans le domaine de la science des données. Nous avons couvert la programmation dans le premier article et les statistiques et les probabilités dans le deuxième article. Le reste de la série couvrira d'autres compétences de base en science des données: la visualisation des données et l'apprentissage automatique.

Si vous souhaitez apprendre la science des données, commencez par l'un de ces cours de programmation

Si vous souhaitez apprendre la science des données, suivez quelques-uns de ces cours de statistiques

La dernière pièce sera un résumé de ces articles, ainsi que les meilleurs cours en ligne sur d'autres sujets clés tels que la gestion des données, les bases de données et même le génie logiciel.

Si vous recherchez une liste complète des cours en ligne sur la science des données, vous pouvez les trouver sur la page thématique Science des données et Big Data de Class Central.

Si vous avez aimé lire ceci, consultez quelques-unes des autres pièces de Class Central:

Voici 250 cours de l'Ivy League que vous pouvez suivre gratuitement en ligne dès maintenant

250 MOOC de Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton et Yale.

Les 50 meilleurs cours universitaires en ligne gratuits selon les données

Lorsque j'ai lancé Class Central en novembre 2011, il y avait environ 18 cours en ligne gratuits, et presque tous…

Si vous avez des suggestions de cours que j'ai manqués, faites-le moi savoir dans les réponses!

Si vous avez trouvé cela utile, cliquez sur le? donc plus de gens le verront ici sur Medium.

Ceci est une version condensée de mon article original publié sur Class Central, dans lequel j'ai inclus d'autres descriptions de cours, des plans de cours et plusieurs critiques.