Un aperçu de chaque cours de visualisation de données sur Internet

Il y a un an, j'ai abandonné l'un des meilleurs programmes d'informatique au Canada. J'ai commencé à créer mon propre programme de maîtrise en science des données en utilisant des ressources en ligne. J'ai réalisé que je pouvais apprendre tout ce dont j'avais besoin via edX, Coursera et Udacity à la place. Et je pourrais l'apprendre plus rapidement, plus efficacement et pour une fraction du coût.

J'ai presque fini maintenant. J'ai suivi de nombreux cours liés à la science des données et vérifié des parties de beaucoup d'autres. Je connais les options disponibles et les compétences nécessaires pour les apprenants qui se préparent à un rôle d'analyste de données ou de scientifique de données. Il y a quelques mois, j'ai commencé à créer un guide axé sur la révision qui recommande les meilleurs cours pour chaque sujet de la science des données.

Pour le premier guide de la série, j'ai recommandé quelques cours de codage pour le data scientist débutant. Ensuite, ce sont les statistiques et les classes de probabilité. Ensuite, il s'agissait d'introduction à la science des données elle-même.

Passons maintenant à la visualisation des données.

Pour ce guide, j'ai passé plus de 10 heures à essayer d'identifier tous les cours de visualisation de données en ligne proposés à partir de mars 2017, à extraire des informations clés de leurs programmes et critiques, et à compiler leurs notes. Pour cette tâche, je me suis tourné vers nul autre que la communauté open source Class Central et sa base de données de milliers de notes et de critiques de cours.

Depuis 2011, le fondateur de Class Central, Dhawal Shah, a surveillé de plus près les cours en ligne que quiconque dans le monde. Dhawal m'a personnellement aidé à rassembler cette liste de ressources.

Comment nous avons choisi les cours à considérer

Chaque cours doit répondre à trois critères:

  1. La majorité du cours doit être axée sur la visualisation de données explicatives . La couverture de la préparation des données, par exemple, est autorisée étant donné qu'il s'agit d'une partie importante du processus de visualisation des données. Les cours qui couvrent des sujets moins pertinents (modélisation statistique, par exemple) sont exclus. Plus d'informations sur la distinction explicative ci-dessous.
  2. Il doit être à la demande ou offert tous les quelques mois.
  3. Il doit s'agir d'un cours en ligne interactif, donc pas de livres ou de didacticiels en lecture seule . Bien que ce soient des moyens d'apprentissage viables, ce guide se concentre sur les cours.

Nous pensons avoir couvert tous les cours notables répondant aux critères ci-dessus. Puisqu'il existe apparemment des centaines de cours sur Udemy, nous avons choisi de ne considérer que les cours les plus évalués et les mieux notés. Il y a toujours une chance que nous ayons manqué quelque chose, alors veuillez nous le faire savoir dans la section commentaires si nous avons laissé un bon cours de côté.

Comment nous avons évalué les cours

Nous avons compilé la note moyenne et le nombre d'avis de Class Central et d'autres sites d'évaluation pour calculer une note moyenne pondérée pour chaque cours. Nous avons lu des critiques de texte et avons utilisé ces commentaires pour compléter les évaluations numériques.

Nous avons fait des appels de jugement subjectifs du programme basés sur deux facteurs, le premier étant préféré au second:

  1. Couverture de la théorie de la visualisation de données. Les motivations des choix de visualisation sont-elles expliquées? Le cours enseigne-t-il uniquement l'outil? Plus d'informations à ce sujet dans la section suivante.
  2. Couverture des outils de visualisation de données choisis. Le cours enseigne-t-il efficacement les outils de visualisation courants (Tableau, ggplot2, Seaborn, etc.)? Les élèves ont-ils la possibilité de mettre en pratique ces compétences? Aucune préférence pour le choix de l'outil n'est donnée.

Pourquoi prioriser la théorie de la visualisation

La maîtrise d'un outil spécifique est un gaspillage sans connaissance des fondamentaux d'une visualisation efficace. De plus, les outils sont souvent interchangeables en fonction du réglage.

Plus important encore, faire une bonne visualisation des données est plus complexe que la plupart des gens ne le pensent. Une réflexion approfondie est requise des étapes de planification à l'exécution. Choisir le bon graphique, équilibrer la complexité et l'encombrement, tirer parti des propriétés préventives, et plus encore, la visualisation de données est à la fois un art et une science. Il est facile de se tromper, et parfois horriblement (voir ci-dessous).

Visualisation exploratoire vs explicative

Comme décrit par Yong-Yeol Ahn, professeur à l'Université de l'Indiana, le but de la visualisation explicative des données est de communiquer des idées et des messages, tandis que l'objectif de la visualisation exploratoire est de découvrir des modèles cachés.

Cet article se concentre sur les cours de visualisation de données explicatives . Les cours comme l'analyse des données d'Udacity avec R (exclusivement un cours exploratoire) sont donc exclus de cet article. Le sujet est important; il n'y a tout simplement pas assez de cours pour justifier un article autonome. Il sera brièvement couvert dans l'article de synthèse de cette série.

Expérience de codage parfois requise

Certains cours énumérés ci-dessous nécessitent des compétences de base en codage dans la langue d'enseignement du cours. Si vous avez très peu d'expérience en programmation, nos recommandations dans le premier article de cette série - la meilleure introduction aux cours de programmation pour la science des données - seraient un bon début. Les cours Python et R sont couverts.

Examiner les données manquantes

Par rapport aux autres articles de cette série, il y a un manque de données de revue pour les cours de visualisation de données qui répondent aux critères ci-dessus. Il n'y a pas non plus de meilleur cours de visualisation des données. Les recommandations ci-dessous ne sont donc pas aussi concluantes que les articles précédents. Comme toujours, mais surtout ici, essayez de choisir le cours qui correspond le mieux à vos besoins.

Notre choix pour le meilleur cours de visualisation de données est…

  • Visualisation des données avec spécialisation Tableau par l'Université de Californie, Davis sur Coursera

… Qui contient les cinq cours suivants:

  • Principes de base de la visualisation avec Tableau
  • Principes de conception essentiels pour Tableau
  • Analyse visuelle avec Tableau
  • Création de tableaux de bord et de narration avec Tableau
  • Visualisation des données avec Tableau Project

L'Université de Californie, Davis 'Data Visualization with Tableau Specialization' offre la meilleure combinaison de théorie et de couverture d'outils disponible sur la base des critères d'évaluation de cet article. Il plonge profondément dans la théorie comme peu d'autres cours. Il existe des possibilités de pratiquer Tableau via des procédures pas à pas et un projet final, bien que la maîtrise de Tableau ne soit pas l'objectif principal. Il s'agit d'une spécialisation assez récente (fin 2016) et les cours n'ont qu'une note 4 étoiles entre eux sur les sites d'évaluation utilisés pour cette analyse.

Govind Acharya, Hunter Whitney et Suk Brar sont les instructeurs. Acharya est analyste principal chez UC Davis. Whitney et Brar sont des professionnels respectés de l'industrie. Entre eux, ils ont des décennies d'expérience en visualisation de données qui est clairement véhiculée à travers le contenu du cours. Les vidéos sont bien produites.

Le calendrier estimé pour la spécialisation sur Coursera est de 22 semaines avec des engagements hebdomadaires allant de trois à huit heures par semaine. Ces estimations sont assurément trop élevées, comme l'ont noté plusieurs critiques et mon expérience avec Coursera. Des options gratuites (auditer chaque cours individuellement) et payantes (payant pour la spécialisation) sont actuellement disponibles.

Plusieurs critiques éminents sur Coursera ont noté ce qui suit:

Ils vous expliquent non seulement comment faire la conception de la visualisation, mais aussi pourquoi (la physiologie, les principes). Je recommanderais vivement ce cours.Excellent cours - protège contre certains pièges subtils dans la préparation de la visualisation.Bien qu'une introduction très basique à l'utilisation de Tableau, le cours fournit un contexte large et intéressant qui devrait s'avérer utile à quiconque cherche à améliorer sa compréhension de les principes de base de la visualisation.

Théorie de la visualisation et R, appris en faisant

  • Visualisation des données avec ggplot2 par DataCamp

… Pour laquelle il y a trois parties:

  • Visualisation des données avec ggplot2 (partie 1)
  • Visualisation des données avec ggplot2 (partie 2)
  • Visualisation des données avec ggplot2 (partie 3)

Une autre excellente option est la visualisation des données de DataCamp avec la série ggplot2, en particulier si vous voulez apprendre R et, plus spécifiquement, ggplot2. Une quantité substantielle de théorie est couverte, ce qui convient étant donné que ggplot2 est inspiré de The Grammar of Graphics. La couverture des outils et la pratique sont également impressionnantes - vous connaîtrez assez bien R et sa syntaxe originale en quittant ces cours. Il n'y a aucun avis pour ces cours sur les sites d'évaluation utilisés pour cette analyse.

L'instructeur pour les trois cours est Rick Scavetta, qui est biologiste, formateur d'atelier, scientifique indépendant des données et cofondateur de Science Craft. Le style d'enseignement hybride de DataCamp exploite la vidéo (avec Scavetta) et les instructions basées sur du texte avec de nombreux exemples via un éditeur de code dans le navigateur. Le contenu de la vidéo, du texte et du code est bien poli.

Ensemble, le calendrier estimé pour les trois cours est de 16 heures. Le premier chapitre de chaque cours est disponible gratuitement. Un abonnement DataCamp, qui coûte actuellement 29 $ par mois ou 300 $ par an, est requis pour un accès complet.

L'approbation suivante est de Hadley Wickham, scientifique en chef chez RStudio et créateur de ggplot2:

Je recommande vivement «Visualisation des données avec ggplot2» de Rick Scavetta. Il vous donne une excellente introduction à ggplot2. Vous apprendrez à la fois la théorie sous-jacente et vous mettrez la main sur la pratique dans l'environnement d'apprentissage en ligne de DataCamp.

Une introduction pratique à Tableau avec un excellent instructeur

Série Tableau 10 par Kirill Eremenko et l'équipe SuperDataScience sur Udemy, qui comprend:

  • Tableau 10 AZ: Formation pratique sur Tableau pour la science des données!
  • Formation avancée Tableau 10: Maîtrisez Tableau en science des données

Enseigné par Kirill Eremenko, la série Tableau 10 de SuperDataScience est une introduction pratique efficace. Il se concentre principalement sur la couverture des outils (Tableau) plutôt que sur la théorie de la visualisation des données. Eremenko est l'un des instructeurs les plus appréciés de ces guides avec des critiques toujours positives sur ses cours. Le cours AZ est une condition préalable au cours de formation avancée. Ensemble, les cours de la série ont une note moyenne pondérée de 4,6 étoiles sur 3724 avis.

La série a dix-sept heures de contenu vidéo. Le coût de chaque cours varie en fonction des remises Udemy, mais celles-ci sont fréquentes et peuvent être achetées pour aussi peu que 10 $.

Plusieurs critiques éminents ont noté ce qui suit:

C'était génial. J'utilise Tableau tous les jours, mais c'était un excellent rappel sur certains des éléments que je n'utilise pas et une excellente aide à l'étude pour passer l'examen professionnel certifié Tableau. Bon travail Kirill et l'équipe!

Kirill est un enseignant formidable et les étudiants qui suivent ce cours verront clairement pourquoi il a des dizaines de cours et des milliers d'étudiants - il est capable d'enseigner des compétences complexes, dans un contexte commercial réel et de le faire progressivement, combinant ainsi la tâche souvent complexe d'enseigner les deux. fondamentaux et applications spécifiques au contexte simultanément.

La compétition

Regardons les autres alternatives, triées par note décroissante.

Visualisation interactive des données avec Python et Bokeh (Ardit Sulce / Udemy): focus sur l'outil (Python et Bokeh). Comprend une section sur la création d'applications Web. Sept heures de vidéo. Le coût varie en fonction des remises Udemy, qui sont fréquentes. Il a une note moyenne pondérée de 4,6 étoiles sur 103 avis.

Visualisation de l'information (IVMOOC) (Indiana University / Independent): Couvre la théorie et plusieurs outils de manière très détaillée. Projet réaliste impressionnant. L'inscription n'a pas fonctionné lors d'une tentative malgré les courriels adressés aux administrateurs du cours. Un cours d'études supérieures complet de douze semaines. Libre. Il a une note moyenne pondérée de 4,5 étoiles sur 2 avis.

Tableau pour les débutants - Obtenez une certification Accélérez votre carrière (Lukas Halim / Udemy): Focus sur l'outil (Tableau). Quatre heures de vidéo. Le coût varie en fonction des remises Udemy, qui sont fréquentes. Il a une note moyenne pondérée de 4,5 étoiles sur 649 avis.

Analyse et visualisation des données avec Power BI (Microsoft / edX): focus sur l'outil (Power BI). Conçu pour les utilisateurs professionnels investis dans l'écosystème Microsoft. Fait partie du certificat du programme professionnel Microsoft en science des données. Calendrier estimé de deux à quatre heures par semaine sur six semaines. Gratuit avec un certificat vérifié disponible à l'achat. Il a une note moyenne pondérée de 4,5 étoiles sur 117 avis.

Analyser et visualiser des données avec Excel (Microsoft / edX): Focus sur l'outil (Excel). Conçu pour les utilisateurs professionnels investis dans l'écosystème Microsoft. Fait partie du certificat du programme professionnel Microsoft en science des données. Calendrier estimé de deux à quatre heures par semaine sur six semaines. Gratuit avec un certificat vérifié disponible à l'achat. Il a une note moyenne pondérée de 4,5 étoiles sur 972 avis.

Données Visualisez les données avec D3.js The Easy Way (Infinite Skills / Udemy): Focus sur l'outil (D3.js). Quatre heures de vidéo. Le coût varie en fonction des remises Udemy, qui sont fréquentes. Il a une note moyenne pondérée de 4,4 étoiles sur 262 avis.

Visualisation des données avec Python et Matplotlib (Stone River eLearning / Udemy): focus sur l'outil (Python et Matplotlib). Six heures de vidéo. Le coût varie en fonction des remises Udemy, qui sont fréquentes. Il a une note moyenne pondérée de 4,4 étoiles sur 92 avis.

Analyse de données: visualisation et conception de tableau de bord (Université de technologie de Delft / edX): outil (Excel) et orientation commerciale. Calendrier estimé de quatre à six heures par semaine sur six semaines. Gratuit avec un certificat vérifié disponible à l'achat. Il a une note moyenne pondérée de 4,2 étoiles sur 5 avis.

Big Data: Visualisation des données (Queensland University of Technology / FutureLearn): théorie équilibrée / focus sur les outils. Exposition à une variété d'outils. Début août 2017. Calendrier estimé de deux heures par semaine sur trois semaines. Gratuit avec une «mise à niveau» disponible à l'achat. Il a une note de 4 étoiles sur 1 avis.

Visualisation des données et communication avec Tableau (Duke University / Coursera): outil (Tableau) et orientation métier. Une partie de la spécialisation Excel vers MySQL: Techniques analytiques pour les entreprises. Calendrier estimé de six à huit heures par semaine sur cinq semaines. Options gratuites et payantes disponibles. Il a une note moyenne pondérée de 3,67 étoiles sur 9 avis.

Visualisation des données (Université de l'Illinois à Urbana-Champaign / Coursera): Focus sur la théorie. Fait partie de la spécialisation Data Mining. Calendrier estimé de quatre à six heures par semaine sur quatre semaines. Options gratuites et payantes disponibles. Il a une note moyenne pondérée de 3,14 étoiles sur 22 avis.

Visualisation des données et D3.js (Udacity): théorie équilibrée / focus outil. L'instruction D3.js semble «incomplète» et «déplacée». Délai estimé de sept semaines. Libre. Il a une note moyenne pondérée de 2,83 étoiles sur 6 avis.

Gestion et visualisation des données (Wesleyan University / Coursera): théorie équilibrée / orientation des outils. Couvre plusieurs outils (Python et SAS). Fait partie de la spécialisation en analyse et interprétation des données de Wesleyan. Calendrier estimé de quatre à cinq heures par semaine sur quatre semaines. Options gratuites et payantes disponibles. Il a une note moyenne pondérée de 2,67 étoiles sur 6 avis.

Tracé appliqué, cartographie et représentation des données en Python (Université du Michigan / Coursera): théorie équilibrée et orientation des outils. Options gratuites et payantes disponibles. Il a une note moyenne pondérée de 2 étoiles sur 4 avis.

Les cours suivants n'avaient pas été évalués en mars 2017.

Visualisation des données dans Tableau (Udacity): mise au point sur la théorie avec une excellente couverture. Brève couverture des outils (Tableau). Enseignement principalement basé sur du texte avec des quiz à choix multiples. Fait partie de Data Analyst Nanodegree d'Udacity et d'analyse prédictive pour Business Nanodegree. Ce cours est probablement lié à une des trois premières places lorsqu'il est mis à jour avec des vidéos pour compléter le texte. Délai estimé de trois semaines. Libre.

Construire des outils de visualisation de données (Johns Hopkins University / Coursera): Focus sur l'outil (R et ggplot2). Dans le cadre de la spécialisation Mastering Software Development in R. de JHU. Calendrier estimé de deux heures par semaine sur quatre semaines. Options gratuites et payantes disponibles.

Visualisation des données pour tous (Trinity College / edX): Focus sur la théorie. Calendrier estimé de trois heures par semaine sur six semaines. Gratuit avec certificat vérifié disponible à l'achat.

Visualisation des données avec Advanced Excel (PwC / Coursera): Focus sur l'outil (Excel). Une partie des compétences d'analyse et de présentation des données de PwC: la spécialisation PwC Approach. Calendrier estimé de trois à quatre heures par semaine sur quatre semaines. Options gratuites et payantes disponibles.

Communication des résultats de l'analyse commerciale (Université du Colorado à Boulder / Coursera): théorie et orientation commerciale. Fait partie de la spécialisation Data Analytics for Business Bootcamp du Colorado Boulder. Délai estimé de quatre semaines. Options gratuites et payantes disponibles.

Storytelling Through Data Visualization (Dataquest): Principalement un focus outil (Python, Matplotlib et Seaborn). Le calendrier estimé n'est pas clair. Généralement gratuit, mais un abonnement est requis pour un accès complet.

Parcours d'apprentissage de la visualisation de données (O'Reilly): orientation équilibrée outil / théorie Couvre D3.js. Plusieurs instructeurs. Quinze heures de contenu. Gratuit avec un essai gratuit de dix jours.

Visualisation des données pour les développeurs (Dan Appleman / Pluralsight): Focus sur la théorie. Conçu pour les développeurs. Deux heures de contenu. Gratuit avec un essai gratuit de dix jours.

Les quatre cours suivants sont créés par Bill Shander de Beehive Media et offerts sur Lynda. Ils sont classés par ordre chronologique par date de sortie.

Fondamentaux de la visualisation des données (Bill Shander / Lynda): Focus sur la théorie. Quatre heures de contenu. Gratuit avec un essai gratuit de dix jours.

Conception d'une visualisation de données (Bill Shander / Lynda): Focus sur la théorie. Couvre la création d'un projet spécifique du concept à l'analyse des données en passant par la conception et l'exécution. Quatre heures de contenu. Gratuit avec un essai gratuit de dix jours.

Visualisation des données pour les analystes de données (Bill Shander / Lynda): Focus sur la théorie. Conçu pour les analystes de données. Deux heures de contenu. Gratuit avec un essai gratuit de dix jours.

Visualisation des données: l'essentiel de la narration (Bill Shander / Lynda): Focus sur la théorie. Deux heures de contenu. Gratuit avec un essai gratuit de dix jours.

Visualisation en R, du débutant à avancé (Nathan Yau / FlowingData): Un cours de quatre semaines. Abonnement requis.

Les quatre cours suivants sont proposés par DataCamp. Comme indiqué ci-dessus, le style d'enseignement hybride de DataCamp tire parti des instructions vidéo et textuelles avec de nombreux exemples via un éditeur de code intégré au navigateur.

Visualisation des données en R (DataCamp): théorie équilibrée / focus outil. Couvre les graphiques de base R. Délai estimé de quatre heures. Abonnement requis pour un accès complet.

Introduction à la visualisation de données avec Python (DataCamp): focus sur l'outil (Python, Matplotlib et Seaborn). Délai estimé de quatre heures. Abonnement requis pour un accès complet.

Visualisation interactive des données avec Bokeh (DataCamp): focus sur l'outil (Python et Bokeh). Délai estimé de quatre heures. Abonnement requis pour un accès complet.

Visualisation des données en R avec ggvis (DataCamp): théorie équilibrée / focus outil. Couvre R et ggvis. Délai estimé de quatre heures. Abonnement requis pour un accès complet.

Emballer

Il s'agit du quatrième d'une série de six articles qui couvre les meilleurs cours en ligne pour vous lancer dans le domaine de la science des données. Nous avons couvert la programmation dans le premier article, les statistiques et les probabilités dans le deuxième article, et les introductions à la science des données dans le troisième article. Le reste de la série couvrira d'autres compétences de base en science des données. Ensuite, il y a l'apprentissage automatique.

Si vous souhaitez apprendre la science des données, commencez par l'un de ces cours de programmation

medium.freecodecamp.com Si vous souhaitez apprendre la science des données, suivez quelques-uns de ces cours de statistiques

medium.freecodecamp.com J'ai classé chaque cours d'introduction à la science des données sur Internet, sur la base de milliers de points de données

medium.freecodecamp.com

La dernière pièce sera un résumé de ces articles, ainsi que les meilleurs cours en ligne sur d'autres sujets clés tels que la gestion des données, les bases de données et même le génie logiciel.

Si vous recherchez une liste complète des cours en ligne sur la science des données, vous pouvez les trouver sur la page thématique Science des données et Big Data de Class Central.

Si vous avez aimé lire ceci, consultez quelques-unes des autres pièces de Class Central:

Voici 250 cours de l'Ivy League que vous pouvez suivre gratuitement en ligne dès maintenant

250 MOOC de Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton et Yale. medium.freecodecamp.com Les 50 meilleurs cours universitaires en ligne gratuits selon les données

Lorsque j'ai lancé Class Central en novembre 2011, il y avait environ 18 cours en ligne gratuits, et presque tous… medium.freecodecamp.com

Si vous avez des suggestions de cours que j'ai manqués, faites-le moi savoir dans les réponses!

Si vous avez trouvé cela utile, cliquez sur le? donc plus de gens le verront ici sur Medium.

Ceci est une version condensée de mon article original publié sur Class Central, dans lequel j'ai inclus d'autres descriptions de cours, des plans de cours et plusieurs critiques.