Vous voulez savoir comment fonctionne le Deep Learning? Voici un guide rapide pour tout le monde.

L'intelligence artificielle (IA) et l' apprentissage automatique (ML) sont parmi les sujets les plus brûlants à l'heure actuelle.

Le terme «IA» est utilisé tous les jours avec désinvolture. Vous entendez les futurs développeurs dire qu'ils veulent apprendre l'IA. Vous entendez également des dirigeants dire qu'ils souhaitent mettre en œuvre l'IA dans leurs services. Mais bien souvent, bon nombre de ces personnes ne comprennent pas ce qu'est l'IA.

Une fois que vous aurez lu cet article, vous comprendrez les bases de l'IA et du ML. Plus important encore, vous comprendrez comment le Deep Learning, le type de ML le plus populaire, fonctionne.

Ce guide est destiné à tout le monde, donc aucune mathématique avancée ne sera impliquée.

Contexte

La première étape pour comprendre le fonctionnement du Deep Learning est de saisir les différences entre les termes importants.

Intelligence artificielle vs apprentissage automatique

L'intelligence artificielle est la réplication de l'intelligence humaine dans les ordinateurs.

Lorsque la recherche sur l'IA a commencé, les chercheurs essayaient de reproduire l'intelligence humaine pour des tâches spécifiques, comme jouer à un jeu.

Ils ont introduit un grand nombre de règles que l'ordinateur devait respecter. L'ordinateur avait une liste spécifique d'actions possibles et prenait des décisions basées sur ces règles.

L'apprentissage automatique fait référence à la capacité d'une machine à apprendre en utilisant de grands ensembles de données au lieu de règles codées en dur.

Le ML permet aux ordinateurs d'apprendre par eux-mêmes. Ce type d'apprentissage tire parti de la puissance de traitement des ordinateurs modernes, qui peuvent facilement traiter de grands ensembles de données.

Apprentissage supervisé vs apprentissage non supervisé

L'apprentissage supervisé implique l'utilisation d'ensembles de données étiquetés qui ont des entrées et des sorties attendues.

Lorsque vous entraînez une IA à l'aide de l'apprentissage supervisé, vous lui donnez une entrée et lui indiquez la sortie attendue.

Si la sortie générée par l'IA est erronée, elle réajustera ses calculs. Ce processus est effectué de manière itérative sur l'ensemble de données, jusqu'à ce que l'IA ne fasse plus d'erreur.

Un exemple d'apprentissage supervisé est une IA de prévision météorologique. Il apprend à prédire la météo à l'aide de données historiques. Ces données d'entraînement ont des entrées (pression, humidité, vitesse du vent) et des sorties (température).

L'apprentissage non supervisé est la tâche de l'apprentissage automatique utilisant des ensembles de données sans structure spécifiée.

Lorsque vous entraînez une IA à l'aide d'un apprentissage non supervisé, vous laissez l'IA effectuer des classifications logiques des données.

Un exemple d'apprentissage non supervisé est une IA de prédiction du comportement pour un site Web de commerce électronique. Il n'apprendra pas en utilisant un ensemble de données étiqueté d'entrées et de sorties.

Au lieu de cela, il créera sa propre classification des données d'entrée. Il vous indiquera quels types d'utilisateurs sont les plus susceptibles d'acheter différents produits.

Maintenant, comment fonctionne le Deep Learning?

Vous êtes maintenant prêt à comprendre ce qu'est le Deep Learning et son fonctionnement.

Le Deep Learning est une méthode d' apprentissage automatique . Cela nous permet de former une IA à prédire les sorties, étant donné un ensemble d'entrées. L'apprentissage supervisé et non supervisé peut être utilisé pour former l'IA.

Nous allons apprendre comment fonctionne l'apprentissage profond en créant un service hypothétique d'estimation du prix des billets d'avion . Nous le formerons à l'aide d'une méthode d'apprentissage supervisé.

Nous voulons que notre estimateur de prix de billet d'avion prédise le prix en utilisant les entrées suivantes (nous excluons les billets aller-retour pour plus de simplicité):

  • Aéroport d'origine
  • Aéroport de destination
  • Date de départ
  • Compagnie aérienne

Les réseaux de neurones

Regardons à l'intérieur du cerveau de notre IA.

Comme les animaux, le cerveau de notre estimateur IA possède des neurones. Ils sont représentés par des cercles. Ces neurones sont interconnectés.

Les neurones sont regroupés en trois types de couches différents:

  1. Couche d'entrée
  2. Couche (s) cachée (s)
  3. Couche de sortie

La couche d' entrée reçoit les données d'entrée. Dans notre cas, nous avons quatre neurones dans la couche d'entrée: aéroport d'origine, aéroport de destination, date de départ et compagnie aérienne. La couche d'entrée transmet les entrées à la première couche masquée.

Les couches cachées effectuent des calculs mathématiques sur nos entrées. L'un des défis de la création de réseaux de neurones est de décider du nombre de couches cachées, ainsi que du nombre de neurones pour chaque couche.

Le « Deep » dans Deep Learning fait référence au fait d'avoir plus d'une couche cachée.

La couche de sortie renvoie les données de sortie. Dans notre cas, cela nous donne la prévision des prix.

Alors, comment calcule-t-il la prévision de prix?

C'est là que commence la magie du Deep Learning .

Chaque connexion entre neurones est associée à un poids . Ce poids dicte l'importance de la valeur d'entrée. Les poids initiaux sont fixés au hasard.

Lors de la prévision du prix d'un billet d'avion, la date de départ est l'un des facteurs les plus importants. Par conséquent, les connexions neuronales à la date de départ auront un poids important.

Chaque neurone a une fonction d'activation. Ces fonctions sont difficiles à comprendre sans raisonnement mathématique.

En termes simples, l'un de ses objectifs est de «standardiser» la sortie du neurone.

Une fois qu'un ensemble de données d'entrée a traversé toutes les couches du réseau neuronal, il renvoie les données de sortie via la couche de sortie.

Rien de compliqué, non?

Formation du réseau neuronal

La formation de l'IA est la partie la plus difficile du Deep Learning. Pourquoi?

  1. Vous avez besoin d'un grand ensemble de données .
  2. Vous avez besoin d'une grande quantité de puissance de calcul .

Pour notre estimateur de prix de billets d'avion, nous devons trouver des données historiques sur les prix des billets. Et en raison du grand nombre d'aéroports possibles et de combinaisons de dates de départ, nous avons besoin d'une très grande liste de prix des billets.

Pour former l'IA, nous devons lui donner les entrées de notre ensemble de données et comparer ses sorties avec les sorties de l'ensemble de données. Puisque l'IA n'est toujours pas formée, ses sorties seront fausses.

Une fois que nous avons parcouru l'ensemble de données, nous pouvons créer une fonction qui nous montre à quel point les sorties de l'IA étaient fausses à partir des sorties réelles. Cette fonction est appelée la fonction de coût.

Idéalement, nous voulons que notre fonction de coût soit nulle. C'est alors que les sorties de notre IA sont les mêmes que les sorties de l'ensemble de données.

Comment réduire la fonction de coût?

Nous changeons les poids entre les neurones. Nous pourrions les changer au hasard jusqu'à ce que notre fonction de coût soit faible, mais ce n'est pas très efficace.

Au lieu de cela, nous utiliserons une technique appelée Gradient Descent.

Gradient Descent est une technique qui nous permet de trouver le minimum d'une fonction. Dans notre cas, nous recherchons le minimum de la fonction de coût.

Il fonctionne en modifiant les poids par petits incréments après chaque itération de jeu de données . En calculant la dérivée (ou le gradient) de la fonction de coût à un certain ensemble de poids, nous pouvons voir dans quelle direction se trouve le minimum.

Pour minimiser la fonction de coût, vous devez parcourir votre ensemble de données plusieurs fois. C'est pourquoi vous avez besoin d'une grande quantité de puissance de calcul.

La mise à jour des poids à l'aide de la descente de gradient se fait automatiquement . C'est la magie du Deep Learning!

Une fois que nous avons formé notre AI d'estimation de prix de billets d'avion, nous pouvons l'utiliser pour prédire les prix futurs.

Où puis-je en savoir plus?

Il existe de nombreux autres types de réseaux de neurones: les réseaux de neurones convolutifs pour la vision par ordinateur et les réseaux de neurones récurrents pour le traitement du langage naturel.

Si vous souhaitez apprendre l'aspect technique du Deep Learning, je vous suggère de suivre un cours en ligne.

Actuellement, l'un des meilleurs cours d'apprentissage profond est la spécialisation Deep Learning d'Andrew Ng. Si vous n'êtes pas intéressé à obtenir un certificat, vous n'avez pas besoin de payer pour le cours. Vous pouvez l'audit gratuitement à la place.

Si vous avez des questions ou souhaitez des explications plus techniques sur les concepts, veuillez les poser ci-dessous!

En résumé…

  • Deep Learning utilise un réseau neuronal pour imiter l'intelligence animale.
  • Il existe trois types de couches de neurones dans un réseau de neurones: l'entréeCalque, le (s) calque (s) masqué (s) et le calque de sortie.
  • Les connexions entre neurones sont associées à un poids, dictant l'importance de la valeur d'entrée.
  • Les neurones appliquent une fonction d'activation sur les données pour «standardiser» la sortie sortant du neurone.
  • Pour former un réseau de neurones, vous avez besoin d'un grand ensemble de données.
  • Itérer à travers l'ensemble de données et comparer les sorties produira une fonction de coût, indiquant à quel point l'IA est hors des sorties réelles.
  • Après chaque itération dans l'ensemble de données, les poids entre les neurones sont ajustés à l'aide de Gradient Descent pour réduire la fonction de coût.

Si vous avez apprécié cet article, donnez-moi quelques applaudissements pour que plus de gens le voient. Merci!

Vous pouvez également consulter mon expérience sur la façon dont j'ai obtenu mon stage chez Shopify!

Pour plus de mises à jour, suivez-moi sur Twitter.