Comment lire une table de régression

Qu'est-ce que la régression?

La régression est l'un des processus d'analyse de données les plus importants et les plus couramment utilisés. En termes simples, il s'agit d'une méthode statistique qui explique la force de la relation entre une variable dépendante et une ou plusieurs variables indépendantes.

Une variable dépendante peut être une variable ou un champ que vous essayez de prédire ou de comprendre. Une variable indépendante peut être les champs ou les points de données qui, selon vous, pourraient avoir un impact sur la variable dépendante.

Ce faisant, il répond à quelques questions importantes -

  • Quelles variables comptent?
  • Dans quelle mesure ces variables sont-elles importantes?
  • Dans quelle mesure avons-nous confiance en ces variables?

Prenons un exemple…

Pour mieux expliquer les nombres dans le tableau de régression, j'ai pensé qu'il serait utile d'utiliser un exemple de jeu de données et de parcourir les nombres et leur importance.

J'utilise un petit ensemble de données qui contient les scores GRE (un test que les étudiants passent pour être admis dans les écoles supérieures aux États-Unis) les scores de 500 étudiants et leurs chances d'admission dans une université.

Parce que chance of admittancedépend de GRE score, chance of admittanceest la variable dépendante et GRE scoreest la variable indépendante.

Ligne de régression

Tracer une ligne droite qui décrit le mieux la relation entre les scores GRE des étudiants et leurs chances d'admission nous donne la ligne de régression linéaire . Ceci est connu comme la ligne de tendance dans divers outils de BI. L'idée de base derrière le dessin de cette ligne est de minimiser la distance entre les points de données à une coordonnée x donnée et la coordonnée y par laquelle passe la ligne de régression.

La droite de régression nous permet de représenter plus facilement la relation. Il est basé sur une équation mathématique qui associe le coefficient x et l'ordonnée à l'origine.

L'ordonnée à l'origine est le point auquel la ligne coupe l'axe des y à x = 0. C'est également la valeur que le modèle prendrait ou prédirait lorsque x est 0.

Les coefficients fournissent l'impact ou le poids d'une variable sur l'ensemble du modèle. En d'autres termes, il fournit la quantité de changement dans la variable dépendante pour un changement d'unité dans la variable indépendante.

Calcul de l'équation de la droite de régression

Afin de trouver l'ordonnée à l'origine du modèle, nous étendons la droite de régression suffisamment loin jusqu'à ce qu'elle coupe l'axe y à x = 0. C'est notre ordonnée à l'origine et elle est d'environ -2,5. Le nombre peut ne pas vraiment avoir de sens pour l'ensemble de données sur lequel nous travaillons, mais l'intention est de ne montrer que le calcul de l'ordonnée à l'origine.

Le coefficient pour ce modèle sera simplement la pente de la droite de régression et peut être calculé en obtenant le changement de l'admittance par rapport au changement des scores GRE.

Dans l'exemple ci-dessus, le coefficient serait simplement

m = (y2-y1) / (x2-x1)

Et dans ce cas, il serait proche de 0,01.

La formule y = m * x + b nous aide à calculer l'équation mathématique de notre droite de régression. En remplaçant les valeurs de l'ordonnée à l'origine et de la pente obtenues en étendant la droite de régression, nous pouvons formuler l'équation -

y = 0,01x - 2,48

-2,48 est une valeur d'ordonnée à l'origine plus précise que j'ai obtenue à partir de la table de régression, comme indiqué plus loin dans cet article.

Cette équation nous permet de prévoir et de prédire la chance d'admission d'un élève lorsque son score GRE est connu.

Maintenant que nous avons les bases, passons à la lecture et à l'interprétation d'une table de régression.

Lire une table de régression

La table de régression peut être grossièrement divisée en trois composantes -

  • Analyse de la variance (ANOVA): fournit l'analyse de la variance dans le modèle, comme son nom l'indique.
  • statistiques de régression: fournissent des informations numériques sur la variation et dans quelle mesure le modèle explique la variation pour les données / observations données.
  • sortie résiduelle: fournit la valeur prédite par le modèle et la différence entre la valeur réelle observée de la variable dépendante et sa valeur prédite par le modèle de régression pour chaque point de données.

Analyse de variance (ANOVA)

Degrés de liberté (df)

La régression df est le nombre de variables indépendantes dans notre modèle de régression. Puisque nous ne considérons que les scores GRE dans cet exemple, il vaut 1.

Le df résiduel est le nombre total d'observations (lignes) de l'ensemble de données soustrait du nombre de variables estimées. Dans cet exemple, le coefficient de score GRE et la constante sont estimés.

Df résiduel = 500 - 2 = 498

Total df - est la somme de la régression et des degrés de liberté résiduels, qui est égale à la taille de l'ensemble de données moins 1.

Somme des carrés (SS)

La régression SS est la variation totale de la variable dépendante qui est expliquée par le modèle de régression. C'est la somme du carré de la différence entre la valeur prédite et la moyenne de la valeur de tous les points de données.

∑ (ŷ - ӯ) ²

À partir du tableau ANOVA, la régression SS est de 6,5 et le SS total est de 9,9, ce qui signifie que le modèle de régression explique environ 6,5 / 9,9 (environ 65%) de toute la variabilité de l'ensemble de données.

SS résiduel - est la variation totale de la variable dépendante qui n'est pas expliquée par le modèle de régression. Elle est également appelée la somme des carrés des erreurs et correspond à la somme du carré de la différence entre les valeurs réelles et prévues de tous les points de données.

∑ (y - ŷ) ²

D'après le tableau ANOVA, le SS résiduel est d'environ 3,4. En général, plus l'erreur est petite, meilleure est le modèle de régression qui explique la variation de l'ensemble de données et nous voudrions donc généralement minimiser cette erreur.

Total SS - est la somme des deux, de la régression et du SS résiduel ou de combien la probabilité d'admission varierait si les scores GRE ne sont PAS pris en compte.

Erreurs quadratiques moyennes (MS) - sont la moyenne de la somme des carrés ou de la somme des carrés divisée par les degrés de liberté pour les deux, la régression et les résidus.

Régression MS = ∑ (ŷ - ӯ) ² / Reg. df MS résiduelle = ∑ (y - ŷ) ² / Rés. df

F - est utilisé pour tester l'hypothèse que la pente de la variable indépendante est nulle. Mathématiquement, il peut également être calculé comme

F = MS de régression / MS résiduelle

Ceci est autrement calculé en comparant la statistique F à une distribution F avec régression df en degrés du numérateur et df résiduel en degrés du dénominateur.

Signification F - n'est rien d'autre que la valeur p pour l'hypothèse nulle que le coefficient de la variable indépendante est zéro et comme pour toute valeur p, une valeur p faible indique qu'il existe une relation significative entre les variables dépendantes et indépendantes.

Erreur standard - fournit l'écart type estimé de la distribution des coefficients. Il s'agit de la variation du coefficient selon les cas. Un coefficient bien supérieur à son erreur standard implique une probabilité que le coefficient ne soit pas 0.

t-Stat - est la statistique t ou la valeur t du test et sa valeur est égale au coefficient divisé par l'erreur standard.

t-Stat = Coefficients / Erreur standard

Encore une fois, plus le coefficient par rapport à l'erreur standard est élevé, plus le t-Stat est grand et plus la probabilité que le coefficient s'éloigne de 0 est élevée.

p-value - La statistique t est comparée à la distribution t pour déterminer la p-value. Nous ne considérons généralement que la valeur p de la variable indépendante qui fournit la probabilité d'obtenir un échantillon aussi proche de celui utilisé pour dériver l'équation de régression et vérifions si la pente de la droite de régression est réellement nulle ou si le coefficient est proche du coefficient obtenu.

Une valeur de p inférieure à 0,05 indique une confiance de 95% que la pente de la droite de régression n'est pas nulle et qu'il existe donc une relation linéaire significative entre les variables dépendantes et indépendantes.

Une valeur p supérieure à 0,05 indique que la pente de la droite de régression peut être nulle et qu'il n'y a pas suffisamment de preuves au niveau de confiance de 95% qu'une relation linéaire significative existe entre les variables dépendantes et indépendantes.

Étant donné que la valeur p du score GRE de la variable indépendante est très proche de 0, nous pouvons être extrêmement confiants qu'il existe une relation linéaire significative entre les scores GRE et la probabilité d'admittance.

95% inférieur et supérieur - Étant donné que nous utilisons principalement un échantillon de données pour estimer la droite de régression et ses coefficients, il s'agit principalement d'une approximation des vrais coefficients et, à son tour, de la vraie ligne de régression. Les limites inférieure et supérieure de 95% donnent le 95e intervalle de confiance des limites inférieure et supérieure pour chaque coefficient.

Étant donné que l'intervalle de confiance à 95% pour les scores GRE est de 0,009 et 0,01, les limites ne contiennent pas zéro et ainsi, nous pouvons être sûrs à 95% qu'il existe une relation linéaire significative entre les scores GRE et la probabilité d'admittance.

Veuillez noter qu'un niveau de confiance de 95% est largement utilisé mais qu'un niveau autre que 95% est possible et peut être défini lors de l'analyse de régression.

Statistiques de régression

R² (R Square) - représente la puissance d'un modèle. Il montre la quantité de variation de la variable dépendante que la variable indépendante explique et se situe toujours entre les valeurs 0 et 1. Au fur et à mesure que le R² augmente, plus de variation dans les données est expliquée par le modèle et le modèle obtient une meilleure prédiction. Un R² faible indiquerait que le modèle ne correspond pas bien aux données et qu'une variable indépendante n'explique pas bien la variation de la variable dépendante.

R² = Somme des carrés de régression / Somme totale des carrés

Cependant, R carré ne peut pas déterminer si les estimations et les prédictions des coefficients sont biaisées, c'est pourquoi vous devez évaluer les tracés résiduels, qui sont traités plus loin dans cet article.

Le carré R n'indique pas non plus si un modèle de régression est adéquat. Vous pouvez avoir une valeur R-carré faible pour un bon modèle ou une valeur R-carré élevée pour un modèle qui ne correspond pas aux données.

R², dans ce cas, est de 65%, ce qui implique que les scores GRE peuvent expliquer 65% de la variation de la chance d'admission.

R² ajusté - est R² multiplié par un facteur d'ajustement. Ceci est utilisé lors de la comparaison de différents modèles de régression avec différentes variables indépendantes. Ce nombre est utile pour décider des bonnes variables indépendantes dans les modèles de régression multiple.

Multiple R - est la racine carrée positive de R²

Erreur standard - est différente de l'erreur standard des coefficients. Il s'agit de l'écart type estimé de l'erreur de l'équation de régression et constitue une bonne mesure de la précision de la droite de régression. C'est la racine carrée des erreurs quadratiques moyennes résiduelles.

Std. Erreur = √ (Res.MS)

Sortie résiduelle

Les résidus sont la différence entre la valeur réelle et la valeur prédite du modèle de régression et la sortie résiduelle est la valeur prédite de la variable dépendante par le modèle de régression et le résidu pour chaque point de données.

Et comme son nom l'indique, un graphique résiduel est un nuage de points entre le résidu et la variable indépendante, qui dans ce cas est le score GRE de chaque élève.

Un graphique résiduel est important pour détecter des éléments tels que l' hétéroscédasticité , la non-linéarité et les valeurs aberrantes . Le processus de détection de ceux-ci n'est pas discuté dans le cadre de cet article, mais le fait que le graphique résiduel pour notre exemple comporte des données dispersées au hasard nous aide à établir le fait que la relation entre les variables de ce modèle est linéaire.

Intention

Le but de cet article n'est pas de créer un modèle de régression fonctionnel, mais de fournir un aperçu de toutes les variables de régression et de leur importance si nécessaire avec un exemple de jeu de données dans une table de régression.

Bien que cet article fournisse une explication avec une régression linéaire à variable unique à titre d'exemple, sachez que certaines de ces variables pourraient avoir plus d'importance dans le cas de situations à variables multiples ou autres.

Références

  • Ensemble de données sur les admissions aux diplômés
  • 10 choses à propos de la lecture d'une table de régression
  • Un rappel sur l'analyse de régression