Qu'est-ce que la signification statistique? Valeur P définie et comment la calculer

Les valeurs P sont l'un des concepts les plus largement utilisés en analyse statistique. Ils sont utilisés par les chercheurs, les analystes et les statisticiens pour tirer des enseignements des données et prendre des décisions éclairées.

Outre leur signification statistique, ils sont également l'un des concepts les plus mal utilisés et mal compris dans l'analyse statistique.

Cet article expliquera:

  • comment une valeur P est utilisée pour déduire la signification statistique
  • comment les valeurs P sont calculées
  • et comment éviter certaines idées fausses courantes

Récapitulatif: Test d'hypothèse

Le test d'hypothèse est une approche standard pour tirer des informations à partir de données. Il est utilisé dans pratiquement toutes les disciplines quantitatives et possède une riche histoire remontant à plus de cent ans.

L'approche habituelle du test d'hypothèse consiste à définir une question en fonction des variables qui vous intéressent. Ensuite, vous pouvez former deux hypothèses opposées pour y répondre.

  • L' hypothèse nulle prétend qu'il n'y a pas de relation statistiquement significative entre les variables
  • L' hypothèse alternative prétend qu'il existe une relation statistiquement significative entre les variables

Par exemple, disons que vous testez si la caféine affecte la productivité de la programmation. Il y a deux variables qui vous intéressent: la dose de caféine et la productivité du groupe de développeurs de logiciels.

L' hypothèse nulle serait:

  • "La consommation de caféine n'a aucun effet significatif sur la productivité de la programmation".

L' hypothèse alternative serait:

  • "La consommation de caféine a un effet significatif sur la productivité".

Le mot «significatif» a ici une signification très spécifique. Il fait référence à une relation entre des variables existant en raison de quelque chose de plus que le hasard .

Au lieu de cela, la relation existe (au moins en partie) en raison de différences ou d'effets «réels» entre les variables.

L'étape suivante consiste à collecter des données pour tester les hypothèses. Cela peut être collecté à partir d'une expérience ou d'une enquête, ou d'un ensemble de données auquel vous avez accès.

La dernière étape consiste à calculer une statistique de test à partir des données. Il s'agit d'un numéro unique qui représente une caractéristique de vos données. Les exemples incluent le test t, le test du chi carré et le test de Kruskal-Wallis - parmi beaucoup d'autres.

Le calcul exact dépendra de la question que vous posez, de la structure de vos données et de la distribution de vos données.

Voici une feuille de triche pratique pour votre référence.

Dans l'exemple de la caféine, un test approprié pourrait être un test t à deux échantillons.

Vous vous retrouverez avec une seule statistique de test à partir de vos données. Il ne reste plus qu'à interpréter ce résultat pour déterminer s'il soutient ou rejette l'hypothèse nulle.

C'est là que les valeurs P entrent en jeu.

Dans quelle mesure cette statistique est-elle improbable?

Rappelez-vous que vous avez calculé une statistique de test, qui représente une caractéristique de vos données. Vous voulez savoir s'il prend en charge ou rejette l'hypothèse nulle.

L'approche adoptée consiste à supposer que l'hypothèse nulle est vraie. Autrement dit, supposons qu'il n'y a pas de relations significatives entre les variables qui vous intéressent.

Ensuite, regardez les données que vous avez collectées. Quelle serait la probabilité de votre statistique de test si l'hypothèse nulle est vraiment vraie?

Revenons à l'exemple de consommation de caféine d'avant.

  • Disons que les niveaux de productivité ont été répartis à peu près également entre les développeurs, qu'ils aient bu ou non de la caféine (graphique A). Ce résultat serait susceptible de se produire par hasard si l'hypothèse nulle était vraie.
  • Cependant, supposons que presque toute la productivité la plus élevée soit observée chez les développeurs qui buvaient de la caféine (graphique B). Il s'agit d'un résultat plus «extrême», et il est peu probable qu'il se produise par hasard si l'hypothèse nulle était vraie.

Mais à quel point un résultat doit-il être «extrême» avant qu'il ne soit jugé trop improbable pour soutenir l'hypothèse nulle?

C'est ce qu'une valeur P vous permet d'estimer. Il fournit une réponse numérique à la question: "si l'hypothèse nulle est vraie, quelle est la probabilité d'un résultat aussi extrême ou plus extrême?"

Les valeurs P sont des probabilités, elles sont donc toujours comprises entre 0 et 1.

  • Une valeur P élevée indique que les résultats observés sont susceptibles de se produire par hasard sous l'hypothèse nulle.
  • Une valeur P faible indique que les résultats sont moins susceptibles de se produire par hasard sous l'hypothèse nulle.

Habituellement, un seuil est choisi pour déterminer la signification statistique. Ce seuil est souvent noté α.

Si la valeur P est inférieure au seuil , vos résultats sont « statistiquement significatifs ». Cela signifie que vous pouvez rejeter l'hypothèse nulle (et accepter l'hypothèse alternative).

Il n’existe pas de seuil unique adapté à toutes les applications. Habituellement, un seuil arbitraire sera utilisé, adapté au contexte.

Par exemple, dans des domaines tels que l'écologie et l'évolution, il est difficile de contrôler les conditions expérimentales car de nombreux facteurs peuvent affecter le résultat. Il peut également être difficile de collecter des échantillons de très grande taille. Dans ces domaines, un seuil de 0,05 sera souvent utilisé.

Dans d'autres contextes tels que la physique et l'ingénierie, un seuil de 0,01 ou même inférieur sera plus approprié.

Exemple de chi carré

Dans cet exemple, il existe deux variables (fictives): la région et l'appartenance à un parti politique. Il utilise le test du chi carré pour voir s'il existe une relation entre la région et l'appartenance à un parti politique.

Vous pouvez modifier le nombre de membres pour chaque groupe.

  • Hypothèse nulle: "il n'y a pas de relation significative entre la région et l'appartenance à un parti politique"
  • Hypothèse alternative: "il existe une relation significative entre la région et l'appartenance à un parti politique"

Appuyez sur le bouton "réexécuter" pour essayer différents scénarios.

Idées fausses courantes et comment les éviter

Il y a plusieurs erreurs que même les praticiens expérimentés font souvent à propos de l'utilisation des valeurs P et des tests d'hypothèse. Cette section visera à les éclaircir.

L'hypothèse nulle n'est pas intéressante - si les données sont bonnes et que l'analyse est bien faite, alors c'est une conclusion valable en soi.

Une question qui mérite une réponse doit avoir une réponse intéressante - quel que soit le résultat.

La valeur P est la probabilité que l'hypothèse nulle soit vraie - une valeur P représente «la probabilité des résultats, étant donné que l'hypothèse nulle est vraie». Ce n'est pas la même chose que "la probabilité que l'hypothèse nulle soit vraie, compte tenu des résultats".

P (Données | Hypothèse) ≠ P (Hypothèse | Données)

Cela signifie qu'une valeur P faible vous indique: "si l'hypothèse nulle est vraie, ces résultats sont peu probables". Il ne pas vous dire: « si ces résultats sont vraies, l'hypothèse nulle est peu probable ».

Vous pouvez utiliser le même seuil de signification pour plusieurs comparaisons - rappelez-vous la définition de la valeur P. C'est la probabilité d'observer une certaine statistique de test uniquement par hasard.

Si vous utilisez un seuil de α = 0,05 (ou 1 sur 20) et que vous effectuez, disons, 20 tests de statistiques ... vous pourriez vous attendre à trouver par hasard seul une valeur P faible.

Vous devez utiliser un seuil inférieur si vous effectuez plusieurs comparaisons. Il existe des méthodes de correction qui vous permettront de calculer à quel point le seuil devrait être inférieur.

Le seuil de signification ne signifie rien du tout - il est entièrement arbitraire. 0.05 n'est qu'une convention. La différence entre p = 0,049 et p = 0,051 est à peu près la même qu'entre p = 0,039 et p = 0,041.

C'est l'une des plus grandes faiblesses des tests d'hypothèses de cette manière. Cela vous oblige à tracer une ligne dans le sable, même si aucune ligne ne peut être facilement tracée.

Par conséquent, considérez toujours les seuils de signification pour ce qu'ils sont - totalement arbitraires.

La signification statistique signifie que le hasard ne joue aucun rôle - loin de là. Souvent, les causes d'un résultat donné sont nombreuses. Certains seront aléatoires, d'autres moins.

Trouver une cause non aléatoire ne signifie pas que cela explique toutes les différences entre vos variables. Il est important de ne pas confondre la signification statistique avec la «taille de l'effet».

❌ Les valeurs P sont le seul moyen de déterminer la signification statistique - il existe d'autres approches qui sont parfois meilleures.

En plus des tests d'hypothèses classiques, envisagez d'autres approches, telles que l'utilisation de facteurs Bayes ou de faux risques positifs à la place.