Que montre le coefficient de corrélation dans les statistiques ? Analyse de corrélation

Le coefficient de corrélation (ou coefficient de corrélation linéaire) est noté « r » (dans de rares cas, « ρ ») et caractérise la corrélation linéaire (c'est-à-dire la relation donnée par une certaine valeur et direction) de deux ou plusieurs variables. La valeur du coefficient est comprise entre -1 et +1, c'est-à-dire que la corrélation peut être à la fois positive et négative. Si le coefficient de corrélation est -1, il existe une corrélation négative parfaite ; si le coefficient de corrélation est +1, il existe une corrélation positive parfaite. Dans d’autres cas, il existe une corrélation positive, une corrélation négative ou aucune corrélation entre deux variables. Le coefficient de corrélation peut être calculé manuellement, à l'aide de calculatrices en ligne gratuites ou à l'aide d'une bonne calculatrice graphique.

Pas

Calcul manuel du coefficient de corrélation

    Collecter des données. Avant de commencer à calculer le coefficient de corrélation, étudiez la paire de nombres donnée. Il est préférable de les noter dans un tableau qui peut être placé verticalement ou horizontalement. Étiquetez chaque ligne ou colonne comme « x » et « y ».

    • Par exemple, quatre paires de valeurs (nombres) des variables « x » et « y » sont données. Vous pouvez créer le tableau suivant :
      • x || oui
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Calculez la moyenne arithmétique de "x". Pour ce faire, additionnez toutes les valeurs « x », puis divisez le résultat obtenu par le nombre de valeurs.

    Trouvez la moyenne arithmétique « y ». Pour ce faire, suivez des étapes similaires, c'est-à-dire additionnez toutes les valeurs de « y », puis divisez la somme par le nombre de valeurs.

    Calculez l'écart type de "x". Après avoir calculé les moyennes de x et y, trouvez les écarts types de ces variables. L'écart type est calculé à l'aide de la formule suivante :

    Calculez l'écart type de "y". Suivez les étapes décrites à l'étape précédente. Utilisez la même formule, mais remplacez-y les valeurs « y ».

    Notez la formule de base pour calculer le coefficient de corrélation. Cette formule comprend les moyennes, les écarts types et le nombre (n) paires de nombres pour les deux variables. Le coefficient de corrélation est noté « r » (dans de rares cas, « ρ »). Cet article utilise une formule pour calculer le coefficient de corrélation de Pearson.

    Vous avez calculé les moyennes et les écarts types des deux variables. Vous pouvez donc utiliser la formule pour calculer le coefficient de corrélation. Rappelons que « n » est le nombre de paires de valeurs pour les deux variables. Les valeurs d'autres quantités ont été calculées plus tôt.

    • Dans notre exemple, les calculs s'écriront ainsi :
    • ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) (\displaystyle \rho =\left((\frac (1)(n-1))\right) \Sigma \left((\frac (x-\mu _(x))(\sigma _(x)))\right)*\left((\frac (y-\mu _(y))(\sigma _(y)))\droite))
    • ρ = (1 3) ∗ (\displaystyle \rho =\left((\frac (1)(3))\right)*)[ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) (\displaystyle \left((\frac (1-3)( 1.83))\right)*\left((\frac (1-4)(2.58))\right)+\left((\frac (2-3)(1.83))\right) *\left((\ frac (3-4)(2.58))\droite))
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) (\displaystyle +\left((\frac (4-3 )(1.83))\right)*\left((\frac (5-4)(2.58))\right)+\left((\frac (5-3)(1.83))\ right)*\left( (\frac (7-4)(2.58))\right))]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) (\displaystyle \rho =\left((\frac (1)(3))\right)*\left((\frac (6 +1+1+6)(4 721))\droite))
    • ρ = (1 3) ∗ 2 , 965 (\displaystyle \rho =\left((\frac (1)(3))\right)*2,965)
    • ρ = (2 , 965 3) (\displaystyle \rho =\left((\frac (2.965)(3))\right))
    • ρ = 0,988 (\displaystyle \rho =0,988)
  2. Analysez le résultat. Dans notre exemple, le coefficient de corrélation est de 0,988. Cette valeur caractérise en quelque sorte cet ensemble de paires de nombres. Faites attention au signe et à la grandeur de la valeur.

    • Puisque la valeur du coefficient de corrélation est positive, il existe une corrélation positive entre les variables « x » et « y ». Autrement dit, à mesure que la valeur de « x » augmente, la valeur de « y » augmente également.
    • La valeur du coefficient de corrélation étant très proche de +1, les valeurs des variables « x » et « y » sont fortement interdépendantes. Si vous tracez des points sur le plan de coordonnées, ils seront situés à proximité d'une certaine ligne droite.

    Utiliser des calculateurs en ligne pour calculer le coefficient de corrélation

    1. Trouvez une calculatrice sur Internet pour calculer le coefficient de corrélation. Ce coefficient est assez souvent calculé en statistiques. S'il existe de nombreuses paires de nombres, il est presque impossible de calculer manuellement le coefficient de corrélation. Par conséquent, il existe des calculateurs en ligne pour calculer le coefficient de corrélation. Dans un moteur de recherche, saisissez « calculateur de coefficient de corrélation » (sans les guillemets).

      Entrer des données. Veuillez consulter les instructions sur le site Web pour vous assurer que vous saisissez correctement les données (paires de chiffres). Il est extrêmement important de saisir les paires de chiffres appropriées ; sinon vous obtiendrez un résultat incorrect. N'oubliez pas que différents sites Web ont des formats de saisie de données différents.

      • Par exemple, sur le site http://ncalculators.com/statistics/correlation-coefficient-calculator.htm les valeurs des variables « x » et « y » sont inscrites sur deux lignes horizontales. Les valeurs sont séparées par des virgules. Autrement dit, dans notre exemple, les valeurs « x » sont saisies comme ceci : 1,2,4,5, et les valeurs « y » comme ceci : 1,3,5,7.
      • Sur un autre site, http://www.alcula.com/calculators/statistics/correlation-coefficient/, les données sont saisies verticalement ; dans ce cas, ne confondez pas les paires de nombres correspondantes.
    2. Calculez le coefficient de corrélation. Après avoir saisi les données, cliquez simplement sur le bouton « Calculer », « Calculer » ou similaire pour obtenir le résultat.

    Utiliser une calculatrice graphique

    1. Entrer des données. Prenez une calculatrice graphique, passez en mode statistique et sélectionnez la commande Modifier.

      • Différentes calculatrices nécessitent d'appuyer sur différentes touches. Cet article traite de la calculatrice Texas Instruments TI-86.
      • Pour passer en mode calcul statistique, appuyez sur – Stat (au dessus de la touche « + »). Appuyez ensuite sur F2 – Modifier.
    2. Supprimez les données enregistrées précédentes. La plupart des calculatrices stockent les statistiques que vous saisissez jusqu'à ce que vous les effaciez. Pour éviter de confondre les anciennes données avec les nouvelles données, supprimez d'abord toutes les informations stockées.

      • Utilisez les touches fléchées pour déplacer le curseur et mettre en surbrillance l'en-tête "xStat". Appuyez ensuite sur Effacer et Entrée pour supprimer toutes les valeurs saisies dans la colonne xStat.
      • Utilisez les touches fléchées pour mettre en surbrillance l'en-tête "yStat". Appuyez ensuite sur Clear et Enter pour effacer toutes les valeurs saisies dans la colonne yStat.
    3. Saisissez les données initiales. Utilisez les touches fléchées pour déplacer le curseur vers la première cellule sous l'en-tête "xStat". Entrez la première valeur et appuyez sur Entrée. « xStat (1) = __ » s'affichera en bas de l'écran, où la valeur saisie apparaîtra à la place d'un espace. Après avoir appuyé sur Entrée, la valeur saisie apparaîtra dans le tableau et le curseur passera à la ligne suivante ; cela affichera « xStat (2) = __ » en bas de l'écran.

      • Entrez toutes les valeurs pour la variable "x".
      • Après avoir entré toutes les valeurs de la variable x, utilisez les touches fléchées pour accéder à la colonne yStat et entrez les valeurs de la variable y.
      • Une fois toutes les paires de nombres saisies, appuyez sur Quitter pour effacer l'écran et quitter le mode de calcul statistique.

Différents signes peuvent être liés les uns aux autres.

Il existe 2 types de connexions entre eux :

  • fonctionnel;
  • corrélation.

Corrélation traduit en russe n'est rien de plus qu'une connexion.
Dans le cas d'une connexion de corrélation, la correspondance de plusieurs valeurs d'une caractéristique avec plusieurs valeurs d'une autre caractéristique peut être retracée. A titre d’exemples, on peut considérer les corrélations établies entre :

  • la longueur des pattes, du cou et du bec des oiseaux tels que les hérons, les grues et les cigognes ;
  • indicateurs de température corporelle et de fréquence cardiaque.

Pour la plupart des processus biomédicaux, la présence de ce type de connexion a été statistiquement prouvée.

Les méthodes statistiques permettent d'établir le fait de l'existence d'une interdépendance des caractéristiques. L'utilisation de calculs particuliers conduit pour cela à l'établissement de coefficients de corrélation (mesures de connectivité).

De tels calculs sont appelés analyse de corrélation. Elle est réalisée pour confirmer la dépendance de 2 variables (variables aléatoires) l'une par rapport à l'autre, qui est exprimée par le coefficient de corrélation.

L'utilisation de la méthode de corrélation permet de résoudre plusieurs problèmes :

  • identifier l'existence d'une relation entre les paramètres analysés ;
  • la connaissance de la présence d'une corrélation permet de résoudre des problèmes de prévision. Ainsi, il existe une réelle opportunité de prédire le comportement d’un paramètre sur la base d’une analyse du comportement d’un autre paramètre corrélé ;
  • effectuer une classification basée sur la sélection de caractéristiques indépendantes les unes des autres.

Pour les variables :

  • par rapport à l'échelle ordinale, le coefficient de Spearman est calculé ;
  • lié à l’échelle d’intervalle – coefficient de Pearson.

Ce sont les paramètres les plus couramment utilisés, il en existe d’autres en plus.

La valeur du coefficient peut être exprimée soit positivement, soit négativement.

Dans le premier cas, à mesure que la valeur d’une variable augmente, on observe une augmentation de la seconde. Si le coefficient est négatif, la tendance est inversée.

A quoi sert le coefficient de corrélation ?

Les variables aléatoires liées les unes aux autres peuvent avoir des natures de connexion complètement différentes. Il ne sera pas nécessairement fonctionnel, cas où une relation directe entre quantités peut être tracée. Le plus souvent, les deux quantités sont affectées par tout un ensemble de facteurs divers ; dans les cas où ils sont communs aux deux quantités, on observe la formation de modèles liés.

Cela signifie que le fait statistiquement prouvé de l'existence d'une relation entre les quantités ne confirme pas que la cause des changements observés a été établie. En règle générale, le chercheur conclut qu’il existe deux conséquences interdépendantes.

Propriétés du coefficient de corrélation

Cette caractéristique statistique possède les propriétés suivantes :

  • la valeur du coefficient est comprise entre -1 et +1. Plus les valeurs extrêmes sont proches, plus la relation positive ou négative entre les paramètres linéaires est forte. Dans le cas d'une valeur nulle, on parle de l'absence de corrélation entre les caractéristiques ;
  • une valeur positive du coefficient indique que si la valeur d'une caractéristique augmente, une augmentation de la seconde est observée (corrélation positive) ;
  • valeur négative – en cas d'augmentation de la valeur d'une caractéristique, une diminution de la seconde est observée (corrélation négative) ;
  • l'approche de la valeur de l'indicateur vers les points extrêmes (soit -1, soit +1) indique la présence d'une relation linéaire très forte ;
  • les indicateurs d'une caractéristique peuvent changer alors que la valeur du coefficient reste inchangée ;
  • le coefficient de corrélation est une quantité sans dimension ;
  • la présence d'une corrélation ne confirme pas nécessairement une relation de cause à effet.

Valeurs des coefficients de corrélation

La force de la corrélation peut être caractérisée en recourant à l'échelle de Cheldock, dans laquelle une certaine valeur numérique correspond à une caractéristique qualitative.

En cas de corrélation positive avec la valeur :

  • 0-0,3 – la corrélation est très faible ;
  • 0,3-0,5 – faible ;
  • 0,5-0,7 – résistance moyenne ;
  • 0,7-0,9 – élevé ;
  • 0,9-1 – force de corrélation très élevée.

L'échelle peut également être utilisée pour une corrélation négative. Dans ce cas, les caractéristiques qualitatives sont remplacées par les caractéristiques opposées.

Vous pouvez utiliser l'échelle Cheldock simplifiée, qui ne distingue que 3 gradations de force de corrélation :

  • très fort - indicateurs ±0,7 - ±1 ;
  • moyenne - indicateurs ±0,3 - ±0,699 ;
  • très faible - indicateurs 0 - ±0,299.

Cet indicateur statistique permet non seulement de tester l'hypothèse de l'existence d'une relation linéaire entre les caractéristiques, mais aussi d'établir sa solidité.

Types de coefficient de corrélation

Les coefficients de corrélation peuvent être classés par signe et valeur :

  • positif;
  • nul;
  • négatif.

En fonction des valeurs analysées, le coefficient est calculé :

  • Pearson ;
  • Lancier;
  • Kendal ;
  • Signes Fechner ;
  • concordance ou corrélation de rangs multiples.

Le coefficient de corrélation de Pearson est utilisé pour établir des relations directes entre les valeurs absolues des variables. Dans ce cas, les distributions des deux séries de variables devraient se rapprocher de la normale. Les variables comparées doivent différer par le même nombre de caractéristiques variables. L'échelle représentant les variables doit être une échelle d'intervalle ou de rapport.

  • établir avec précision la force de corrélation ;
  • comparaison de caractéristiques quantitatives.

L’utilisation du coefficient de corrélation linéaire de Pearson présente quelques inconvénients :

  • la méthode est instable en cas de valeurs numériques aberrantes ;
  • En utilisant cette méthode, il est possible de déterminer la force de corrélation uniquement pour une relation linéaire ; pour d'autres types de relations mutuelles de variables, des méthodes d'analyse de régression doivent être utilisées.

La corrélation de rang est déterminée par la méthode de Spearman, qui permet d'étudier statistiquement la relation entre les phénomènes. Grâce à ce coefficient, le degré réel de parallélisme de deux séries de caractéristiques exprimées quantitativement est calculé, et l'étanchéité de la connexion identifiée est également évaluée.

  • ne nécessitant pas de détermination précise de la valeur de la force de corrélation ;
  • les indicateurs comparés ont des significations à la fois quantitatives et attributives ;
  • comparaison de séries de caractéristiques avec des variantes ouvertes de valeurs.

La méthode de Spearman est une méthode d'analyse non paramétrique, il n'est donc pas nécessaire de vérifier la normalité de la distribution d'une caractéristique. De plus, il permet de comparer des indicateurs exprimés à différentes échelles. Par exemple, comparaison du nombre de globules rouges dans un certain volume de sang (échelle continue) et expertise exprimée en points (échelle ordinale).

L'efficacité de la méthode est affectée négativement par une grande différence entre les valeurs des quantités comparées. La méthode n'est pas non plus efficace dans les cas où la valeur mesurée est caractérisée par une répartition inégale des valeurs.

Calcul étape par étape du coefficient de corrélation dans Excel

Le calcul du coefficient de corrélation implique d'effectuer séquentiellement un certain nombre d'opérations mathématiques.

La formule ci-dessus pour calculer le coefficient de Pearson montre à quel point ce processus demande beaucoup de main-d'œuvre s'il est effectué manuellement.
L'utilisation des capacités d'Excel accélère considérablement le processus de recherche du coefficient.

Il suffit de suivre un algorithme d'actions simple :

  • saisir des informations de base - une colonne de valeurs x et une colonne de valeurs y ;
  • dans les outils, sélectionnez et ouvrez l'onglet « Formules » ;
  • dans l'onglet qui s'ouvre, sélectionnez « Insérer une fonction fx » ;
  • dans la boîte de dialogue qui s'ouvre, sélectionnez la fonction statistique « Corel », qui permet de calculer le coefficient de corrélation entre 2 jeux de données ;
  • dans la fenêtre qui s'ouvre, saisissez les données : tableau 1 – plage de valeurs de la colonne x (les données doivent être sélectionnées), tableau 2 – plage de valeurs de la colonne y ;
  • la touche « ok » est enfoncée, le résultat du calcul du coefficient apparaît dans la ligne « valeur » ;
  • conclusion concernant la présence d’une corrélation entre 2 ensembles de données et sa force.

Le coefficient de corrélation est le degré de relation entre deux variables. Son calcul donne une idée s'il existe une relation entre deux ensembles de données. Contrairement à la régression, la corrélation ne prédit pas les valeurs des quantités. Cependant, le calcul du coefficient constitue une étape importante de l’analyse statistique préliminaire. Par exemple, nous avons constaté que le coefficient de corrélation entre le niveau des investissements directs étrangers et le taux de croissance du PIB est élevé. Cela nous donne l’idée que pour assurer la prospérité, il est nécessaire de créer un climat favorable spécifiquement aux entrepreneurs étrangers. Une conclusion pas si évidente à première vue !

Corrélation et causalité

Peut-être qu'il n'y a pas un seul domaine de la statistique qui soit aussi fermement ancré dans nos vies. Le coefficient de corrélation est utilisé dans tous les domaines de la connaissance sociale. Son principal danger est que ses valeurs élevées sont souvent spéculées afin de convaincre les gens et de leur faire croire à certaines conclusions. Cependant, en réalité, une forte corrélation n’indique pas du tout une relation de cause à effet entre les quantités.

Coefficient de corrélation : formule de Pearson et Spearman

Il existe plusieurs indicateurs de base qui caractérisent la relation entre deux variables. Historiquement, le premier est le coefficient de corrélation linéaire de Pearson. Cela s’enseigne à l’école. Il a été développé par K. Pearson et J. Yule sur la base des travaux du Père. Galton. Ce coefficient permet de voir la relation entre des nombres rationnels qui changent rationnellement. Il est toujours supérieur à -1 et inférieur à 1. Un nombre négatif indique une relation inversement proportionnelle. Si le coefficient est nul, alors il n’y a aucune relation entre les variables. Égal à un nombre positif - il existe une relation directement proportionnelle entre les quantités étudiées. Le coefficient de corrélation de rang de Spearman vous permet de simplifier les calculs en créant une hiérarchie de valeurs variables.

Liens entre les variables

La corrélation permet de répondre à deux questions. Premièrement, si la relation entre les variables est positive ou négative. Deuxièmement, quelle est la force de la dépendance. L'analyse de corrélation est un outil puissant qui peut fournir ces informations importantes. Il est facile de constater que les revenus et les dépenses familiales diminuent et augmentent proportionnellement. Cette relation est considérée comme positive. Au contraire, lorsque le prix d’un produit augmente, la demande diminue. Cette relation est dite négative. Les valeurs du coefficient de corrélation sont comprises entre -1 et 1. Zéro signifie qu'il n'y a aucune relation entre les valeurs étudiées. Plus l'indicateur obtenu est proche des valeurs extrêmes, plus la relation (négative ou positive) est forte. L'absence de dépendance est indiquée par un coefficient de -0,1 à 0,1. Vous devez comprendre qu'une telle valeur indique uniquement l'absence de relation linéaire.

Caractéristiques de l'application

L'utilisation des deux indicateurs implique certaines hypothèses. Premièrement, la présence d’un lien fort ne détermine pas le fait qu’une quantité détermine l’autre. Il se pourrait bien qu’il y ait une troisième quantité qui définit chacun d’eux. Deuxièmement, un coefficient de corrélation de Pearson élevé n’indique pas une relation de cause à effet entre les variables étudiées. Troisièmement, cela montre une relation exclusivement linéaire. La corrélation peut être utilisée pour évaluer des données quantitatives significatives (par exemple, la pression barométrique, la température de l'air) plutôt que des catégories telles que le sexe ou la couleur préférée.

Coefficient de corrélation multiple

Pearson et Spearman ont examiné la relation entre deux variables. Mais que faire s'il y en a trois ou même plus. C’est là que le coefficient de corrélation multiple vient à la rescousse. Par exemple, le produit national brut est influencé non seulement par les investissements directs étrangers, mais également par les politiques monétaires et fiscales du gouvernement, ainsi que par le niveau des exportations. Le taux de croissance et le volume du PIB sont le résultat de l'interaction d'un certain nombre de facteurs. Il faut toutefois comprendre que le modèle à corrélation multiple repose sur un certain nombre de simplifications et d’hypothèses. Premièrement, la multicolinéarité entre les valeurs est exclue. Deuxièmement, la relation entre la personne dépendante et les variables qui l'influencent est considérée comme linéaire.

Domaines d'utilisation de l'analyse de corrélation et de régression

Cette méthode pour trouver des relations entre des quantités est largement utilisée en statistique. On y recourt le plus souvent dans trois cas principaux :

  1. Tester les relations de cause à effet entre les valeurs de deux variables. En conséquence, le chercheur espère découvrir une relation linéaire et dériver une formule qui décrit ces relations entre les quantités. Leurs unités de mesure peuvent être différentes.
  2. Pour vérifier une relation entre les quantités. Dans ce cas, personne ne détermine quelle variable est la variable dépendante. Il se peut qu'un autre facteur détermine la valeur des deux quantités.
  3. Pour dériver l’équation. Dans ce cas, vous pouvez simplement y substituer des nombres et connaître les valeurs de la variable inconnue.

Un homme en quête d’une relation de cause à effet

La conscience est conçue de telle manière que nous devons absolument expliquer les événements qui se produisent autour de nous. Une personne cherche toujours un lien entre l'image du monde dans lequel elle vit et les informations qu'elle reçoit. Le cerveau crée souvent de l’ordre à partir du chaos. Il peut facilement voir une relation de cause à effet là où il n’y en a pas. Les scientifiques doivent spécifiquement apprendre à surmonter cette tendance. La capacité d’évaluer objectivement les relations entre les données est essentielle dans une carrière universitaire.

Biais médiatique

Voyons comment la présence d'une corrélation peut être mal interprétée. Il a été demandé à un groupe d'étudiants britanniques ayant un mauvais comportement si leurs parents fumaient. Ensuite, le test a été publié dans le journal. Les résultats ont montré une forte corrélation entre le tabagisme des parents et la délinquance de leurs enfants. Le professeur qui a mené cette étude a même suggéré de mettre un avertissement à ce sujet sur les paquets de cigarettes. Cependant, cette conclusion pose un certain nombre de problèmes. Premièrement, la corrélation ne montre pas laquelle des quantités est indépendante. Par conséquent, il est tout à fait possible de supposer que l'habitude néfaste des parents est causée par la désobéissance des enfants. Deuxièmement, on ne peut pas affirmer avec certitude que les deux problèmes ne sont pas dus à un troisième facteur. Par exemple, les familles à faible revenu. Il convient de noter l’aspect émotionnel des premières conclusions du professeur qui a mené l’étude. Il était un ardent opposant au tabagisme. Il n’est donc pas surprenant qu’il ait interprété les résultats de ses recherches de cette manière.

conclusions

Interpréter à tort une corrélation comme une relation de cause à effet entre deux variables peut entraîner des erreurs de recherche honteuses. Le problème est que cela se trouve à la base même de la conscience humaine. De nombreuses astuces marketing reposent sur cette fonctionnalité. Comprendre la différence entre cause à effet et corrélation vous permet d'analyser rationnellement les informations tant dans votre vie quotidienne que dans votre carrière professionnelle.

7.3.1. Coefficients de corrélation et de détermination. Peut être quantifié proximité de la communication entre les facteurs et ses se concentrer(direct ou inverse), calculant :

1) s'il est nécessaire de déterminer une relation linéaire entre deux facteurs, - coefficient de paire corrélations: en 7.3.2 et 7.3.3 les opérations de calcul du coefficient de corrélation linéaire apparié selon Bravais–Pearson ( r) et le coefficient de corrélation de rang de Spearman apparié ( r);

2) si nous voulons déterminer la relation entre deux facteurs, mais que cette relation est clairement non linéaire, alors relation de corrélation ;

3) si nous voulons déterminer la relation entre un facteur et un certain ensemble d'autres facteurs, alors (ou, ce qui revient au même, « coefficient de corrélation multiple ») ;

4) si nous voulons identifier isolément le lien d'un facteur uniquement avec un autre spécifique, inclus dans le groupe de facteurs influençant le premier, pour lequel nous devons considérer l'influence de tous les autres facteurs inchangée - alors coefficient de corrélation partielle .

Tout coefficient de corrélation (r, r) ne peut excéder 1 en valeur absolue, soit –1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Le signe du coefficient de corrélation détermine le sens de la relation : le signe « + » (ou aucun signe) signifie que la relation droit (positif), le signe « – » signifie que la connexion inverse (négatif). Le signe n'a rien à voir avec l'étroitesse de la connexion

Le coefficient de corrélation caractérise la relation statistique. Mais il est souvent nécessaire de déterminer un autre type de dépendance, à savoir : quelle est la contribution d'un certain facteur à la formation d'un autre facteur qui lui est associé. Ce type de dépendance est, avec un certain degré de convention, caractérisé coefficient de détermination (D ), déterminé par la formule D = r 2 ´100 % (où r est le coefficient de corrélation Bravais-Pearson, voir 7.3.2). Si les mesures ont été effectuées dans échelle de commande (échelle de classement), alors avec quelques dommages à la fiabilité, au lieu de la valeur r, vous pouvez substituer la valeur r (coefficient de corrélation de Spearman, voir 7.3.3) dans la formule.

Par exemple, si l'on obtient, comme caractéristique de la dépendance du facteur B vis-à-vis du facteur A, le coefficient de corrélation r = 0,8 ou r = –0,8, alors D = 0,8 2 ´100 % = 64 %, soit environ 2 ½ 3. Par conséquent, la contribution du facteur A et ses modifications à la formation du facteur B est d'environ 2 ½ 3 de la contribution totale de tous les facteurs en général.

7.3.2. Coefficient de corrélation Bravais-Pearson. La procédure de calcul du coefficient de corrélation Bravais – Pearson ( r ) ne peut être utilisé que dans les cas où la relation est considérée sur la base d'échantillons ayant une distribution de fréquence normale ( distribution normale ) et obtenu par des mesures sur des échelles d'intervalles ou de rapports. La formule de calcul de ce coefficient de corrélation est :



å ( X je - )( oui je - )

r = .

n×s x ×s y

Que montre le coefficient de corrélation ? Premièrement, le signe du coefficient de corrélation montre le sens de la relation, à savoir : le signe « – » indique que la relation inverse, ou négatif(il y a une tendance : avec une diminution des valeurs d'un facteur, les valeurs correspondantes d'un autre facteur augmentent, et avec une augmentation, elles diminuent), et l'absence de signe ou le signe « + » indique droit, ou positif connexions (il y a une tendance : avec une augmentation des valeurs d'un facteur, les valeurs d'un autre augmentent, et avec une diminution, elles diminuent). Deuxièmement, la valeur absolue (indépendante du signe) du coefficient de corrélation indique l'étroitesse (force) de la connexion. Il est généralement admis (plutôt arbitrairement) : pour les valeurs de r< 0,3 корреляция très faible, souvent il n'est tout simplement pas pris en compte, à 0,3 £ r< 5 корреляция faible, à 0,5 £ r< 0,7) - moyenne, à 0,7 £ ou 0,9 £) - fort et enfin, pour r > 0,9 - très fort. Dans notre cas (r » 0,83) la relation est inverse (négative) et forte.

Rappelons : les valeurs du coefficient de corrélation peuvent être comprises entre –1 et +1. Si la valeur de r dépasse ces limites, cela indique que dans les calculs une erreur a été commise . Si r= 1, cela signifie que la connexion n'est pas statistique, mais fonctionnelle - ce qui n'arrive pratiquement jamais dans le sport, la biologie ou la médecine. Bien qu'avec un petit nombre de mesures, une sélection aléatoire de valeurs donnant une image de la connexion fonctionnelle soit possible, un tel cas est moins probable, plus le volume d'échantillons comparés (n), c'est-à-dire le nombre de paires de mesures comparées.

Le tableau de calcul (tableau 7.1) est construit selon la formule.

Tableau 7.1.

Tableau de calcul pour les calculs Bravais – Pearson

x je et je (X je - ) (X je – ) 2 (oui je - ) (oui je – ) 2 (X je - )( oui je - )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 oui je =56,1 =5,1 å( X je – ) 2 = =1,78 å( oui je – ) 2 = = 1,015 å( X je - )( oui je – )= = –1,24

Parce que le s X = ï ï = ï ï» 0,42, un

s y = ï ï» 0,32, r" –1,24ï (11´0,42´0,32) » –1,24ï 1,48 » –0,83 .

En d’autres termes, vous devez savoir très clairement que le coefficient de corrélation ne peut pas dépasser 1,0 en valeur absolue. Cela permet souvent d'éviter des erreurs grossières, ou plus précisément, de retrouver et de corriger les erreurs commises lors des calculs.

7.3.3. Coefficient de corrélation de Spearman. Comme déjà mentionné, le coefficient de corrélation Bravais-Pearson (r) ne peut être utilisé que dans les cas où les facteurs analysés sont proches de la normale dans la distribution de fréquence et les valeurs variantes sont obtenues par des mesures nécessairement sur une échelle de rapport ou sur une échelle d'intervalle. , ce qui se produit s'il s'agit d'unités physiques exprimées. Dans d'autres cas, le coefficient de corrélation de Spearman est trouvé ( r). Cependant, ce coefficient Peut s'appliquer dans les cas où il est permis (et souhaitable) ! ) appliquer le coefficient de corrélation Bravais-Pearson. Mais il faut garder à l'esprit que la procédure de détermination du coefficient selon Bravais-Pearson a puissance supérieure (« résolution capacité"), C'est pourquoi r plus informatif que r. Même avec un super n déviation r peut être de l'ordre de ± 10 %.

Tableau 7.2 Formule de calcul du coefficient

x je y je R x R y |d R | d R 2 Corrélation de Spearman

13,2 4,75 8,5 3,0 5,5 30,25 r= 1 – . Vos

13,5 4,70 11,0 2,0 9,0 81,00 nous utilisons notre exemple

12,7 5,10 4,5 6,5 2,0 4,00 pour le calcul r, mais nous allons construire

12,5 5,40 3,0 9,0 6,0 36,00 une autre table (tableau 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Remplaçons les valeurs :

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 On voit : r s'est avéré être un peu

12,4 5,60 2,0 11,0 9,0 81,00 plus de r, mais c'est différent

12,3 5,50 1,0 10,0 9,0 81,00 ce qui n'est pas très grand. Après tout, quand

12,7 5,20 4,5 8,0 3,5 12,25 si petit n valeurs r Et r

åd R 2 = 423 sont très approximatifs, peu fiables, leur valeur réelle peut varier considérablement, donc la différence r Et rà 0,1 est insignifiant. Généralementrconsidéré comme un analoguer , mais seulement moins précis. Signes quand r Et r montre la direction de la connexion.

7.3.4. Application et vérification de la fiabilité des coefficients de corrélation. Déterminer le degré de corrélation entre les facteurs est nécessaire pour contrôler l'évolution du facteur dont nous avons besoin : pour ce faire, nous devons influencer d'autres facteurs qui l'influencent de manière significative, et nous devons connaître l'étendue de leur efficacité. Il est nécessaire de connaître la relation entre les facteurs pour élaborer ou sélectionner des tests prêts à l'emploi : le contenu informatif d'un test est déterminé par la corrélation de ses résultats avec les manifestations de la caractéristique ou de la propriété qui nous intéresse. Sans connaissance des corrélations, toute forme de sélection est impossible.

On a vu plus haut que dans le sport et en général dans la pratique pédagogique, médicale et même économique et sociologique, la détermination de ce qui contribution , lequel un facteur contribue à la formation d'un autre. Cela est dû au fait qu'en plus du facteur-cause considéré, cible(le facteur qui nous intéresse) agir, en y apportant l'une ou l'autre contribution, et les autres.

On pense que la mesure de la contribution de chaque facteur-cause peut être coefficient de détermination ré je = r 2 ´100%. Ainsi, par exemple, si r = 0,6, c'est-à-dire la relation entre les facteurs A et B est moyenne, alors D = 0,6 2 ´100 % = 36 %. Sachant donc que la contribution du facteur A à la formation du facteur B est d'environ 1 ½ 3, vous pouvez par exemple consacrer environ 1 au développement ciblé de ce facteur ½ 3 temps d'entraînement. Si le coefficient de corrélation est r = 0,4, alors D = r 2 100 % = 16 %, soit environ 1 ½ 6 c'est plus de deux fois moins, et selon cette logique, selon cette logique, 1 seul devrait être consacré à son développement ½ 6ème partie du temps de formation.

Les valeurs de D i pour divers facteurs significatifs donnent une idée approximative de la relation quantitative de leurs influences sur le facteur cible qui nous intéresse, dans le but d'améliorer lequel nous travaillons en fait sur d'autres facteurs (par exemple, un sauteur en longueur qui court travaille pour augmenter la vitesse de son sprint, c'est donc le facteur qui contribue le plus de manière significative à la formation des résultats en saut d'obstacles).

Rappelons que définir D peut-être à la place r mettre r, même si, bien entendu, la précision de la détermination s'avère moindre.

Basé sélectif coefficient de corrélation (calculé à partir de données d'échantillonnage), on ne peut pas tirer de conclusion sur la fiabilité du fait qu'il existe un lien entre les facteurs considérés en général. Afin de parvenir à une telle conclusion avec différents degrés de validité, la norme critères de signification de la corrélation. Leur utilisation suppose une relation linéaire entre les facteurs et distribution normale fréquences dans chacun d’eux (c’est-à-dire non pas une représentation sélective, mais leur représentation générale).

Vous pouvez, par exemple, utiliser les tests t de Student. Son dis-

formule paire : tp= –2 , où k est le coefficient de corrélation de l'échantillon étudié, a n- volume des échantillons comparés. La valeur calculée résultante du critère t (t p) est comparée au tableau au niveau de signification que nous avons choisi et au nombre de degrés de liberté n = n – 2. Pour vous débarrasser du travail de calcul, vous pouvez utiliser un outil spécial tableau valeurs critiques des coefficients de corrélation des échantillons(voir ci-dessus), correspondant à la présence d'un lien fiable entre les facteurs (en tenant compte n Et un).

Tableau 7.3.

Valeurs limites pour la fiabilité du coefficient de corrélation de l'échantillon

Le nombre de degrés de liberté lors de la détermination des coefficients de corrélation est pris égal à 2 (c'est-à-dire n= 2) Indiqué dans le tableau. 7,3 valeurs ont la limite inférieure de l'intervalle de confiance vrai le coefficient de corrélation est 0, c'est-à-dire qu'avec de telles valeurs, on ne peut pas affirmer qu'une corrélation se produit du tout. Si la valeur du coefficient de corrélation de l'échantillon est supérieure à celle indiquée dans le tableau, on peut supposer, au niveau de signification approprié, que le véritable coefficient de corrélation n'est pas égal à zéro.

Mais la réponse à la question de savoir s'il existe un lien réel entre les facteurs considérés laisse place à une autre question : dans quel intervalle véritable signification coefficient de corrélation, tel qu'il peut être en réalité, pour un infiniment grand n? Cet intervalle pour toute valeur particulière r Et n des facteurs comparables peuvent être calculés, mais il est plus pratique d'utiliser un système graphique ( nomogramme), où chaque paire de courbes construites pour certaines spécifiées au-dessus d'elles n, correspond aux limites de l'intervalle.

Riz. 7.4. Limites de confiance du coefficient de corrélation de l'échantillon (a = 0,05). Chaque courbe correspond à celle indiquée au-dessus n.

En se référant au nomogramme de la Fig. 7.4, il est possible de déterminer l'intervalle de valeurs du coefficient de corrélation vrai pour les valeurs calculées du coefficient de corrélation de l'échantillon à a = 0,05.

7.3.5. Relations de corrélation. Si corrélation par paire non linéaire, il est impossible de calculer le coefficient de corrélation, de déterminer relations de corrélation . Exigence obligatoire : les caractéristiques doivent être mesurées sur une échelle de ratio ou sur une échelle d'intervalle. Vous pouvez calculer la dépendance de corrélation du facteur X du facteur Oui et dépendance de corrélation du facteur Oui du facteur X- ils diffèrent. Pour petit volume n des échantillons considérés représentant des facteurs, pour calculer les relations de corrélation, vous pouvez utiliser les formules :

rapport de corrélation h x½y= ;

relation de corrélation h y ½ fois= .

Voici et sont les moyennes arithmétiques des échantillons X et Y, et - intraclasse moyennes arithmétiques. C'est-à-dire la moyenne arithmétique de ces valeurs dans l'échantillon du facteur X avec lesquelles les valeurs identiques sont conjuguées dans l'échantillon du facteur Y (par exemple, si dans le facteur X il y a des valeurs 4, 6 et 5, auxquelles dans l'échantillon du facteur Y sont associées 3 options avec la même valeur 9, alors = (4+ 6+5) ½ 3 = 5). En conséquence, il s'agit de la moyenne arithmétique de ces valeurs dans l'échantillon du facteur Y, qui sont associées aux mêmes valeurs dans l'échantillon du facteur X. Donnons un exemple et effectuons le calcul :

X: 75 77 78 76 80 79 83 82 ; Oui : 42 42 43 43 43 44 44 45 .

Tableau 7.4

Tableau de calcul

x je et je xy x je – x (x je – x) 2 x je – xy (x jexy) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Par conséquent, h y ½ x= "0,63.

7.3.6. Coefficients de corrélation partielle et multiple. Pour évaluer la dépendance entre 2 facteurs, lors du calcul des coefficients de corrélation, nous supposons par défaut qu'aucun autre facteur n'a d'effet sur cette dépendance. En réalité, ce n'est pas le cas. Ainsi, la relation entre le poids et la taille est influencée de manière très significative par l'apport calorique, le degré d'activité physique systématique, l'hérédité, etc. Lorsque cela est nécessaire lors de l'évaluation de la relation entre 2 facteurs prendre en compte l'impact significatif d'autres facteurs et en même temps, pour ainsi dire, vous en isoler, les considérant inchangés, calculer privé (sinon - partiel ) coefficients de corrélation.

Exemple : nous devons évaluer des dépendances appariées entre 3 facteurs significativement actifs X, Y et Z. Notons r XY (Z) coefficient de corrélation partielle entre les facteurs X et Y (dans ce cas, la valeur du facteur Z est considérée comme inchangée), r ZX (Y) - coefficient de corrélation partielle entre les facteurs Z et X (avec une valeur constante du facteur Y), r YZ (X) - coefficient de corrélation partielle entre les facteurs Y et Z (avec une valeur constante du facteur X). Utilisation des coefficients de corrélation appariés simples (Bravais-Pearson) calculés r XY, r XZ et r YZ, m

Vous pouvez calculer les coefficients de corrélation partielle à l'aide des formules :

rXY – r XZ' r YZ r XZ – r XY' r ZY r ZY –r ZX ´ r YZ

r XY(Z) = ; r XZ(Y) = ; r ZY(X) =

Ö(1– r 2XZ)(1– r 2 YZ) Ö(1– r 2XY)(1– r 2 ZY) Ö(1– r 2ZX)(1– r 2YX)

Et les coefficients de corrélation partielle peuvent prendre des valeurs allant de –1 à +1. En les mettant au carré, on obtient les quotients correspondants coefficients de détermination , aussi appelé mesures privées de certitude(multipliez par 100 et exprimez-le en %%). Les coefficients de corrélation partielle diffèrent plus ou moins des coefficients de paire simples (complets), qui dépendent de la force d'influence du 3ème facteur (comme s'il était inchangé) sur eux. L'hypothèse nulle (H 0), c'est-à-dire l'hypothèse de l'absence de lien (dépendance) entre les facteurs X et Y, est testée (avec un nombre total de signes k) en calculant le test t à l'aide de la formule : t P = r XY (Z) ´ ( n–k)1 ½ 2 ´ (1– r 2XY (Z)) –1 ½ 2 .

Si t R.< t a n , l’hypothèse est acceptée (on suppose qu’il n’y a pas de dépendance), mais si tt a n - l'hypothèse est réfutée, c'est-à-dire que l'on pense que la dépendance a réellement lieu. t un n est tiré du tableau t-Test de l'étudiant, et k- le nombre de facteurs pris en compte (dans notre exemple 3), le nombre de degrés de liberté n= n – 3. D'autres coefficients de corrélation partielle sont vérifiés de la même manière (dans la formule à la place r XY (Z) est remplacé en conséquence r XZ(Y) ou r ZY(X)).

Tableau 7.5

Donnée initiale

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Pour évaluer la dépendance du facteur X à l'action combinée de plusieurs facteurs (ici les facteurs Y et Z), calculer les valeurs de coefficients de corrélation par paires simples et, à l'aide de celles-ci, calculer coefficient de corrélation multiple r X (YZ) :

Ö r 2XY+ r 2XZ-2 r XY' r XZ' r YZ

r X(YZ) = .

Ö 1 – r 2YZ

7.2.7. Coefficient d'association. Il est souvent nécessaire de quantifier la relation entre qualité des signes, c'est-à-dire de telles caractéristiques qui ne peuvent pas être représentées (caractérisées) quantitativement, qui incommensurable. Par exemple, la tâche consiste à découvrir s'il existe une relation entre la spécialisation sportive des personnes impliquées et des propriétés personnelles telles que l'introversion (la concentration de la personnalité sur les phénomènes de son propre monde subjectif) et l'extraversion (la concentration de la personnalité sur le monde de objets extérieurs). Nous présentons les symboles dans le tableau. 7.6.

Tableau 7.6.

X (années) O (fois) Z (fois) X (années) O (fois) Z (fois)
Signe 1 Signe 2 Introversion Extraversion
Jeux sportifs UN b
Gymnastique Avec d

Bien entendu, les chiffres dont nous disposons ici ne peuvent être que des fréquences de distribution. Dans ce cas, calculez coefficient d'association (autre nom " coefficient de contingence "). Considérons le cas le plus simple : une relation entre deux paires de caractéristiques, et le coefficient de contingence calculé est appelé tétrachorique (Voir le tableau).

Tableau 7.7.

une =20 b = 15 un + b = 35
s =15 d=5 c + d = 20
un + c = 35 b + d = 20 n = 55

Nous effectuons des calculs en utilisant la formule :

annonce – avant JC 100 – 225 –123

Le calcul de coefficients d'association (coefficients de conjugaison) avec un plus grand nombre de caractéristiques implique des calculs utilisant une matrice similaire d'ordre approprié.