| AMENAGEMENT DE LA FAUNE, seconde édition |

Chapitre 2: Eléments de Statistiques Appliquées pour Ecologues et Aménagistes


       Chers visiteurs toute contribution au développement de ce cours sous forme de don de matériel TIC, de bourse de recherche ou de toute autre forme est souhaitée. Nous contacter à l'adresse suivante:  ankab226@Yahoo.fr

Somaire

2.1. Eléments de statistiques appliquées pour écologues et aménagistes
2.2. Eléments caractéristiques d'une série statistique.
2.3. Variance échantillonnale et Ecart-Type échantillonnale 
2.4.Distributions de Probabilité 
2.5.Echantillonnage ou Sampling 
2.6.Hypothèses statistiques et Tests de signification (StatisticalHypotheses and Tests of Significance)
2.7. Méthodes d'analyses multivariées

Objectifs

Ce chapitre est un condensé de statistiques descriptives de techniques d'échantillonnages ; il se termine les méthodes d'analyses multivariées (ou analyses des données). Il permet à l'apprenant d'une part d'avoir le pré requis nécessaire à la compréhension des outils utilisés dans le logiciel Distance sampling , logiciel spécialisé d'analyse des données d'inventaire de la faune, et d'autre part d'expliquer les outputs du même logiciel.

Prérequis: connaissances avancées en statistiques descriptives,en techniques d'échantillonnage et en probabilités.


2.1. Eléments de statistiques appliquées pour écologues et aménagistes. 

Le concept de base des statistiques 

Préliminaire 

L'aménagement de la faune comme celui de toute autre communauté naturelle nécessite des informations quantitatives sur la taille (nombre total d'individus), la densité (nombre d'individus par unité de surface), la structure (classe d'âge, sexe), la croissance (augmentation du nombre pendant un temps fini), etc. Une population est un ensemble d'éléments d'une aire ou d'une communauté définie.Si on s'intéresse à une population pour telle ou telle raison cet élément d'intérêt est appélé caractère en statistique.La statistique s'intéresse à des populations (les caimans sacrés de Sabou par ex) dans le but d'une étude numérique d'un caractère (le poids par ex) ou de plusieurs caractères (poids et taille par ex). Comme le statisticien s'intéresse qu'à des données (renseignements) numériques d'une population il va falloir qu'il les collecte d'une manière ou d'une autre. Cette démarche est appélée la collecte des statistiques(du latin collectus qui signifie recueillir et du grec statizein qui signifie constater). 

Le statisticen doit donc 
- Enquêter ( de quérir c-à-d interroger) pour rassembler tous les renseignements nécessaires du caractère étudié.
- Classer les renseignements obtenus et les présenter sous forme de tableaux et de graphiques 
- Calculer certaines valeurs caractéristiques intéressantes : moyenne, médiane,écart-type.... 
Ce travail est destiné à informer le lecteur intéressé par l'enquête; c'est la partie descriptive de la statistique

Le statistiticien peut ensuite :
- Analyser les résultats obtenus 
- Chercher la loi statistique à laquelle obeissent les différents éléments de la population. 
- Porter un jugement sur la valeur des renseignements qui lui ont été fournis,
- étendre les résultats obtenus à une population plus importante présentant les mêmes caractères.
Ce travail purement analytique est la partie analyse de la statistique ou statistique inférentielle. 

Les diverses méthodes d'observation des faits.
Pour obtenir une statistique on utilise généralement deux méthodes: la méthode directe et la méthode indirecte 
La méthode directe ou enquête durant laquelle les individus sont vus et comptés. Pour les populations des petites communautés un observateur pourrait s'intéresser à tous les éléments en mesurant les variables qui caractérisent la population. On parle alors de recensement; c'est une étude ou méthode exhaustive. Exemple l'étude de la taille des étudiants de la classe. Parlant des communautés définies sur une grande échelle ou aire (ville, régions, forêts, lac de barrage, etc.) les choses se compliquent si on veut s'intéresser à tous les éléments en mesurant la ou les variables données. En effet l'étude des grandes populations est coûteuses et demande beaucoup d'investissement physique tant en main d'œuvre qu'en matériel logistique. En outre pour certaines populations telles que la faune il est pratiquement impossible de voir et compter tous les individus d'antilopes (Hippotragus equinus) car ils ont trouvé refuge dans la forêt. Dans une telle situation que faire ? Pour obtenir des renseignements plus rapides et moins couteuses dans ces conditons, les enquêtes sont alors faites par sondages: une partie de la population appélée échantillon ((1/(10)),(1/(100)),(1/(1000))......) est étudiée.Les résultats sont ensuite généralisés.
La méthode indirecte ou enquête durant laquelle les individus sont identifiés pour leurs signes (déjections, empruntes digitales, cris, nid, etc) et comptés comme tel. Les O.N.G., les organismes internationaux , les collectivités de protection de la nature....recueillent de nombreux renseignements socio-écologiques se rapportant à leurs activités.Ces renseignements permettent d'établir de nombreuses statistiques. 
Exemples:celles établies par : 
- Green Peace
- Le ministère de l'eau,de l'agriculture et des ressources hallieutiques. 

La détermination de l'individu ou unité statistique pour toute étude 

Il convient de déterminer avec précision les éléments considérés comme unités statistiques ou individus. Leurs caractères communs doivent permettre de décider sans ambiguité si chaque élément appartient ou non à la population étudiée.Cette condition nécessite une stricte limitation: 
1.dans la définition des caractères distinctifs 
2.dans l'espace 
3.dans le temps 

Classification des caractères étudiés sur une population 
Le caractère étudié sur une population peut-être qualitatif ou quantitatif 
Un caractère est dit quantitatif s'il peut faire l'objet d'une mésure (ex :la taille, le poids) et qualitatif dans le cas contraire (ex:teint, race) 
Caractère qualitatif
Le caractère étudié n'est pas mésurable, les différentes options possibles sont appélées modalités. Les différentes modalités possibles peuvent être classées dans un ordre quelconque, car il n'existe pas de mesure permettant un classement logique. Exemple: groupe d'indivividus (adultes, adolescents, jeunes) 
Caractère quantitatif 
Le caractère étudié est mésurable, sa mésure est appélé la variable.Cette variable peut-être continue ou discontinue.
a) Variable discontinue: les différentes unités de la population ne peuvent prendre que certaines valeurs bien déterminées, et entre deux de ces valeurs il n'existe aucune possibilité intermédiaire. Si les valeurs ne peuvent être que des entiers, on peut préciser en disant que la variable est discrète. Exemple:animaux classés en adultes adolescents et jeunes 
b) Variable continue les différentes unités de la population peuvent prendre une valeur quelconque de l'intervalle possible de variation. Exemple:la taille des caimans sacrés de Sabou.

Il est bien connu que l'échantillonnage apporte de meilleures informations sur les caractéristiques des populations à des coûts plus réduits que ceux de l'étude exhaustive des grandes communautés. Les calculs des paramètres en utilisant les données mesurées des variables pour décrire l'état de la population sont appelés «statistiques », d'un mot latin qui signifie état ou recensement ou collection de taxe. Ces calculs permettent d'estimer des paramètres tels que la moyenne et la variance qui caractérisent les populations. 
On appelle paramètre d'une variable aléatoire (V.A ) les valeurs caractéristiques non aléatoires de cette V.A . Les principaux paramètres d'une V.A sont la moyenne et la variance. 

2.2.Eléments caractéristiques d'une série statistique

Les tableaux et diagrammes donnent une description détaillée d'une série statistique. On peut souhaiter la caractériser plus rapidement. Deux notions sont à envisager :
1°) L'Ordre de grandeur des éléments 
2°) Leur dispersion Mode, médiane, moyennes sont dites caractéristiques de valeur centrale. 

Le Mode -- LA Médiane

Le Mode ou dominante 
Variation discontinue : le mode est la valeur de la variable correspondant au plus fort effectif (donc à la plus grande fréquence) Sur le graphique : bâton le plus haut
Variation continue : les effectifs étant d'abord repartis par classes d'égale amplitude, la classe modale est celle qui a le plus fort effectif ( donc la plus grande fréquence) ; sur l'histogramme elle est représentée par le plus haut rectangle. Remarque : S'il n'y a pas dans une série qu'une valeur dont l'effectif soit maximum, la série est unimodale. S'il y a plusieurs maximums, la série est bimodale ou multi modale mais, dans ce cas, la détermination du mode ne signifie rien: exemple le mode de {2,3,4,4,5,6,6,6,8} est 6 et les modes de {2,3,4,4,4,6,6,6,8} sont 4 et 6. 
La Médiane
C'est en principe, la valeur de la variable qui partage l'effectif d'une série classée de telle manière que l'effectif total des observations de valeur inférieur soit égal à l'effectif total des observations de valeur supérieur. La mediane peut être définie comme la valeur M pour laquelle la somme des valeurs absolues des differences avec la mediane

 

est aussi petit que possible.Pour un nombre paire d'observations les deux valeurs du milieu et tous les nombres à l'intérieur donne la plus petite valeur pour 

 

comme indiqué sur le graphique en bàs à gauche pour les observations {6,8,9,12}.Pour un nombre impaire d'observations,le minimum est atteint au milieu des observations comme indiqué sur le graphique en bàs à droite pour les observations {6,7,8,9,12}.

Figure 16:Représentation de la médiane

  • mediane
  • Pour une distribution de probabilité continue la médiane est tout nombre m satisfaisant 
    Pr(X≤m)=(1/2) où Pr(X≤m) symbolise la probabilité que X≤m.: 

    Les Moyennes 

    Généralités 

    Une moyenne est un nombre dont la détermination utilise les valeurs de toutes les unités d'une série; elle caractérise donc mieux l'ensemble de la série que la médiane. Il existe quatre principales moyennes : la moyenne arithmétique, la moyenne géométrique, la moyenne quadratique et la moyenne harmonique. Nous étudierons uniquement la moyenne arithmétique. La moyenne (moyenne arithmetique) d'un nombre fini d'observations est obtenue en additionnant les observations et en divisant le total par le nombre des observations. La moyenne des nombres

       

    est

    Noter que la moyenne arithmétique peut-être définie comme la valeur m pour laquelle la valeur absolue de la somme des differences de la moyenne

                                   

    est est la plus petite possible (nomment zero). La moyenne des distributions continues avec la fonction de distribution f(x) est obtenue par l' intégral 

                                   

    Le poids moyen Si m₁,m₂,…,m_{k} 

    sont les moyennes correspondant à des ensembles de données de taille 
    n₁,n₂,…,n_{k} alors la moyenne des données combinées est le 'weighted mean'

    La moyenne géométrique 

    Pour un ensemble x₁,x₂,…,x_{n} de nombres positifs la moyenne géométrique est la racine n-ième du produit 

    [n]√(x₁x₂⋯x_{n})

    Un rectangle de cotés a et b a une aire ab. Le carré ayant même aire a des cotés de longueur √(ab), la moyenne géométrique de a et b.La moyenne géométrique est utile avec des données pour les quelles le rapport de deux nombres consécutifs est constant. 
    Exemple: un piton a une taille de 1000 mm à la capture (en 2000) et croît de 10% de sa taille chaque année. Les valeurs sont par année 2000: 1000.00; 2001: 1100.00; 2002: 1210.00; 2003: 1331.00; 2004: 1464.10. La moyenne géométrique de ces valeurs est 

    [5]√(1000×1100×1210×1331×1464. 1)= 1210.00 qui pronostique précisement la valeur moyenne . 

    Comparez avec la moyenne arithmétique: ((1000+1100+1210+1331+1464. 1)/5)= 1221.00 la moyenne géométrique est toujours inférieure ou égale à la moyenne arithmétique.

    La moyenne Harmonique 

    Pour un ensemble x₁,x₂,…,x_{n} de nombres positifs la moyenne harmonique est l'inverse de la moyenne arithmétique des inverses:

    (n/((1/(x₁))+(1/(x₂))+⋯+(1/(x_{n}))))

    Elle est utilisée pour la vitesse moyenne où la distance pour chaque vitesse est la même .

    Soit 70 miles  /h la vitesse à l'aller d'un point à un autre et 50 miles /h la vitesse au retour. Alors la vitesse moyenne est une mésure de dispersion. (2/((1/(70))+(1/(50))))= 58. 333mi /h 



    Variance et Ecart-Type ou Standard Deviation 

    1. Définition 

    1) La variance ou fluctuation est la moyenne arithmétique des carrés des déviations des valeurs des observations à la moyenne arithmétique.
    2) L'écart --type est la racine carré de la variance. Il est donc la moyenne quadratique des déviations des valeurs des observations à leur moyenne arithmétique. Sa valeur est exprimée dans la même unité que la variable.  C'est une notion très importante qui joue un grande rôle théorique. 
    Expression de la variance: l'application de la définition ci-dessus, nous conduit à écrire que
    la variance d'une population de taille n, est définie par
     

    L'écart-type (standard deviation ou root-mean-square deviation) est la racine carrée de la variance: 

    2.3.Variance échantillonnale et Ecart-Type échantillonnale ∙

    La variance échantillonnale de taille n et de moyenne m est définie par: 

     

    Ces statistiques peuvent aussi être appelées le 'sample estimate of population value of the variance', ou variance échantillonnale. L'écart-type (standard deviation) d'un échantillon de taille n et de moyenne m est la racine carrée de la variance:

    Ces statistiques peuvent aussi être appelées le 'sample estimate of population value of the standard deviation, ou sample standard deviation' ou écart-type de l'échantillon. La raison qui fait qu'on divise par n-1 au lieu de n pour calculer le 'sample standard deviation' s est que cette formule donne une estimation non biaisée du standard déviation . La quantité n-1 au dénominateur du 'sample variance' et du 'sample standard deviation' y est reférée en tant que nombre de degrées de liberté, reflectant le fait que la somme des déviations de la moyenne est zero. La formule pour l'écart-type échantillonnale peut-être écrit par:

     L'écart-type sert à comparer des nombres appartenant à des ensembles de données différents quand il est exprimé en unités standards .
    Les unités Standard , conus aussi sous le nom de standard scores, ou z-scores, indique de combien d'écart-type un individu est au-dessus ou en dessous de la moyenne d'un ensemble de données auxquelles il appartient 
    Les unités standards sont z=((x-m)/s) pour un échantillon ou z=((x-)/()) pour une population. 

    Coefficient de Variation:Le coefficient of variation V=100(s/m) exprime l'écart-type en pourcentage de la moyenne (gives the sample standard deviation as a percentage of the sample mean). Il mesure la variation relative qui traduit l'amplitude de la variation interne aux données.  

    Moments: le r-ième moment de l'ensemble {x₁,x₂,…,x_{n}} par rapport au point a est 

     

    Correlation

    La démarche statistique contient souvent des mésures d'individus définis par deux variables.Dans une telle situation la question est de savoir comment les deux variables sont liées. Pour deux variables aléatoires X et Y, on utilise d'habitude la statistique:

    appélée coefficient de correlation (ou moment-produit de coefficient de correlation de Pearson). Le coefficient =(X,Y) satisfait -1≤valeur≤1. La valeur =0 indique l'absence de corrélation linéaire, >0 indique une correlation positive, et <0 correlation négative. Cette statistique est la plus utilisée pour mésurer la force de la corrélation linéaire entre les deux variables. Quand les deux variables aléatoires sont indépendants, cette mésure est 0. Si les deux variables aléatoires X et Y sont linéairement liées dans le sens de Y=a+bX pour des constantes a et b, alors le coefficient de correlation atteint une des valeurs extremes +1 ou -1. Dans chacun des deux cas X et Y sont dites parfaitement correlées.

    La formule

    est la covariance du couple X et Y et la formule 

    est la covariance échantillonnale du couple X et Y. Le coefficient de correlation est le rapport de la covariance sur le produit des écart-type 

    2.4. Distributions de Probabilité 

    Une variable est dite discrète si elle peut prendre qu'un nombre fini ou dénombrable de valeurs. Une variable avec une étendue finie, ou avec pour étendue des ensembles de valeurs entières est dite discrète. Une distribution de probabilité est dite discrète si c'est une fonction de variable aléatoire discrète. 

    Distribution Binomiale 

    Dans une série de n essais independants , chacun ayant seulement deux issues  possibles (appelé "succès" et "échec"), avec la probabilité p succès et la probabilité q=1-p d'échec , la probabilité de succès en n essais est 

    Figure 17:Distribution de la loi binomiale

    La distribution binomiale descrit les probabilités d'évènements qui se produisent x fois sur n seulement quand la probabilité du succès reste la même d'un essai à l'autre et les épreuves sont independantes. Dans la practique, pourtant, la distribution binomiale est souvent utilisée quand ces conditions sont rencontrées seulement dans un sens approximatif. Cela requière un échantillonnage issu d'une population de grande taille---pour supporter les hypothèses d'indépendance approximative. Une méthode standard qui est utlisée pour obtenir une population suffisamment grande est celle telle que chaque échantillon ne soit pas moins de cinq pourcent de la population.

    Distribution de Poisson

    La distribution de Poisson est applicable dans beacoup de situations où les évènements rares se produisent, par exemple, dans l'inspection et le contrôle de qualité de produits manufacturés où la proportion d'articles défectueux dans un grand lot doit être petit. La fonction de densité de la probabilité de Poisson est une fonction discrète définie pour des entiers n non-negatifs.Pour la distribution de Poisson avec la moyenne et l'écart-type >0, la probabilité est definie par

    La fonction de distribution cumulative de Poisson est une fonction discrète définie pour des entiers n non-negatifs.
    Pour la distribution de Poisson avec moyenne et d'écart-type >0, la probabilité est définie par la sommation

    Figure 18:Distribution de la loi de Poisson.

    Approximation de la Distribution Binomiale

    La distribution de Poisson peut être utilisée pour approximmer la distribution binomiale quand p est petit et n grand; tel que

    Distribution Discrète Uniforme

    Une distribution discrète uniforme pour une population de taille n, satisfait

     pour des entiers 0≤x≤n; la distribution a la moyenne n/2. 

    Les variables aléatoires continues et leurs distributions jouent un rôle très important en statistiques. Les distributions continues fournissent des approximations très proches des distributions de probabilité des variables discrètes et même plus important, elles fournissent les bases de la plus part des théories utilisées dans des problèmes d'estimation, de pronostique, et dans les tests d'hypothèses. La fonction de densité de probabilité d'une variable continue est une function de l'ensemble des nombres réels -∞≤x≤∞ dans l'intervalle 0≤p≤1 tel que le domaine (densité) sous le graphique de la fonction soit égale à 1. Nombreuses distributions de probabilité continues dépendent d'un paramètre appelé degrés de liberté.Pour un ensemble de conditions données , le nombre de degrés de liberté (souvent symbolisé par ddl ou D.D.L.) est le nombre maximal de variables qui peut librement être assigné avant que le reste des variables ne soit complètement déterminées;ainsi c'est le nombre total des variables moins le nombre des relations indépendantes existantes entre elles. 

    La Distribution Normale

    La familille des distributions normales se produit beaucoup plus que toute autre famille paramétrique en statistics. Une raison pour cela est que la somme d'un grand nombre de variables aléatoire indépendantes ont approximativement une distribution normale. 

    Les distributions normales sont symétriques par rapport à la moyenne. La courbe de probabilité normale est une courbe familière en forme de cloche.

    Figure 19: Distribution de la normale.

    La moyenne, le mode et la médiane sont égaux pour cette famille de distributions. La fonction de densité de probabilité pour la distribution normale de moyenne et d'écart-type est 

    Les Probabilities et les régions sous la courbe de la fonction de densité de probabilité normale de moyenne et d'écart-type sont données par la fonction de distribution normale cumulative qui est definie pour tous les nombres réels et pour tout positif par l'intégrale

     

    La fonction de densité normale standard et la fonction de distribution cumulative normale standard se produit quand la moyenne et l'écart-type satisfont =0 et =1 reduisant les formules sous les formes 

    La Distribution Normale et la Distribution Binomiale

    Dans la distribution binomiale pour N échantillons de n essais chacun où la probabilité de succès dans un essai est p, si la valeur de n s'augmente , l'histogramme représentant la distribution binomiale est proche d'une courbe, appelé la courbe normale , dont l'équation est 

     

    t-Distribution de Student

    Dans les cas où l'écart-type de la population n'est pas connu et une estimation obtenue d'un échantillon doit être utilisée, les quantités résultantes ne satisfont plus une distribution normale mais satisfont à un type different de distribution, appelé t-distribution de Student ou Student's t-distribution d'après le statisticien qui le premier la décrite sous le pseudonyme de "Student." La t-distribution de Student est une distribution d'échantillonnage de la statistique

    où m et s sont respectivement la moyenne et l'écart-type d'un échantillon aléatoire de taille n d'une population qui a la moyenne et qui peut-être approximée à une courbe normale . Cette distribution est connue sous le nom de t distribution de Student, ou simplement, la t-distribution; et la statistique t est appelé t-score. Dans la t-distribution de Student, la fonction de densité de probabilité d'une quantité t est donnée par la fonction

    Où n représente le nombre de degré de liberté, et c une constante dépendante de n et déterminé par la condition que le domaine total sous la courbe de probabilité soit égale à 1.

    Figure 20: Distribution de la loi de Student.

    La variance et l'écart-type, pour la t-distribution de Student sont (n/(n-2)) et√((n/(n-2))), respectivement, fourni pour n>2. La moyenne est 0.

    La constante c est

    où 

                       

     pour u≥0, et est 0 ailleurs est la Gamma function de y. 

    Chi-Square Distribution (distribution de Chi-deux)

    Dans les cas où la moyenne de la population n'est pas connue et une estimation obtenue d'un échantillon doit être utilisée, la variance échantillonnale résultante satisfait une distribution appelée distribution de chi-deux (de la lettre grecque chi). Dans distribution de chi-deux, la fonction de densité de probabilité d'une quantité non-négative

     est donnée par 

    Où n représente le nombre de dégré de liberté, et c une constante dépendant de n et déterminée par la condition que le domaine total sous la courbe de probabilité égale à 1.

    Figure 21: Distribution de la loi de chi-deux.

    La distribution de chi-deux a une moyenne égale à n, une variance égale à 2n, et un écart-type de √(2n). 

    La constante c est 

    où 

    est la fonction Gamma function de y. 

    F Distribution 

    Le rapport de deux variables aléatoires indépendantes de chi-deux , quand elles sont divisées par leur degrees de liberté respective, a une distribution appelée F distribution. Dans une F distribution, la fonction de densité de probabilité d'une quantité non-négative u est donnée par

    où m et n représente chacun un nombre de degré de liberté, et c est une constante qui dépend de m et de n et est déterminé par la condition que la probabilité de l'aire totale sous la courbe est égale à 1.

    Figure 22: Distribution de la loi Fisher Snédécor.

    La moyenne d'une F distribution est (m/(m-2)), fournie pour m>2. 

    La variance est ((2m²(m+n-2))/(n(m-2)²(m-4))), fournie pour m>4. 

    La constante c est 

    où 

    est la fonction Gamma de y.

    Gamma Distribution 

    La fonction densité de probabilité gamma pour la distribution gamma est definie pour u>0 par 

    Les parametres a et b sont appelés paramètre de forme et paramètre d'échelle respectivement. la moyenne de cette distribution est ab et la variance est ab².

    Figure 23: Distribution de la loi Gamma.

     La distribution cumulative de Gamma est definie pour x>0 par l'intégrale

    où 

     est la Gamma function de y.

    Le cas où le paramètre de forme c est un entier elle est connue aussi sous le nom de distribution de Erlang. Dans ce cas, la fonction densité de probabilité et la fonction de distribution cumulative sont définies par u,x>0 par

    La Distribution Uniform 

    La variable aléatoire uniforme est la version continue de "choisir un nombre au hasard." Les probabilites que la variable aléatoire uniforme sur [a,b] ait une valeur dans l'une des deux sous intervalles de [a,b] d'égale longueur sont égales. La fonction de densité uniforme est donnée par

     sont des nombres réels quelconques 

    Figure 24: Distibution de la loi uniforme.

    Les fonctions de distribution cumulative uniformes sont données par

    2.5. Echantillonnage ou Sampling

    Les statistiques inférentielles, ou statistiques inductives, consistent à faire des généralisations sur des populations sur la base des échantillons, où une population des observations possibles contées ou mesurées concernant un certain phénomène. Un échantillon est une partie quelconque d'une population. Une characteristique mésurable d'une population, tel l'écart-type   est appélée paramètre de la population ou simplement un paramètre. Une quantité calculée à partir d'un échantillon, comme sa moyenne ou son écart-type est appélée statistique échantillonnale ou simplement une statistique. Une population est finie si elle consiste en un nombre fini d'éléments. Une population est infinie si il n'y a pas de limite au nombre d'éléments qu'il contient. Par exemple, la population consistant de toutes les mains de poker possibles est finie et la population consistant de toutes les séquences finies possibles de pile ou face d'une pièce de monaie est infinie.

    Echantillon aléatoire et définition de l'échantillonnage

    La raison principale de l'échantillonnage est de tirer une conclusion sur la population mère de l'échantillon. Un échantillon est dit aléatoire si chaque individu de la population a la même chance d'appartenir à l'échantillon.L'échantillon est dit biaisé si certain individus de la population ont plus de chance d'appartenir à l'échantillon. Le tirage de tout élément ou la valeur qui doit être inclue dans l'échantillon aléatoire d'une population infinie doit être controlé par la même probabilité tout comme le choix de tout autre élément et les tirages successifs doivent être indépendants.Une méthode d'échantillonnage est un plan d'obtention d'échantillons d'une population donnée définie; ce plan doit être spécifié avant la collection des données.

    Distribution des moyennes d'échantillons

    Il est généralement possible d'obtenir des informations adéquates pour la plus part des cas à partir d'échantillons relativement petits.Cette affirmation est précisée dans les deux théorèmes qui suivent.

    Théorème 1- Distribution d'échantillonnage des moyennes des échantillons.
    Si des échantillons aléatoires de taille n sont tirés d'une population de distribution normale de moyenne et écart-type, la distribution théorique d'échantillonnage des moyennes d'échantillons m est aussi normale avec une moyenne et de standard deviation /√n. 
     

    Théorème 2- Limite centrale.

    Le théorème est connu sous le nom de "théorème centrale limite" ou "loi des grands nombres".Il stipule que la probabilité que la moyenne d'un échantillon aléatoire s'écarte de la moyenne de la population mère d'une grandeur supérieure à une valeure donnée tend vers zero lorsque la taille de l'échantillon tend vers l'infini.Grace à ce phénomene l'expérience qui consiste à demander à une centaine de personnes d'estimer la longueur d'un grand immeuble pour ensuite prendre la moyenne de ces estimations peut donner un resultat d'une surprenante précision. Aussi si on dit que la moyenne d'une variable aléatoire X est une certaine valeur cela peut s'interpréter par la loi des grands nombres pour signifier que si l'expérience était répétée un grand nombre de fois alors la moyenne de ces valeurs sera très proche de la valeur réelle .
    Exemple: soit X une variable aléatoire (normal ou pas ,continue ou discète) d'une population admettant une moyenne  et une variance.Soit X₁, X₂, …, X_{n} un échantillon de taille n de X et soit y égale à

       
    Pour un nombre n très grand la distribution de Y est approximativement normale avec une moyenne n et une variance n² (ou un standard deviation √n). Plus spécifiquement , si n est suffisament grand, alors pour tout réelle y égale à

       est la fonction de distribution normale standard 
    C'est difficile d'affirmer exactement la taille de n à partir delaquelle le théorème s'applique.Généralement,à moins que la distribution ait une forme très inhabituelle l'approximation sera bonne même si n est relativement petit disons, pas moins de 30. Si la distribution de la population peut êtrebien approximmée par une courbe normale, le théorème peut s'appliquer même pour un nombre n inférieur à 30. 

    Intervalles de Confiance 

    Pour toute méthode d'estimation, la question de l'exactitude se pose: de combien la vraie valeur est proche de la valeur estimée? Un moyen d'indication de l'exactitude d'une valeur estimée est l'intervalle de confidence , un intervalle qui entoure la valeure estimée de telle sorte que avec une grande probabilité, la vraie valeur tombe dans l'intervalle donné. Soit x la valeur estimatée de X. Une procedure pour calculer l'intervalle de confiance J(X) est la procedure de confidence 100% 

    Pr[X∈J(X)]≥. 

    Ainsi pour J(X)=[a_{X},b_{X}], une procédure de confiance à 95% satisfait Pr[a_{X}≤X≤b_{X}]≥.95. 
    L' intervalle est appélé un intervalle de confiance à 95% . Il y'a des procédures de confiance pour estimer la moyenne de la population, les écart-types, les proportions, et autres paramètres d'une population

    Standard Errors ou Erreurs Standards
    Le standard error d'une statistique est l'écart-type (standard deviation) de la distribution d'échantillonnage de cette statistique.
    Pour un échantillon de taille n d'une population de standard deviation , ∙ 
    L'erreur standard d'une moyenne est

                                                                     
    L'erreur standard d'un écart-type, est 

                                                                      ∙ 
    L'erreur standard d'une proportion, est 

                                                                       

     où x/n est la proportion échantillonnale and p est la vraie proportion. ∙ 
    L'erreur standard de la différence entre les moyennes d'échantillons issus de deux populations indépendantes est      
    Pour des petites populations , on multiplie l'expression pour le standard error par 

                                                                 

     où N est la taille de la population et n est la taille de l'échantillon. 
    La moyenne échantillonnale d'un échantillon aléatoire est un estimateur sans biais de la moyenne de la population (si la population admet une moyenne). 

    Les grands échantillons ou Large Samples

    Du théorème décrivant la distribution des moyennes échantillonnales si des échantillons aléatoires de taille n sont pris d'une population de moyenne et d'écart-type la moyenne échantillonnale m est distribuée avec la moyenne  et d'écart-type 

     Cette importante statistique, connue sous le nom de erreur standard de la moyenne , mesure combien les moyennes des échantillons fluctuent ou varie selon le hasard. Il réflète l'exactitude avec laquelle les moyennes échantillonnales estiment la moyenne de la population. Si l'écart-type de la population est connue;on peut utiliser la procédure décrite dans cette section pour toute taille échantillonnale. Si l'écart-type de la population n'est pas connue et on a un échantillon de grande taille on peut supposer que l'écart-type de la population est bien approximmé par l'écart-type de la population estimé par l'échantillon 

    c'est-à-dire, s. Il est de coutume, et généralement appropriée,de considérer un échantillon "grand" quand n est égale à 30 ou plus et "petit" quand n est moins de 30. Le calcule de l'intervalle de confiance de la distribution est fait habituellement en recherchant une valeur z standard ( standard z-score)

    où les limites peuvent être trouvées dans la table de la distribution normale standard. 

    Exemple
    Pour un niveau de confiance à 95% (aussi appélé niveau alpha de 5%), on peut trouver z telle que Pr(-z≤Z≤z)=0.95. on trouve z=±1.96, donnant un intervalle 

    ou

     

    On peut revendiquer avec une probabilité de 0.95 (i.e., on est à 95% confiant), que la moyenne de la population  est contenue dans l'interval compris entre

    signifiant que si un grand nombre d'expérience sont faites , la moyenne de la population  serait contenue dans un intervalle compris entre
    pour approximativement 95% de ces outcomes.
        Cet intervalle calculé ci-dessus est connu sous le nom d'intervalle de confiance et les "95 pour cent" est appélé coefficient de confiance.

      ∙  Dans un problème donné la moyenne que l'on veut estimer peut se trouver ou pas dans l'intervalle de confiance .Cependant si on calcule l'intervalle de confiance pour un coefficient de 95% dans différents de problèmes, les intervalles vont contenir la moyenne environ 95% des cas.
      ∙  Quand on calcule l'intervalle de confiance pour un coefficient de confiance plus grands on obtient un intervalle plus grand  en d'autres termes on devient de plus en plus confiant pour une estimation de moins en moins précise.

    Petits Echantillons ou Small Samples

        Pour des petits échantillons on considère la distribution de la statistique:

    où m et s sont la moyenne et l'écart-type échantillonnale d'un échantillon aléatoire de taille n tiré d'une population de moyenne et écart-type , et qui obéit à une distribution de courbe normale. Cette distribution est connue sous le nom de Student's t distribution, ou plus simplement t-distribution; et la statistique t est appelée t-score.
        Pour un niveau alpha de 5%, on  rejette l'hypothèse nulle (moyenne de la population =) si t se trouve hors d'un certain intervalle. Le calcul de cet intervalle est fait de manière analogue que celle décrite dans la section antérieure, mais en utilisant le t-score au lieu du z-score, et en consultant la table de Student's t distribution au lieu de la table de la distributon normale (on trouve t telle que Pr(-t≤X≤t)=0.95 pour le coefficient de confiance 95%).
    La distribution de Student dépend d'une quantité appélée le "nombre de degrés de liberté ." En référence aux pluseiurs applications, c'est la taille de l'échantillon moins un . Pour un échantillon de taille 5 et de coefficient de confiance 95%, ces limites sont

    ou



    L'inégalité

    -z<((√n((x/n)-p))/(√(p(1-p))))
    <(x/n)+z√(((p(1-p))/n)) Avec une méthode de calcul algébrique, on peut obtenir les bornes de cet intervale pour des valeurs de x, n, et z en résolvant les deux equations (x/n)-z√(((p(1-p))/n))=p et p=(x/n)+z√(((p(1-p))/n)) pour p. Pour n≥100, On peut raisonnablement approximmer le standard error d'une proportion √(((p(1-p))/n)) en substitutiant x/n par p, en donnant l'approximate suivante de l'intervalle de confidence pour p: (x/n)-z√((((x/n)(1-(x/n)))/n))

    <(x/n)+z√((((x/n)(1-(x/n)))/n)) Pour un niveau de confiance de 95% (niveau alpha de 5%), on trouve z telle que Pr(-z≤Z≤z)=.95. Ces limites sont ±1.96, donnant l'intervalle -1.96<((x-np)/(√(np(1-p))))<1.96 et l' approximation (x/n)-1.96√((((x/n)(1-(x/n)))/n))

    <(x/n)+1.96√((((x/n)(1-(x/n)))/n))Pour x=40 et n=100, on peut revendiquer avec une probabilité de 0.95 (i.e., on est 95% confiant), que la proportion p est contenue dans l'interval de ((40)/(100))-1.96√(((((40)/(100))(1-((40)/(100))))/(100)))=. 304 à ((40)/(100))+1.96√(((((40)/(100))(1-((40)/(100))))/(100)))=. 496. (En resolvant les deux equations on a . 309 ≤p≤ . 498 . Si on regarde les limites de la confiance dans la table on trouve .303≤p≤503. Ces différences reflète l'approximations et indique que.3≤p≤.5 serait une estimation raisonnable.) Cet intervalle calculé ci-dessus est connu en tant que l' approximation de intervalle de confidence et "95 pourcent" est appelé le coefficient de confiance.

    Pour l'échantillonnage des petites populations, quand bien même un échantillon constitue une appreciable portion d'une population, cinq percent ou plus doit subir une modification dans la formule pour l'erreur standard de la statistique; on multiplie l' expression du standard error par √(((N-n)/(N-1))) avec N la taille de la population et n est la taille de l'échantillon. Mais, la formule pour le standard error of the mean (erreur standard de la moyenne) devient (()/(√n))√(((N-n)/(N-1))) ou (S/(√n))√(((N-n)/(N-1))) et la formule pour le standard error of a proportion devient √(((p(1-p))/n))√(((N-n)/(N-1))) . Noter que quand n<0.05N et N≥500, le facteur d'adjustment est >0. 975, et quand n<0.01N et N≥10000, ce facteur d'adjustment est>0 . 995, très proche 1.

    2.6. Hypothèses Statistiques et Tests de Signification (Statistical Hypotheses and Tests of Significance) 

    Comme généralement ce n'est pas pratique voire impossible d'établir la véracité ou la fausseté   des hypothèses statistiques en examinant la population entière, les décisions sont prises sur la base des échantillons tirés de la population.
    Le test d'hypothèse est une procédure objective pour prendre une décision sur la base des données. ∙
    Une hypothèse statistique est une supposition( assumption) faite sur un certain paramètre, i.e., sur une mesure statistique d'une population. Avant de faire une expérience, un investigateur doit spécifier la décision sur le (des) paramètre(s) en deux classes. Une d'elles (par exemple, H0) est l'hypothèse statistique ou hypothèse nulle. L'autre catégorie (par exemple,H1 ≠H0) est l'hypothèse alternative . Une des deux classes peut-être plus compliquée que l'autre. D'habitude la classe la plus simple est prise comme hypothèse nulle , et la plus compliqué comme l'hypothèse alternative. ∙ 
    Une procédure statistique ou règle de décision qui teste la véracité d'une hypothèse est appelée test statistique
    L' hypothèse testé est appelé l'hypothèse nulle . L'alternative à l' hypothèse nulle est appelée l'hypothèse alternative 
    La procédure d'extraire des informations d'un échantillon aléatoire pour rejetter ou accepter hypothesis nulle est appelé le test d'hypothèse. 
    Rejet et Acception de l'hypothèse nulle
    Si on obtient un resultat consistant avec l'hypothèse nulle on ne doit pas accepter l'hypothèse comme étant vraie (vérité absolue). Mais,on peut faillir en rejettant l'hypothèse nulle. Ceci est subtile, mais constitue une très importante nuance: en principe, on ne doit jamais accepter l'hypothèse nulle comme étant vraie sur la base d'un test statistique; on peut seulement la rejetter comme étant intenable. 

    Les Types d'Erreurs 

    Le test d'hypothèses statistiques ne doit pas constituter une preuve mathématique de la véracité des hypotheses. Deux types de conclusions incorrectes possibles existent. ∙ 
    Erreur deType 1 : Si il arrive que l'hypothèse qui a été testée est actuellement vraie,et si à partir de l'échantilon on rejette l'hypothèse,on a commet une erreur de type1 ∙ 
    Erreur deType 2:Si il arrive que l'hypothèse qui a été testée est actuellement fausse, et si à partir de l'échantilon on accepte l'hypothèse, on a commis une erreur de type2 

    Etapes pour la Construction des Tests de Signification 

    <>1.Formuler une hypothèse nulle H₀ de telle sorte que la probabilité de commettre une erreur de Type I puisse être calculée.
    2.Formuler une hypothèse alternative de telle sorte que le rejet de l' hypothèse H₀ soit équivalent à l' acceptation de l'hypothèse alternative. 
    3.Spécifier la probabilité de commettre l'erreur de Type I . (Cette probabilité, est appelée niveau de signification.)
    4.Utiliser la théorie statistique pour construire le critère pour le test d'hypothèse formulée en (1) contre l'alternative formulée en (2) au niveau de signification spécifié en (3).
    5.Spécifier si l'alternative de rejeter l'hypothèse formulée en (1) est pour la rejeter ou pour émettre un jugement. On prend souvent pour hypothèse nulle le contraire de ce que l'on veut prouver .Par exemple si on désire montrer que les femmes sont supérieures aux hommes dans un exercice particulier , on peut formuler l'hypothèse que il n'y a pas de différence dans l'exécution des deux groupes lors de cet exercice et utiliser la théorie statistique pour rejeter l'hypothèse (ou pour émettre le jugement). La formulation de l'hypothèse alternative divise l'étendue des valeurs possibles du test statistique en deux régions critiques: la région acceptation et la région de rejet. Quand la région d'acceptation est un intervalle, ses bouts sont référés comme étant des valeurs critiques. Quand la valeur calculée du test statistique tombe dans la région de rejet , on dit qu'elle est significative; tandis que si elle tombe dans la région d'acceptation le résultat de l'échantillonnage est dit non significatif, signifiant non significatif et suffisant pour rejeter l'hypothèse nulle.Pour cette raison, les procédures de test sont souvent appelées tests de signification. Bien que le choix d'un niveau de signification soit essentiellement arbitraire et peut changer suivant les conséquences de réalisation de l'erreur de type 1 il est conventionnellement accepté de considérer un résultat significatif si la probabilité calculée est moins de =0.05 (5%), et de le dire hautement significatif si la probabilité calculée est moins de =0.01 (1%). 

    Exemple

    On joue à pile ou face pour vérifier qu'une pièce de monnaie n'est pas équilibrée: on examine ce qui pourrait arriver si la pièce demonaie était équilibrée. Supposons que le rejet 40 fois de la pièce de monnaie permet d'obtenir face 30 fois. On calcule la probabilité que la pièce tombe 30 fois face ou plus sous l'hypothèse H₀: la pièce est équilibrée (i.e. p=.50). Pour 40 essaies, Pr(X≥30)= 1. 1107×10⁻³, on a une très petite probabilité. A partir de ce resultat on peut tirer deux conclusions : a) l'hypothèse est correcte, mais un évènement rare s"est produit; b) l'hypothèse n'est pas correcte. En statistique, il est de coutume de choisir la seconde de ces deux alternatives quand la probabilité est petite: dans ce cas, Pr(X≥30)=0.0011<0.01. Donc l'évènement est hautement significatif ou encore l'hypothese selon laquelle la pièce de monaie est équilibrée doit être rejettée. 

    Tests à une et deux queues One- and Two-Tailed Tests

    Si le domaine est seulement une queue de la courbe et est utilisé pour le test d'hypothèse statistique, le test est appelé test à une queue ou one-tailed test; si le domaine utilisé est les deux queues , le test est appelé test à deux queux ou two-tailed. La décision de laquelle des deux (test à une queue ou deux queues) doit être utilisée dépend de l'hypothèse alternative c'est-à-dire pour  z<X ou pour z>X  pour un test une queue ou encore -Z<X<Z pour un test à deux queues.

    2.6. Analyse multivariée.

    Regression Linéaire

    Une équation de la forme y=ax+b avec a et b constantes est appelé équation de droite ou linéaire (linear equation). Les équations linéaires doivent leur nom au fait que lorsque représentée graphiquement tous les couples de valeurs x et y qui satisfont cette équation appartiennent à une droite. 

    L' importance des équations linéaire se trouve non seulement dans le fait que beaucoup de correlations sont de cette forme mais aussi dans le fait que qu'elles peuvent fournir de bonnes approximations de corrélations compliquées qui serraient décrites difficilement en termes mathématiques. Un ensemble de couples de variables est appelé population bivariable (bivariate) ou population définie par deux variables. La méthode des moindres carrées et la regression linéaire s'appliquent aux populations bivariables. Les nuages de points (scatter plot) suivants décrivent les données dans la table: 0 1 2 3 4 5 6 7 8 9 10 1 2 4 4 3 6 8 10 9 7 12 avec une approximation linéaire des données :

    Figure 25: Nuage de points.

    Les valeurs sur la prémière rangée sont interprétées comme des variables indépendantes et rapportées sur l'axe des x . L'approximation linéaire donnant, dans un certain sens bien défini, une meilleure représentation des données fournit une information sur les données et récolte ainsi des pronostiques très utiles. La droite fournit un modèle mathématique pour des situations qui sont interprétées comme des variables dépendantes et rapportées sur l'axe des y. Ainsi la représentation décrit les points (0,1), (1,2), (2,4), (3,4), (4,3), (5,6), (6,8), (7,10), (8,9), (9,7), (10,12). 

    La Méthode des moindres carrés 

    La methode standard utilisée pour représenter des données numériques sous forme de droite est connue en tant que méthode des moindres carrés ou method of least squares. ∙ La méthode des moindres carrés produit en une droite est telle que la somme des carrés de l'écart des déviations verticaux (distances) des points à la droite est aussi petite que possible. 

    Figure 26: La droite des moindres carrés.

    Cette distance verticale mésure la différence entre les données et les valeurs prédites,donc mésure l'erreur de prédiction (pronostique) faite par le modèle. Supposons que les couples de valeurs observés (X₁,Y₁), . (X₂,Y₂), (X₃,Y₃), … (X_{n},Y_{n}).sont décrites par la droite y=Ax+B, ainsi les couples de valeurs prédites sont (X₁,AX₁+B), . (X₂,AX₂+B), (X₃,AX₃+B), … (X_{n},AX_{n}+B) et l'expression qui doit être minimisée est ∑_{i=1}ⁿ(Y_{i}-(AX_{i}+B)). 

    La solution est B = ((n(∑_{i=1}ⁿX_{i}Y_{i})-(∑_{i=1}ⁿX_{i})(∑_{i=1}ⁿY_{i}))/(n(∑_{i=1}ⁿX_{i}²)-(∑_{i=1}ⁿX_{i})² )) A = ((∑_{i=1}ⁿY_{i}-B∑_{i=1}ⁿX_{i})/n) 

    Exemple 

    Avec l'ensemble des données [ 0 1 2 3 4 5 6 7 8 9 10 1 2 4 4 3 6 8 10 9 7 12 ], ∙ ∑_{i=1}ⁿX_{i}Y_{i}=(0⋅1) +(1⋅2) +(2⋅4) +(3⋅4) +(4⋅3) +(5⋅6) +(6⋅8) +(7⋅10) +(8⋅9) +(9⋅7) +(10⋅12)= 437 ∙ ∑_{i=1}ⁿX_{i}=0+1+2+3+4+5+6+7+8+9+10= 55 ∙ ∑_{i=1}ⁿY_{i}=1+2+4+4+3+6+8+10+9+7+12= 66 ∙ ∑_{i=1}ⁿX_{i}²=0²+1²+2²+3²+4²+5²+6²+7²+8²+9²+10²= 385 ∙

    A=((11( 437)-( 55)( 66))/(11(385)-(55)²))= ((107)/(110)) et B=(( 66-(((107)/(110)))(55))/(11))= ((25)/(22)) 

    La droite des moindres carrées est y=((107)/(110))x+((25)/(22)). Noter que avec cette méthode;on peut calculer B avant A.Le calcul de A et de B peut-être simplifié en changeant l'échelle de x telle que ∑_{i=1}ⁿX_{i} est egale à zero.On peut aussi calculer ces constantes en résolvant les deux équations simultannées suivantes appelées les equations normales:

    ∑_{i=1}ⁿY_{i} = A⋅n+B⋅∑_{i=1}ⁿX_{i} ∑_{i=1}ⁿX_{i}Y_{i} = A⋅∑_{i=1}ⁿX_{i}+B⋅∑_{i=1}ⁿX_{i}²

    Cette courbe Y=Ax+B qui a représenté en un ensemble de n points (X,Y) par la méthode des moindres carrés est appelée la droite de regression de Y sur X ou la droite de prediction pour Y. Un ensemble de données peut contenir beaucoup de couples avec la même variable indépendante (par exemple X peut représenter l'âge et Y la taille).La courbe qui est formée à l'aide des distributions pour des variables indépendantes fixées est appelée une coubre de regression . Si cette courbe est une ligne droite, elle est appelée une regression linéaire. 

    L'erreur standard de regression

    L'erreur standard estimée ou standard error of estimate pour la représentation d'une regression linéaire d'un échantillon de n couples de valeurs X,Y est définie par s_{e}=√(((∑(Y-Y_{e})²)/n)) où Y est la valeur observée et Y_{e}=AX+B est la valeur prédite.

    Correlation Coefficient

    Le coefficient de correlation pour un échantillon de taille n le couple de valeurs X,Y-est défini par r=((∑xy)/(√((∑x²)(∑y²)))) Cela peut-être écrit sous une des formes (equivalentes) r = ((∑xy)/(n√(((∑x²)/n))√(((∑y²)/n))))=((∑xy)/(ns_{x}s_{y})) r = ((∑XY-((∑X∑Y)/n))/(√((∑X²-(((∑X)²)/n))(∑Y²-(((∑Y)²)/n))))) r = ((∑xy-nXY)/(√((∑X²-nX²)(∑Y²-nY²)))) Le coefficient de correlation satisfait les propriétés suivantes:

    1) Si les points du nuage sont sur la droite de régression alors r=± 1;

    2) Si une relation non linéaire existe entre les X's et Y's, alors r=0. 3.Dans tous les cas, -1≤r≤1. Le carré du coefficient de correlation est appelé coefficient de détermination.  Le coefficient de détermination est une proportion de la variation totale de Y exprimée par la relation linéaire entre X et Y. 

    <>

    Cas de la représentation des Courbes par des Polynômes

    Un nuage de points peut montrer l'existence d'une relation polynomial . Pour des polynômes de second et troisième degrés, cela signifie des équations de la forme y = A+Bx+Cx², ou y = A+Bx+Cx²+Dx³ . L'ensemble des données suivantes est clairement non linéaire
    .La méthode des moindres carrés peut-être utilisée pour trouver une meilleure représentation pôlynomiale. 

    Figure 27:Approximation polynomiale des moindres carrés-nuage des points.

    [(-3,7),(-2,4),(-1,2),(0,0),(1,1.5),(2,5),(3,10)] La représentation suivante montre une meilleure représentation des moindres carrés par une parabole (polynôme de degré 2, en vert) et polynome de degré 3 (rouge courbe).

    Figure 28:Approximation polynomiale des moindres carrés.

    Pour le degré 2, on résoud le système d'équations pour A,B,C.

    An +B∑X+C∑X² = ∑Y 

    A∑X+B∑X²+C∑X³ = ∑XY

    A∑X²+B∑X³+C∑X⁴ = ∑X²Y 

    Pour le degré 3, on résoud le système d'équations pour A,B,C,D..

    An +B∑X+C∑X²+D∑X³ = ∑Y 

    A∑X+B∑X²+C∑X³+D∑X⁴ = ∑XY

    A∑X²+B∑X³+C∑X⁴+D∑X⁵ = ∑X²Y 

    A∑X³+B∑X⁴+C∑X⁵+D∑X⁶ = ∑X³Y 

    2.7. Les méthodes d'analyses multivariées.

    Typologie des méthodes multivariées.

    Comme nous l'avons vu plus haut une population peut être définie par une variable (taille), deux variables (taille et poids) ou plus de variables. Si la population est définie par plus de deux variables on utilise soit les méthodes de régressions multiples soit les méthodes d'analyses multivariées pour décrire la population. Nous considérons ici le cas des analyses multivariées. Dans la plupart des cas et surtout pour ce qui concerne nos populations à échantillonner (cas de la faune) on suppose que les éléments de la population sont distribué selon la loi du hasard et que cette distribution obéit à la loi normale. Les méthodes d'analyse multivariée sont des statistiques descriptives qui permettent de comprendre l'organisation des données autour des axes du plan (plan euclidien, plan tridimensionnel). 
    Les méthodes communément utilisées sont les ACP (analyse en composantes principales), les AFC (Analyses factorielles par correspondance), les AC (analyses canoniques) , les Classifications hiérarchiques. Le tableau 10 donne un typologie des méthodes multivariées couramment utilisées et les objectifs poursuivis dans l'application de chacune de ces méthodes multivariés ou des méthodes de régressions multiples. 

    Tableau 10: Typologie des méthodes d'analyse multivariées.

    Définition de la matrice de données

    Une matrice de données est un groupe de données rangées en ligne (horizontalement) et en colonnes (verticalement) et délimitée par des crochets. Les données sont les éléments de la matrice. Chaque donnée est définie par deux nombres en indice (exemple aij) où le 1er nombre en indice désigne la ligne tandis que le second est la colonne de la matrice. Une matrice est désignée par le nombre de lignes et le nombre de colonnes (exemple matrice de dimension r.c). Donnons un exemples de données matricielles : considérons le poids à la naissance de différentes lignées de lionceaux. Le poids des lignées sont décrites par les variables x1, x2, x3, x4 et N lions ont été étudiés. Les données peuvent être arrangées de la façon suivante :



    Un tel arrangement des données est connu sous les noms de matrice et vecteur et les principes de manipulation de ces nombres sont regroupés sous l'appellation algèbre des matrices. C'est cet algèbre des matrices qu'on appelle virtuellement analyses multivariées. Il va de soi que la complexité de cette algèbre des matrices nécessite l'utilisation de l'ordinateur pour effectuer les opérations prescrites dans les différentes méthodes d'analyses des données. Il existe plusieurs types de matrice comme le décrit le schéma ci-dessous 

    La méthode d'analyse en composantes principales (ACP) ∙

    L'ACP est un modèle linéaire qui explique la variation d'abondance des espèces étudiées en relation avec les valeurs des données sur les facteurs de l'environnement concernée.Le modèle transforme les variables observées en nouvelles variables non correlées appelées composantes principales. Chaque composante principale (yj) est la combinaison linéaire des variables observées (x1, …….xp) telle que yj= a1jx1+……….+ apjxp, avec apj les éléments du vecteur caratéristique de la matrice de covariance S de l'échantillon. La première composante principale des observations est une composante linéaire dont l'équation s'écrit y1= a11x1+………….ap1xp et l'équation matricielle est y1=a'1X. Cette matrice aura pour variance S2y1= a'1Sa1, S est la matrice de covariance. La matrice X est composées de données supposées suivre une distribution multivariée avec m le vecteur des moyennes.

                                           X11…………………x1p 

                             X=  

                                           XN1………………….xNp 

    Exercice : Exemple d'application dans SAS (statistical analysis system) de l'ACP Considérons une matrice de données avec les variables x1, x2, x3 et x4. Le programme suivant peut être utiliser dans SAS pour l'ACP. Voir SAS user's guide pour l'écriture complète d'un programme. NB: ce programme SAS est la version sur DOS. Une version sur Windows existe.

    data bubale;

    options pagesize=80 linesize=90;

    input species season length weight age sexe;

    cards;

    proc print;

    run;

    proc factor method=principal corr simple scree ev score nfactors=5;

    var season length weight age sexe;

    proc princomp out=prin;

    title'ACP1 de Bubale Nazinga';

    var season length weight age sexe;

    title'ACP2 de Bubale Nazinga';

    proc print data=prin;

    var prin1-prin5;

    run;

    proc plot;

    plot prin2*prin1=length/ vpos=19;

    plot prin3*prin1=length/ vpos=19;

    Title 'Distribution des points';

    run;

    plot prin2*prin1=season/ vpos=1ç;

    plot prin3*prin1=season/ vpos;

    Title'Distribution des points en fonction de la saison';

    run;


    La méthode d'analyse des correspondances ∙

    Cette méthode d'analyse des correspondances est très utilisée surtout en écologie pour organiser les données par catégories sur le plan euclidien. La matrice de données est composée de lignes qui sont les sites et de colonnes qui sont les espèces. Les données sont surtout des fréquences, des productions, des couvertures végétales, etc.

                                              Colonnes= espèces 

                                            1…………………..........p      

    Lignes=sites                      2 .................................

                                             ………………….............

                                              n..................................

    N.B : Ce sont en fait des tableaux de contingence auquel l'ACP ne s'adapte pas. Dans l'ACP on parle d'individus en lignes et de variables en colonnes or dans l'analyses des correspondances (AC) on parle de caractères en lignes et caractères en colonnes. Dans l'ACP lignes et colonnes jouent le même rôle. L'exercice suivant est la situation des inscriptions dans une université sur 11 années académiques (colonnes). Les étudiants sont répartis dans des différentes facultés (lignes). On demande de saisir les données et de procéder à leur analyses en AC dans SAS.

    Le programme suivant est proposé (voir manuel de statistiques pour écologues et aménagistes de la faune): 

    1. Data incription ;

    2. Input …………. ; 

    3. Run ;

    4. proc corresp all ;

    5.proc var x1 x2 …..xp ; 

    6. run ;

    La méthode d'analyse factorielle discriminante ∙

    Soit deux populations A et B présentant des différences nettes et des différences apparentes. L'analyse discriminante est appliquée quand il n'y a pas de différence nette. On définie une nouvelle variable z telle que z= L1x1+L2x2+………..Lpxp telle que A possède la plus grande valeur de z et B la plus petite. z est appelée fonction discriminante.

    <>Exercice d'application : Soit deux écosystèmes de productivité différentes E1 et E2. On peut faire une séparation (discrimination) des 2 populations en utilisant un programme pour l'analyse factorielle discriminante (conf. manuel de statistiques pour écologues et aménagistes de la faune). Le programme suivant est proposé : 

    1. Data hippotrague ; 

    2. Input……………. ; 

    3. run;

    4. Proc discrim data= hippotrague simple wcov pcov manova list out= sxcal; 

    5. run;

    Haut de page

    Note de pas de page / webmaster /2006 /