Aménagement des pêches artisanales
 
Chapitre 1. Démographie
Chapitre 2. Eléments de Statistiques Appliquées pour Ecologues et Aménagistes 
2.1 Sommaire 
  2.1.1 Eléments de statistiques appliquées pour écologues et aménagistes 
  2.1.2 Eléments caractéristiques d'une série statistique 
  2.1.3 Variance échantillonnale et Ecart-Type échantillonnale  
  2.1.4 Distributions de Probabilité 
  2.1.5 Echantillonnage ou Sampling 
  2.1.6 Hypothèses statistiques et Tests de signification (StatisticalHypotheses and Tests of Significance) 
  2.1.7 Méthodes d'analyses multivariées 
2.2 Objectif 
2.3 Pré-requis 
Chapitre 3. Méthodes d’estimation de la taille des populations.
Chapitre 4. Age, Croissance et Mortalité
Chapitre 5. Stock, Production, recrutement
Chapitre 6. SELECTIVITE DES FILETS
Chapitre 7. Transformation et conservation des produits de pêche
Chapitre 8. Exercices d’application
Chapitre 9. Ressources du cours
Page d'accueil Table des matières Niveau Supérieur Précédent Haut de la page Suivant Eléments de Statistiques Appliquées pour Ecologues et Aménagistes Résumé QCM Bibliographie Webographie Glossaire Aide
 

2.1.5. Echantillonnage ou Sampling

Les statistiques inférentielles, ou statistiques inductives, consistent à faire des généralisations sur des populations sur la base des échantillons, où une population des observations possibles contées ou mesurées concernant un certain phénomène. Un échantillon est une partie quelconque d'une population. Une caractéristique mesurable d'une population, tel l'écart type   est appelée paramètre de la population ou simplement un paramètre. Une quantité calculée à partir d'un échantillon, comme sa moyenne ou son écart-type est appélée statistique échantillonnale ou simplement une statistique. Une population est finie si elle consiste en un nombre fini d'éléments. Une population est infinie s’il n'y a pas de limite au nombre d'éléments qu'il contient. Par exemple, la population consistant de toutes les mains de poker possibles est finie et la population consistant de toutes les séquences finies possibles de pile ou face d'une pièce de monnaie est infinie.

Echantillon aléatoire et définition de l'échantillonnage

La raison principale de l'échantillonnage est de tirer une conclusion sur la population mère de l'échantillon. Un échantillon est dit aléatoire si chaque individu de la population a la même chance d'appartenir à l'échantillon. L'échantillon est dit biaisé si certains individus de la population ont plus de chance d'appartenir à l'échantillon. Le tirage de tout élément ou la valeur qui doit être inclue dans l'échantillon aléatoire d'une population infinie doit être contrôlé par la même probabilité tout comme le choix de tout autre élément et les tirages successifs doivent être indépendants. Une méthode d'échantillonnage est un plan d'obtention d'échantillons d'une population donnée définie; ce plan doit être spécifié avant la collection des données.

Distribution des moyennes d'échantillons

Il est généralement possible d'obtenir des informations adéquates pour la plus part des cas à partir d'échantillons relativement petits. Cette affirmation est précisée dans les deux théorèmes qui suivent.

Théorème 1 - Distribution d'échantillonnage des moyennes des échantillons.
Si des échantillons aléatoires de taille n sont tirés d'une population de distribution normale de moyenne et écart-type, la distribution théorique d'échantillonnage des moyennes d'échantillons m est aussi normale avec une moyenne et de standard déviation /√n. 
 

Théorème 2 - Limite centrale.

Le théorème est connu sous le nom de "théorème central limite" ou "loi des grands nombres".Il stipule que la probabilité que la moyenne d'un échantillon aléatoire s'écarte de la moyenne de la population mère d'une grandeur supérieure à une valeur donnée tend vers zéro lorsque la taille de l'échantillon tend vers l'infini. Grâce à ce phénomène l'expérience qui consiste à demander à une centaine de personnes d'estimer la longueur d'un grand immeuble pour ensuite prendre la moyenne de ces estimations peut donner un résultat d'une surprenante précision. Aussi si on dit que la moyenne d'une variable aléatoire X est une certaine valeur cela peut s'interpréter par la loi des grands nombres pour signifier que si l'expérience était répétée un grand nombre de fois alors la moyenne de ces valeurs sera très proche de la valeur réelle.
Exemple:soit X une variable aléatoire (normal ou pas, continue ou discrète) d'une population admettant une moyenne  et une variance. Soit X₁, X₂, …, X_{n} un échantillon de taille n de X et soit y égale à

   
Pour un nombre n très grand la distribution de Y est approximativement normale avec une moyenne n et une variance n² (ou un standard déviation √n). Plus spécifiquement, si n est suffisamment grand, alors pour tout réel y égale à

   est la fonction de distribution normale standard 
C'est difficile d'affirmer exactement la taille de n à partir de laquelle le théorème s'applique. Généralement, à moins que la distribution ait une forme très inhabituelle l'approximation sera bonne même si n est relativement petit disons, pas moins de 30. Si la distribution de la population peut être bien approximée par une courbe normale, le théorème peut s'appliquer même pour un nombre n inférieur à 30. 

Intervalles de Confiance 

Pour toute méthode d'estimation, la question de l'exactitude se pose: de combien la vraie valeur est proche de la valeur estimée? Un moyen d'indication de l'exactitude d'une valeur estimée est l'intervalle de confidence, un intervalle qui entoure la valeur estimée de telle sorte qu’avec une grande probabilité, la vraie valeur tombe dans l'intervalle donné. Soit x la valeur estimée de X. Une procédure pour calculer l'intervalle de confiance J(X) est la procédure de confidence 100% 

Pr[X∈J(X)]≥. 

Ainsi pour J(X)=[a_{X},b_{X}], une procédure de confiance à 95% satisfait Pr[a_{X}≤X≤b_{X}]≥.95. 
L’intervalle est appelé un intervalle de confiance à 95% . Il y'a des procédures de confiance pour estimer la moyenne de la population, les écart-types, les proportions, et autres paramètres d'une population

Standard Errors ou Erreurs Standards
Le standard error d'une statistique est l'écart type (standard déviation) de la distribution d'échantillonnage de cette statistique.
Pour un échantillon de taille n d'une population de standard déviation , ∙ 
L'erreur standard d'une moyenne est

                                                                 
L'erreur standard d'un écart-type, est 

                                                                  ∙ 
L'erreur standard d'une proportion, est 

                                                                   

 où x/n est la proportion échantillonnale et p est la vraie proportion. ∙ 
L'erreur standard de la différence entre les moyennes d'échantillons issus de deux populations indépendantes est      
Pour des petites populations, on multiplie l'expression pour le standard error par 

                                                             

 où N est la taille de la population et n est la taille de l'échantillon. 
La moyenne échantillonnale d'un échantillon aléatoire est un estimateur sans biais de la moyenne de la population (si la population admet une moyenne). 

Les grands échantillons ou Large Samples

Du théorème décrivant la distribution des moyennes échantillonnales si des échantillons aléatoires de taille n sont pris d'une population de moyenne et d'écart type la moyenne échantillonnale m est distribuée avec la moyenne  et d'écart type 

 Cette importante statistique, connue sous le nom d’erreur standard de la moyenne, mesure combien les moyennes des échantillons fluctuent ou varie selon le hasard. Il reflète l'exactitude avec laquelle les moyennes échantillonnales estiment la moyenne de la population. Si l'écart type de la population est connue;on peut utiliser la procédure décrite dans cette section pour toute taille échantillonnale. Si l'écart type de la population n'est pas connue et on a un échantillon de grande taille on peut supposer que l'écart type de la population est bien approximé par l'écart type de la population estimé par l'échantillon 

c'est-à-dire, ≈s. Il est de coutume, et généralement appropriée, de considérer un échantillon "grand" quand n est égale à 30 ou plus et "petit" quand n est moins de 30. Le calcule de l'intervalle de confiance de la distribution est fait habituellement en recherchant une valeur z standard ( standard z-score)

où les limites peuvent être trouvées dans la table de la distribution normale standard. 

Exemple
Pour un niveau de confiance à 95% (aussi appelé niveau alpha de 5%), on peut trouver z telle que Pr(-z≤Z≤z)=0.95. on trouve z=±1.96, donnant un intervalle 

ou

 

On peut revendiquer avec une probabilité de 0.95 (i.e., on est à 95% confiant), que la moyenne de la population  est contenue dans l'intervalle compris entre

signifiant que si un grand nombre d'expérience sont faites, la moyenne de la population  serait contenue dans un intervalle compris entre
pour approximativement 95% de ces outcomes.
    Cet intervalle calculé ci-dessus est connu sous le nom d'intervalle de confiance et les "95 pour cent" est appelé coefficient de confiance.

  ∙  Dans un problème donné la moyenne que l'on veut estimer peut se trouver ou pas dans l'intervalle de confiance.Cependant si on calcule l'intervalle de confiance pour un coefficient de 95% dans différents de problèmes, les intervalles vont contenir la moyenne environ 95% des cas.
  ∙  Quand on calcule l'intervalle de confiance pour un coefficient de confiance plus grands on obtient un intervalle plus grand  en d'autres termes on devient de plus en plus confiant pour une estimation de moins en moins précise.

Petits Echantillons ou Small Samples

    Pour des petits échantillons on considère la distribution de la statistique:

où m et s sont la moyenne et l'écart-type échantillonnale d'un échantillon aléatoire de taille n tiré d'une population de moyenne et écart-type, et qui obéit à une distribution de courbe normale. Cette distribution est connue sous le nom de Student's t distribution, ou plus simplement t-distribution; et la statistique t est appelés t-score.
    Pour un niveau alpha de 5%, on  rejette l'hypothèse nulle (moyenne de la population =) si t se trouve hors d'un certain intervalle. Le calcul de cet intervalle est fait de manière analogue que celle décrite dans la section antérieure, mais en utilisant le t-score au lieu du z-score, et en consultant la table de Student's t distribution au lieu de la table de la distribution normale (on trouve t telle que pour un échantillon de taille 5 et de coefficient de confiance 95%, ces limites sont

ou




-z<((√n((x/n)-p))/(√(p(1-p))))<(x/n)+z√(((p(1-p))/n)) Avec une méthode de calcul algébrique, on peut obtenir les bornes de cet intervalle pour des valeurs de x, n, et z en résolvant les deux équations (x/n)-z√(((p(1-p))/n))=p et p=(x/n)+z√(((p(1-p))/n)) pour p. Pour n≥100, On peut raisonnablement approximer le standard error d'une proportion √(((p(1-p))/n)) en substituant x/n par p, en donnant l'approximation suivante de l'intervalle de confidence pour p: (x/n)-z√((((x/n)(1-(x/n)))/n))

<(x/n)+z√((((x/n)(1-(x/n)))/n)) Pour un niveau de confiance de 95% (niveau alpha de 5%), on trouve z telle que Pr(-z≤Z≤z)=.95. Ces limites sont ±1.96, donnant l'intervalle -1.96<((x-np)/(√(np(1-p))))<1.96 et l’approximation (x/n)-1.96√((((x/n)(1-(x/n)))/n))

<(x/n)+1.96√((((x/n)(1-(x/n)))/n))Pour x=40 et n=100, on peut revendiquer avec une probabilité de 0.95 (i.e., on est 95% confiant), que la proportion p est contenue dans l'intervalle de ((40)/(100))-1.96√(((((40)/(100))(1-((40)/(100))))/(100)))=. 304 à ((40)/(100))+1.96√(((((40)/(100))(1-((40)/(100))))/(100)))=. 496. (En résolvant les deux équations on a. 309 ≤p≤ . 498. Si on regarde les limites de la confiance dans la table on trouve .303≤p≤503. Ces différences reflètent les approximations et indiquent que.3≤p≤.5 serait une estimation raisonnable.) Cet intervalle calculé ci-dessus est connu en tant que l’approximation d’intervalle de confidence et "95 pourcent" est appelé le coefficient de confiance.

Pour l'échantillonnage des petites populations, quand bien même un échantillon constitue une appréciable portion d'une population, cinq percent ou plus doit subir une modification dans la formule pour l'erreur standard de la statistique; on multiplie l’expression du standard error par √(((N-n)/(N-1))) avec N la taille de la population et n est la taille de l'échantillon. Mais, la formule pour le standard error of the mean (erreur standard de la moyenne) devient (()/(√n))√(((N-n)/(N-1))) ou (S/(√n))√(((N-n)/(N-1))) et la formule pour le standard error of a proportion devient √(((p(1-p))/n))√(((N-n)/(N-1))). Noter que quand n<0.05N et N≥500, le facteur d'adjustment est >0. 975, et quand n<0.01N et N≥10000, ce facteur d'adjustment est>0. 995, très proche 1.
Page d'accueil Table des matières Niveau Supérieur Précédent Haut de la page Suivant Eléments de Statistiques Appliquées pour Ecologues et Aménagistes Résumé QCM Bibliographie Webographie Glossaire Aide