Aménagement des pêches artisanales
 
Chapitre 1. Démographie
Chapitre 2. Eléments de Statistiques Appliquées pour Ecologues et Aménagistes 
2.1 Sommaire 
  2.1.1 Eléments de statistiques appliquées pour écologues et aménagistes 
  2.1.2 Eléments caractéristiques d'une série statistique 
  2.1.3 Variance échantillonnale et Ecart-Type échantillonnale  
  2.1.4 Distributions de Probabilité 
  2.1.5 Echantillonnage ou Sampling 
  2.1.6 Hypothèses statistiques et Tests de signification (StatisticalHypotheses and Tests of Significance) 
  2.1.7 Méthodes d'analyses multivariées 
2.2 Objectif 
2.3 Pré-requis 
Chapitre 3. Méthodes d’estimation de la taille des populations.
Chapitre 4. Age, Croissance et Mortalité
Chapitre 5. Stock, Production, recrutement
Chapitre 6. SELECTIVITE DES FILETS
Chapitre 7. Transformation et conservation des produits de pêche
Chapitre 8. Exercices d’application
Chapitre 9. Ressources du cours
Page d'accueil Table des matières Niveau Supérieur Précédent Haut de la page Suivant Eléments de Statistiques Appliquées pour Ecologues et Aménagistes Résumé QCM Bibliographie Webographie Glossaire Aide
 

2.1.6. Hypothèses statistiques et Tests de signification (StatisticalHypotheses and Tests of Significance)

Comme généralement ce n'est pas pratique voire impossible d'établir la véracité ou la fausseté   des hypothèses statistiques en examinant la population entière, les décisions sont prises sur la base des échantillons tirés de la population.
Le test d'hypothèse est une procédure objective pour prendre une décision sur la base des données. ∙
Une hypothèse statistique est une supposition( assumption) faite sur un certain paramètre, i.e., sur une mesure statistique d'une population. Avant de faire une expérience, un investigateur doit spécifier la décision sur le (des) paramètre(s) en deux classes. Une d'elles (par exemple, H0) est l'hypothèse statistique ou hypothèse nulle. L'autre catégorie (par exemple,H1 ≠H0) est l'hypothèse alternative. Une des deux classes peut-être plus compliquées que l'autre. D'habitude la classe la plus simple est prise comme hypothèse nulle, et la plus compliqué comme l'hypothèse alternative. ∙ 
Une procédure statistique ou règle de décision qui teste la véracité d'une hypothèse est appelée test statistique. 
L’hypothèse testée est appelée l'hypothèse nulle. L'alternative à l’hypothèse nulle est appelée l'hypothèse alternative 
La procédure d'extraire des informations d'un échantillon aléatoire pour rejeter ou accepter l'hypothèse nulle est appelée le test d'hypothèse. 
Rejet et Acception de l'hypothèse nulle
Si on obtient un résultat consistant avec l'hypothèse nulle on ne doit pas accepter l'hypothèse comme étant vraie (vérité absolue). Mais on peut faillir en rejetant l'hypothèse nulle. Ceci est subtil, mais constitue une très importante nuance: en principe, on ne doit jamais accepter l'hypothèse nulle comme étant vraie sur la base d'un test statistique; on peut seulement la rejeter comme étant intenable. 

Les Types d'Erreurs 

Le test d'hypothèses statistiques ne doit pas constituer une preuve mathématique de la véracité des hypothèses. Deux types de conclusions incorrectes possibles existent. ∙ 
Erreur deType 1 : s’il arrive que l'hypothèse qui a été testée est actuellement vraie, et si à partir de l'échantilon on rejette l'hypothèse, on a commet une erreur de type1 ∙ 
Erreur deType 2:Si il arrive que l'hypothèse qui a été testée est actuellement fausse, et si à partir de l'échantilon on accepte l'hypothèse, on a commis une erreur de type2 

Etapes pour la Construction des Tests de Signification 

<> 1.Formuler une hypothèse nulle H₀ de telle sorte que la probabilité de commettre une erreur de Type I puisse être calculée.
2.Formuler une hypothèse alternative de telle sorte que le rejet de l’hypothèse H₀ soit équivalent à l’acceptation de l'hypothèse alternative. 
3.Spécifier la probabilité de commettre l'erreur de Type I. (Cette probabilité, est appelée niveau de signification.)
4.Utiliser la théorie statistique pour construire le critère pour le test d'hypothèse formulée en (1) contre l'alternative formulée en (2) au niveau de signification spécifié en (3).
5.Spécifier si l'alternative de rejeter l'hypothèse formulée en (1) est pour la rejeter ou pour émettre un jugement. On prend souvent pour hypothèse nulle le contraire de ce que l'on veut prouver.Par exemple si on désire montrer que les femmes sont supérieures aux hommes dans un exercice particulier, on peut formuler l'hypothèse qu’il n'y a pas de différence dans l'exécution des deux groupes lors de cet exercice et utiliser la théorie statistique pour rejeter l'hypothèse (ou pour émettre le jugement. La formulation de l'hypothèse alternative divise l'étendue des valeurs possibles du test statistique en deux régions critiques: la région acceptation et la région de rejet. Quand la région d'acceptation est un intervalle, ses bouts sont référés comme étant des valeurs critiques. Quand la valeur calculée du test statistique tombe dans la région de rejet, on dit qu'elle est significative; tandis que si elle tombe dans la région d'acceptation le résultat de l'échantillonnage est dit non significatif, signifiant non significatif et suffisant pour rejeter l'hypothèse nulle. Pour cette raison, les procédures de test sont souvent appelées tests de signification. Bien que le choix d'un niveau de signification soit essentiellement arbitraire et peut changer suivant les conséquences de réalisation de l'erreur de type 1 il est conventionnellement accepté de considérer un résultat significatif si la probabilité calculée est moins de =0.05 (5%), et de le dire hautement significatif si la probabilité calculée est moins de =0.01 (1%).  

Exemple

On joue à pile ou face pour vérifier qu'une pièce de monnaie n'est pas équilibrée: on examine ce qui pourrait arriver si la pièce de monnaie était équilibrée. Supposons que le rejet 40 fois de la pièce de monnaie permet d'obtenir face 30 fois. On calcule la probabilité que la pièce tombe 30 fois face ou plus sous l'hypothèse H₀: la pièce est équilibrée (i.e. p=.50). Pour 40 essaies, Pr(X≥30)= 1. 1107×10⁻³, on a une très petite probabilité. A partir de ce résultat on peut tirer deux conclusions : a) l'hypothèse est correcte, mais un évènement rare s"est produit; b) l'hypothèse n'est pas correcte. En statistique, il est de coutume de choisir la seconde de ces deux alternatives quand la probabilité est petite: dans ce cas, Pr(X≥30)=0.0011<0.01. Donc l'évènement est hautement significatif ou encore l'hypothèse selon laquelle la pièce de monnaie est équilibrée doit être rejetée. 

Tests à une et deux queues One- and Two-Tailed Tests

Si le domaine est seulement une queue de la courbe et est utilisé pour le test d'hypothèse statistique, le test est appelé test à une queue ou one-tailed test; si le domaine utilisé est les deux queues, le test est appelé test à deux queux ou two-tailed. La décision de laquelle des deux (test à une queue ou deux queues) doit être utilisée dépend de l'hypothèse alternative c'est-à-dire pour  z<X ou pour z>X  pour un test une queue ou encore -Z<X<Z pour un test à deux queues.

2.6. Analyse multivariée.

Régression Linéaire

Une équation de la forme y=ax+b avec a et b constantes est appelé équation de droite ou linéaire (linear equation). Les équations linéaires doivent leur nom au fait que lorsque représentée graphiquement tous les couples de valeurs x et y qui satisfont cette équation appartiennent à une droite. 

L’importance des équations linéaire se trouve non seulement dans le fait que beaucoup de corrélations sont de cette forme mais aussi dans le fait que qu'elles peuvent fournir de bonnes approximations de corrélations compliquées qui serraient décrites difficilement en termes mathématiques. Un ensemble de couples de variables est appelé population bivariable (bivariate) ou population définie par deux variables. La méthode des moindres carrées et la régression linéaire s'appliquent aux populations bivariables. Les nuages de points (scatter plot) suivants décrivent les données dans la table: 0 1 2 3 4 5 6 7 8 9 10 1 2 4 4 3 6 8 10 9 7 12 avec une approximation linéaire des données :

Figure 16: Nuage de points.

Les valeurs sur la première rangée sont interprétées comme des variables indépendantes et rapportées sur l'axe des x . L'approximation linéaire donnant, dans un certain sens bien défini, une meilleure représentation des données fournit une information sur les données et récolte ainsi des pronostiques très utiles. La droite fournit un modèle mathématique pour des situations qui sont interprétées comme des variables dépendantes et rapportées sur l'axe des y. Ainsi la représentation décrit les points (0,1), (1,2), (2,4), (3,4), (4,3), (5,6), (6,8), (7,10), (8,9), (9,7), (10,12). 

La Méthode des moindres carrés 

La méthode standard utilisée pour représenter des données numériques sous forme de droite est connue en tant que méthode des moindres carrés ou method of least squares. ∙ La méthode des moindres carrés produit en une droite est telle que la somme des carrés de l'écart des déviations verticaux (distances) des points à la droite est aussi petite que possible. 


Figure 17: La droite des moindres carrés.

Cette distance verticale mesure la différence entre les données et les valeurs prédites, donc mesure l'erreur de prédiction (pronostique) faite par le modèle. Supposons que les couples de valeurs observés (X₁,Y₁), . (X₂,Y₂), (X₃,Y₃), … (X_{n},Y_{n}).sont décrites par la droite y=Ax+B, ainsi les couples de valeurs prédites sont (X₁,AX₁+B), . (X₂,AX₂+B), (X₃,AX₃+B), … (X_{n},AX_{n}+B) et l'expression qui doit être minimisée est ∑_{i=1}ⁿ(Y_{i}-(AX_{i}+B)). 

La solution est B = ((n(∑_{i=1}ⁿX_{i}Y_{i})-(∑_{i=1}ⁿX_{i})(∑_{i=1}ⁿY_{i}))/(n(∑_{i=1}ⁿX_{i}²)-(∑_{i=1}ⁿX_{i})² )) A = ((∑_{i=1}ⁿY_{i}-B∑_{i=1}ⁿX_{i})/n) 

Exemple  

Avec l'ensemble des données [ 0 1 2 3 4 5 6 7 8 9 10 1 2 4 4 3 6 8 10 9 7 12 ], ∙ ∑_{i=1}ⁿX_{i}Y_{i}=(0⋅1) +(1⋅2) +(2⋅4) +(3⋅4) +(4⋅3) +(5⋅6) +(6⋅8) +(7⋅10) +(8⋅9) +(9⋅7) +(10⋅12)= 437 ∙ ∑_{i=1}ⁿX_{i}=0+1+2+3+4+5+6+7+8+9+10= 55 ∙ ∑_{i=1}ⁿY_{i}=1+2+4+4+3+6+8+10+9+7+12= 66 ∙ ∑_{i=1}ⁿX_{i}²=0²+1²+2²+3²+4²+5²+6²+7²+8²+9²+10²= 385 ∙

A=((11( 437)-( 55)( 66))/(11(385)-(55)²))= ((107)/(110)) et B=(( 66-(((107)/(110)))(55))/(11))= ((25)/(22)) 

La droite des moindres carrées est y=((107)/(110))x+((25)/(22)). Noter qu’avec cette méthode;on peut calculer B avant A.Le calcul de A et de B peut-être simplifié en changeant l'échelle de x telle que ∑_{i=1}ⁿX_{i} est égale à zéro. On peut aussi calculer ces constantes en résolvant les deux équations simultanées suivantes appelées les équations normales:

∑_{i=1}ⁿY_{i} = A⋅n+B⋅∑_{i=1}ⁿX_{i} ∑_{i=1}ⁿX_{i}Y_{i} = A⋅∑_{i=1}ⁿX_{i}+B⋅∑_{i=1}ⁿX_{i}²

Cette courbe Y=Ax+B qui a représenté en un ensemble de n points (X,Y) par la méthode des moindres carrés est appelée la droite de régression de Y sur X ou la droite de prédiction pour Y. Un ensemble de données peut contenir beaucoup de couples avec la même variable indépendante (par exemple X peut représenter l'âge et Y la taille).La courbe qui est formée à l'aide des distributions pour des variables indépendantes fixées est appelée une Coubre de régression. Si cette courbe est une ligne droite, elle est appelée une régression linéaire. 

L'erreur standard de régression

L'erreur standard estimée ou standard error of estimate pour la représentation d'une régression linéaire d'un échantillon de n couples de valeurs X,Y est définie par s_{e}=√(((∑(Y-Y_{e})²)/n)) où Y est la valeur observée et Y_{e}=AX+B est la valeur prédite.

Correlation Coefficient

Le coefficient de corrélation pour un échantillon de taille n le couple de valeurs X,Y est défini par r=((∑xy)/(√((∑x²)(∑y²)))) Cela peut-être écrit sous une des formes (équivalentes) r = ((∑xy)/(n√(((∑x²)/n))√(((∑y²)/n))))=((∑xy)/(ns_{x}s_{y})) r = ((∑XY-((∑X∑Y)/n))/(√((∑X²-(((∑X)²)/n))(∑Y²-(((∑Y)²)/n))))) r = ((∑xy-nXY)/(√((∑X²-nX²)(∑Y²-nY²)))) Le coefficient de corrélation satisfait les propriétés suivantes:

1) Si les points du nuage sont sur la droite de régression alors r=± 1;

2) Si une relation non linéaire existe entre les X's et Y's, alors r=0. 3.Dans tous les cas, -1≤r≤1. Le carré du coefficient de corrélation est appelé coefficient de détermination.  Le coefficient de détermination est une proportion de la variation totale de Y exprimée par la relation linéaire entre X et Y. 

<>

Cas de la représentation des Courbes par des Polynômes

Un nuage de points peut montrer l'existence d'une relation polynomiale. Pour des polynômes de second et troisième degrés, cela signifie des équations de la forme y = A+Bx+Cx², ou y = A+Bx+Cx²+Dx³ . L'ensemble des données suivantes est clairement non linéaire. La méthode des moindres carrés peut-être utilisée pour trouver une meilleure représentation polynomiale. 


Figure 18:Approximation polynomiale des moindres carrés-nuage des points.

[(-3,7),(-2,4),(-1,2),(0,0),(1,1.5),(2,5),(3,10)] La représentation suivante montre une meilleure représentation des moindres carrés par une parabole (polynôme de degré 2, en vert) et polynôme de degré 3 (rouge courbe).


Figure 19:Approximation polynomiale des moindres carrés.

Pour le degré 2, on résout le système d'équations pour A,B,C.

An +B∑X+C∑X² = ∑Y 

A∑X+B∑X²+C∑X³ = ∑XY

A∑X²+B∑X³+C∑X⁴ = ∑X²Y 

Pour le degré 3, on résout le système d'équations pour A,B,C,D..

An +B∑X+C∑X²+D∑X³ = ∑Y 

A∑X+B∑X²+C∑X³+D∑X⁴ = ∑XY

A∑X²+B∑X³+C∑X⁴+D∑X⁵ = ∑X²Y 

A∑X³+B∑X⁴+C∑X⁵+D∑X⁶ = ∑X³Y 
Page d'accueil Table des matières Niveau Supérieur Précédent Haut de la page Suivant Eléments de Statistiques Appliquées pour Ecologues et Aménagistes Résumé QCM Bibliographie Webographie Glossaire Aide