Chapitre 2: Eléments de Statistiques Appliquées pour Ecologues et Aménagistes
Chers visiteurs toute contribution au développement de ce cours sous forme de don de matériel TIC, de bourse de recherche ou de toute autre forme est souhaitée. Nous contacter à l'adresse suivante: ankab226@Yahoo.fr
Somaire
2.1. Eléments de statistiques appliquées pour
écologues et aménagistes
2.2. Eléments caractéristiques d'une série
statistique.
2.3. Variance échantillonnale et Ecart-Type
échantillonnale
2.4.Distributions de Probabilité
2.5.Echantillonnage ou Sampling
2.6.Hypothèses statistiques et Tests de signification
(StatisticalHypotheses and Tests of Significance)
2.7. Méthodes d'analyses multivariées
Ce chapitre est un condensé de statistiques
descriptives de techniques d'échantillonnages ; il se
termine les méthodes d'analyses multivariées (ou
analyses des données). Il permet à l'apprenant
d'une part d'avoir le pré requis nécessaire
à la compréhension des outils utilisés
dans le logiciel Distance sampling
Prérequis: connaissances avancées en statistiques descriptives,en techniques d'échantillonnage et en probabilités.
2.1. Eléments de statistiques appliquées pour écologues et aménagistes.
Le concept de base des statistiques
Préliminaire
L'aménagement de la faune comme celui de toute autre communauté naturelle nécessite des informations quantitatives sur la taille (nombre total d'individus), la densité (nombre d'individus par unité de surface), la structure (classe d'âge, sexe), la croissance (augmentation du nombre pendant un temps fini), etc. Une population est un ensemble d'éléments d'une aire ou d'une communauté définie.Si on s'intéresse à une population pour telle ou telle raison cet élément d'intérêt est appélé caractère en statistique.La statistique s'intéresse à des populations (les caimans sacrés de Sabou par ex) dans le but d'une étude numérique d'un caractère (le poids par ex) ou de plusieurs caractères (poids et taille par ex). Comme le statisticien s'intéresse qu'à des données (renseignements) numériques d'une population il va falloir qu'il les collecte d'une manière ou d'une autre. Cette démarche est appélée la collecte des statistiques(du latin collectus qui signifie recueillir et du grec statizein qui signifie constater).
Le statisticen doit donc
- Enquêter ( de quérir c-à-d interroger)
pour rassembler tous les renseignements nécessaires du
caractère étudié.
- Classer les renseignements obtenus et les présenter sous
forme de tableaux et de graphiques
- Calculer certaines valeurs caractéristiques
intéressantes : moyenne,
médiane,écart-type....
Ce travail est destiné à informer le lecteur
intéressé par l'enquête; c'est la partie
descriptive de la statistique.
Le statistiticien peut ensuite :
- Analyser les résultats obtenus
- Chercher la loi statistique à laquelle obeissent les
différents éléments de la
population.
- Porter un jugement sur la valeur des renseignements qui lui ont
été fournis,
- étendre les résultats obtenus à une
population plus importante présentant les mêmes
caractères.
Ce travail purement analytique est la partie analyse de la statistique
ou statistique inférentielle.
Les diverses méthodes d'observation des faits.
Pour obtenir une statistique on utilise
généralement deux méthodes: la
méthode directe et la méthode indirecte
La méthode
directe ou enquête durant laquelle les
individus sont vus et comptés.
Pour les populations des petites communautés un observateur
pourrait s'intéresser à tous les
éléments en mesurant les variables qui
caractérisent la population. On parle alors de recensement; c'est une étude
ou méthode exhaustive.
Exemple
l'étude de la taille des étudiants de la classe.
Parlant des communautés définies sur une grande
échelle ou aire (ville, régions,
forêts, lac de barrage, etc.) les choses se compliquent si on
veut s'intéresser à tous les
éléments en mesurant la ou les variables
données. En effet l'étude des grandes populations
est coûteuses et demande beaucoup d'investissement physique
tant en main d'œuvre qu'en matériel logistique. En
outre pour certaines populations telles que la faune il est
pratiquement impossible de voir et compter tous les individus
d'antilopes (Hippotragus equinus)
car ils ont trouvé refuge
dans la forêt. Dans une telle situation que faire ?
Pour obtenir des renseignements plus rapides et moins couteuses dans
ces conditons, les
enquêtes sont alors faites par
sondages: une partie de la population appélée
échantillon ((1/(10)),(1/(100)),(1/(1000))......)
est
étudiée.Les résultats sont ensuite
généralisés.
La méthode
indirecte ou enquête durant
laquelle
les individus sont identifiés pour leurs signes
(déjections, empruntes
digitales, cris, nid, etc) et comptés comme tel. Les
O.N.G., les organismes
internationaux , les collectivités de protection de la
nature....recueillent de nombreux renseignements
socio-écologiques se rapportant
à leurs activités.Ces renseignements permettent
d'établir de nombreuses statistiques.
Exemples:celles établies par :
- Green Peace
- Le ministère de l'eau,de l'agriculture et des
ressources
hallieutiques.
La détermination de l'individu ou unité statistique pour toute étude
Il convient de déterminer avec
précision les éléments
considérés comme unités statistiques ou
individus. Leurs caractères communs doivent permettre de
décider sans ambiguité si chaque
élément appartient ou non à la
population étudiée.Cette condition
nécessite une stricte limitation:
1.dans la définition des caractères
distinctifs
2.dans l'espace
3.dans le temps
Classification des caractères étudiés
sur une population
Le caractère étudié sur une population
peut-être qualitatif
ou quantitatif
Un caractère
est dit quantitatif s'il peut faire l'objet d'une mésure (ex
:la taille, le poids) et qualitatif dans le cas
contraire (ex:teint, race)
Caractère
qualitatif
Le caractère
étudié n'est pas mésurable, les
différentes options possibles sont
appélées modalités.
Les différentes modalités possibles peuvent
être classées dans un ordre quelconque, car il
n'existe pas de mesure permettant un classement logique. Exemple:
groupe
d'indivividus (adultes, adolescents, jeunes)
Caractère
quantitatif
Le caractère
étudié est mésurable, sa
mésure est appélé la variable.Cette
variable peut-être continue
ou discontinue.
a) Variable
discontinue: les différentes unités de la
population ne peuvent prendre que certaines valeurs bien
déterminées, et entre deux de ces valeurs il
n'existe aucune possibilité intermédiaire. Si les
valeurs ne peuvent être que des entiers, on peut préciser
en
disant que la variable est discrète. Exemple:animaux
classés en adultes adolescents et jeunes
b) Variable continue les différentes unités de la
population peuvent prendre une valeur quelconque de l'intervalle
possible de variation.
Exemple:la taille des caimans sacrés de Sabou.
Il est bien connu que l'échantillonnage apporte de
meilleures informations sur les caractéristiques des
populations à des coûts plus réduits
que ceux de l'étude exhaustive des grandes
communautés. Les calculs des paramètres en utilisant les
données mesurées des variables pour
décrire l'état de la population sont
appelés «statistiques
», d'un mot latin
qui signifie état ou recensement
ou collection de taxe.
Ces
calculs permettent d'estimer des paramètres tels que la
moyenne et la variance qui caractérisent les
populations.
On appelle paramètre d'une variable
aléatoire (V.A ) les valeurs caractéristiques non
aléatoires de cette V.A . Les principaux
paramètres d'une V.A sont la moyenne et la
variance.
2.2.Eléments caractéristiques d'une série statistique
Les tableaux et diagrammes donnent une description
détaillée d'une série statistique. On
peut souhaiter la caractériser plus rapidement.
Deux notions sont à envisager :
1°) L'Ordre de grandeur des
éléments
2°) Leur dispersion
Mode, médiane, moyennes sont dites
caractéristiques de valeur centrale.
Le Mode -- LA Médiane
Le Mode ou dominante
Variation discontinue : le mode est la valeur de la variable
correspondant au plus fort effectif (donc à la plus grande
fréquence)
Sur le graphique : bâton le plus haut
Variation continue : les effectifs étant d'abord repartis
par classes d'égale amplitude, la classe modale est celle
qui a le plus fort effectif ( donc la plus grande fréquence)
; sur l'histogramme elle est représentée par le
plus haut rectangle.
Remarque : S'il n'y a pas dans une série qu'une valeur dont
l'effectif soit maximum, la série est unimodale.
S'il y a plusieurs maximums, la série est bimodale ou multi
modale mais, dans ce cas, la détermination du mode ne
signifie rien:
exemple le mode de {2,3,4,4,5,6,6,6,8} est 6 et les modes de
{2,3,4,4,4,6,6,6,8} sont 4 et 6.
La Médiane
C'est en principe, la valeur de la variable qui partage l'effectif
d'une série classée de telle manière
que l'effectif total des observations de valeur inférieur
soit égal à l'effectif total des observations de
valeur supérieur.
La mediane peut être définie comme la valeur M
pour laquelle la somme des valeurs absolues des differences avec la
mediane

est aussi petit que possible.Pour un nombre paire d'observations les deux valeurs du milieu et tous les nombres à l'intérieur donne la plus petite valeur pour
comme indiqué sur le graphique en bàs à gauche pour les observations {6,8,9,12}.Pour un nombre impaire d'observations,le minimum est atteint au milieu des observations comme indiqué sur le graphique en bàs à droite pour les observations {6,7,8,9,12}.


Figure 16:Représentation de la médiane
Pour une distribution de probabilité continue la
médiane est tout nombre m satisfaisant
Pr(X≤m)=(1/2)
où Pr(X≤m) symbolise la probabilité que
X≤m.:
Les Moyennes
Généralités
Une moyenne est un nombre dont la détermination utilise les valeurs de toutes les unités d'une série; elle caractérise donc mieux l'ensemble de la série que la médiane. Il existe quatre principales moyennes : la moyenne arithmétique, la moyenne géométrique, la moyenne quadratique et la moyenne harmonique. Nous étudierons uniquement la moyenne arithmétique. La moyenne (moyenne arithmetique) d'un nombre fini d'observations est obtenue en additionnant les observations et en divisant le total par le nombre des observations. La moyenne des nombres
est

Noter que la moyenne arithmétique peut-être définie comme la valeur m pour laquelle la valeur absolue de la somme des differences de la moyenne
est est la plus petite possible (nomment zero). La moyenne des distributions continues avec la fonction de distribution f(x) est obtenue par l' intégral

Le poids moyen Si m₁,m₂,…,m_{k}
sont les moyennes correspondant
à des ensembles de données de taille
n₁,n₂,…,n_{k} alors la moyenne des données
combinées est le 'weighted mean'

Pour un ensemble x₁,x₂,…,x_{n} de nombres positifs la moyenne géométrique est la racine n-ième du produit
[n]√(x₁x₂⋯x_{n})
2) L'écart --type est la racine carré de la
variance. Il est donc la moyenne quadratique des déviations
des valeurs des observations à leur moyenne
arithmétique. Sa valeur est exprimée dans la
même unité que la variable. C'est une
notion très importante qui joue un grande rôle
théorique.
Expression de la variance: l'application de la définition
ci-dessus, nous conduit
à écrire que
la variance d'une population de taille n, est définie par




Les unités Standard ,
conus
aussi sous le nom de standard scores, ou z-scores, indique de combien
d'écart-type un individu est au-dessus ou en dessous de la
moyenne d'un ensemble de données auxquelles il appartient
Les unités standards sont
z=((x-m)/s)
pour un échantillon ou
z=((x-)/())
pour une population.




2.4. Distributions
de
Probabilité


Figure 17:Distribution de la loi binomiale

Pour la
distribution de Poisson avec moyenne et d'écart-type
>0, la probabilité est définie par la sommation


Figure 18:Distribution de la loi de Poisson.



Figure 19: Distribution de la normale.






Figure 20: Distribution de la loi de Student.




Figure 21: Distribution de la loi de chi-deux.




Figure 22: Distribution de la loi Fisher Snédécor.




Figure 23: Distribution de la loi Gamma.





Figure 24: Distibution de la loi uniforme.

2.5.
Echantillonnage ou Sampling
Si des échantillons
aléatoires de taille n sont tirés d'une population
de distribution normale de moyenne et écart-type, la
distribution théorique d'échantillonnage des
moyennes d'échantillons m est aussi normale avec une moyenne et
de standard deviation
/√n.
Théorème 2
Exemple:
Pour un nombre n très grand la
distribution de Y est approximativement normale avec une moyenne n et
une variance n² (ou un standard deviation √n). Plus
spécifiquement , si n est suffisament grand, alors pour tout
réelle y égale à

est la
fonction de distribution normale standard
C'est difficile d'affirmer exactement la taille de n à
partir delaquelle le théorème
s'applique.Généralement,à moins que la
distribution ait une forme très inhabituelle
l'approximation sera
bonne même si n est relativement petit disons, pas moins de 30.
Si la distribution de la population peut êtrebien
approximmée par une courbe normale, le théorème
peut
s'appliquer même pour un nombre n inférieur
à 30.
L' intervalle est appélé un intervalle de
confiance à 95%
. Il y'a des procédures de confiance pour estimer la moyenne de
la
population, les écart-types, les proportions, et autres
paramètres d'une population
Le standard error d'une statistique est l'écart-type (standard
deviation) de la distribution d'échantillonnage de cette
statistique.
Pour un échantillon de taille n d'une
population de standard deviation
,
∙
L'erreur standard d'une moyenne est

L'erreur standard d'un écart-type, est
∙
L'erreur standard d'une proportion, est

L'erreur standard de la différence entre les moyennes
d'échantillons issus de deux populations
indépendantes est

Pour des

La moyenne échantillonnale d'un échantillon
aléatoire est un estimateur sans biais de la moyenne de la
population (si la population admet une moyenne).
et
d'écart-type 




Pour un niveau de confiance à 95% (aussi
appélé niveau alpha de 5%), on peut trouver z
telle que Pr(-z≤Z≤z)=0.95. on trouve z=±1.96,
donnant un intervalle

ou

On peut revendiquer avec une probabilité de 0.95 (i.e., on est à 95% confiant), que la moyenne de la population est contenue dans l'interval compris entre

signifiant que si un grand nombre d'expérience sont faites , la moyenne de la population serait contenue dans un intervalle compris entre
pour approximativement 95% de ces outcomes.
Cet intervalle calculé ci-dessus est connu sous le nom d'intervalle de confiance et les "95 pour cent" est appélé coefficient de confiance.
∙ Dans un problème donné la moyenne que l'on veut estimer peut se trouver ou pas dans l'intervalle de confiance .Cependant si on calcule l'intervalle de confiance pour un coefficient de 95% dans différents de problèmes, les intervalles vont contenir la moyenne environ 95% des cas.
∙ Quand on calcule l'intervalle de confiance pour un coefficient de confiance plus grands on obtient un intervalle plus grand en d'autres termes on devient de plus en plus confiant pour une estimation de moins en moins précise.
Petits Echantillons ou Small Samples
Pour des petits échantillons on considère la distribution de la statistique:

où m et s sont la moyenne et l'écart-type échantillonnale d'un échantillon aléatoire de taille n tiré d'une population de moyenne et écart-type , et qui obéit à une distribution de courbe normale. Cette distribution est connue sous le nom de Student's t distribution, ou plus simplement t-distribution; et la statistique t est appelée t-score.
Pour un niveau alpha de 5%, on rejette l'hypothèse nulle (moyenne de la population =) si t se trouve hors d'un certain intervalle. Le calcul de cet intervalle est fait de manière analogue que celle décrite dans la section antérieure, mais en utilisant le t-score au lieu du z-score, et en consultant la table de Student's t distribution au lieu de la table de la distributon normale (on trouve t telle que
La distribution de Student dépend d'une quantité appélée le "nombre de degrés de liberté ." En référence aux pluseiurs applications, c'est la taille de l'échantillon moins un .

ou

L'inégalité
-z<((√n((x/n)-p))/(√(p(1-p))))
<(x/n)+z√((((x/n)(1-(x/n)))/n))
<(x/n)+1.96√((((x/n)(1-(x/n)))/n))Pour
x=40 et n=100, on peut revendiquer avec une probabilité de 0.95
(i.e.,
on est 95% confiant), que la proportion p est contenue dans l'interval
de
((40)/(100))-1.96√(((((40)/(100))(1-((40)/(100))))/(100)))=.
304 à
((40)/(100))+1.96√(((((40)/(100))(1-((40)/(100))))/(100)))=.
496. (En resolvant les deux equations on a . 309 ≤p≤ .
498 . Si on regarde les limites de la confiance dans la table on
trouve .303≤p≤503. Ces différences reflète
l'approximations et indique
que.3≤p≤.5 serait une estimation raisonnable.)
Cet intervalle calculé ci-dessus est connu en tant que l'
approximation de intervalle de confidence et "95 pourcent" est
appelé le coefficient de confiance.
Pour l'échantillonnage des petites populations, quand bien même un échantillon constitue une appreciable portion d'une population, cinq percent ou plus doit subir une modification dans la formule pour l'erreur standard de la statistique; on multiplie l' expression du standard error par √(((N-n)/(N-1))) avec N la taille de la population et n est la taille de l'échantillon. Mais, la formule pour le standard error of the mean (erreur standard de la moyenne) devient (()/(√n))√(((N-n)/(N-1))) ou (S/(√n))√(((N-n)/(N-1))) et la formule pour le standard error of a proportion devient √(((p(1-p))/n))√(((N-n)/(N-1))) . Noter que quand n<0.05N et N≥500, le facteur d'adjustment est >0. 975, et quand n<0.01N et N≥10000, ce facteur d'adjustment est>0 . 995, très proche 1.
2.6. Hypothèses Statistiques et Tests de Signification (Statistical Hypotheses and Tests of Significance)
Comme généralement ce n'est
pas pratique voire
impossible d'établir la véracité ou la
fausseté des hypothèses statistiques en examinant
la
population entière, les décisions sont prises sur
la base des échantillons tirés de la
population.
Le test
d'hypothèse est une procédure objective
pour prendre une décision sur la base des
données.
∙
Une hypothèse statistique est une supposition( assumption) faite
sur
un certain paramètre, i.e., sur une mesure statistique d'une
population.
Avant de faire une expérience, un investigateur doit
spécifier
la décision sur le (des) paramètre(s) en deux classes.
Une d'elles (par
exemple, H0) est l'hypothèse statistique ou hypothèse
nulle. L'autre
catégorie (par exemple,H1 ≠H0) est l'hypothèse
alternative .
Une
des deux classes peut-être plus compliquée que
l'autre. D'habitude la classe la plus simple est prise comme
hypothèse
nulle , et la plus compliqué comme l'hypothèse
alternative.
∙
Une procédure
statistique ou règle de décision qui teste
la véracité d'une hypothèse est appelée
test
statistique .
L' hypothèse testé est appelé
l'hypothèse nulle . L'alternative à l' hypothèse
nulle est
appelée l'hypothèse alternative
La procédure d'extraire des informations d'un échantillon
aléatoire pour rejetter ou accepter hypothesis nulle est
appelé le test d'hypothèse.
Rejet et Acception de
l'hypothèse nulle
Si on obtient un resultat consistant avec l'hypothèse nulle on
ne doit pas accepter l'hypothèse comme étant
vraie (vérité absolue). Mais,on peut faillir en
rejettant l'hypothèse nulle. Ceci est subtile, mais constitue
une
très importante nuance: en principe, on ne doit jamais
accepter l'hypothèse nulle comme étant vraie sur
la base d'un test statistique; on peut seulement la rejetter comme
étant intenable.
Les Types d'Erreurs
Le test d'hypothèses statistiques ne doit pas
constituter une preuve
mathématique de la véracité des
hypotheses. Deux types de conclusions incorrectes possibles existent.
∙
Erreur deType 1 : Si il arrive que l'hypothèse qui a
été testée est actuellement vraie,et
si à partir de l'échantilon on rejette
l'hypothèse,on a commet une erreur de type1 ∙
Erreur deType 2:Si il
arrive que l'hypothèse qui a été
testée est actuellement fausse, et si à partir de
l'échantilon on accepte l'hypothèse, on a commis une
erreur
de type2
Etapes pour la Construction des Tests de Signification
<>1.Formuler une hypothèse nulle H₀ de telle sorte que la probabilité de commettre une erreur de Type I puisse être calculée.2.Formuler une hypothèse alternative de telle sorte que le rejet de l' hypothèse H₀ soit équivalent à l' acceptation de l'hypothèse alternative.
3.Spécifier la probabilité de commettre l'erreur de Type I . (Cette probabilité, est appelée niveau de signification.)
4.Utiliser la théorie statistique pour construire le critère pour le test d'hypothèse formulée en (1) contre l'alternative formulée en (2) au niveau de signification spécifié en (3).
5.Spécifier si l'alternative de rejeter l'hypothèse formulée en (1) est pour la rejeter ou pour émettre un jugement. On prend souvent pour hypothèse nulle le contraire de ce que l'on veut prouver .Par exemple si on désire montrer que les femmes sont supérieures aux hommes dans un exercice particulier , on peut formuler l'hypothèse que il n'y a pas de différence dans l'exécution des deux groupes lors de cet exercice et utiliser la théorie statistique pour rejeter l'hypothèse (ou pour émettre le jugement). La formulation de l'hypothèse alternative divise l'étendue des valeurs possibles du test statistique en deux régions critiques: la région acceptation et la région de rejet. Quand la région d'acceptation est un intervalle, ses bouts sont référés comme étant des valeurs critiques. Quand la valeur calculée du test statistique tombe dans la région de rejet , on dit qu'elle est significative; tandis que si elle tombe dans la région d'acceptation le résultat de l'échantillonnage est dit non significatif, signifiant non significatif et suffisant pour rejeter l'hypothèse nulle.Pour cette raison, les procédures de test sont souvent appelées tests de signification. Bien que le choix d'un niveau de signification soit essentiellement arbitraire et peut changer suivant les conséquences de réalisation de l'erreur de type 1 il est conventionnellement accepté de considérer un résultat significatif si la probabilité calculée est moins de =0.05 (5%), et de le dire hautement significatif si la probabilité calculée est moins de =0.01 (1%).
2.6. Analyse multivariée.


1) Si les points du nuage sont sur la droite de
régression alors r=±
1;
2) Si une relation non linéaire existe entre les X's et
Y's, alors r=0.
3.Dans tous les cas, -1≤r≤1.
Le carré du coefficient de correlation est appelé
coefficient de détermination. Le coefficient de
détermination est une proportion de la variation totale de Y
exprimée par la relation linéaire entre X et Y.