ControverSciences est archivé. Il reste consultable mais il n'est plus possible de contribuer.
Le code source pour faire tourner le serveur reste disponible sur GitHub.
Titre de la méta-analyse

Solutions statistiques pour les erreurs et les biais au sein de jeux de données globaux issus de sciences citoyennes

Introduction à la méta-analyse

La majorité des projets de CS prennent en compte l'existence de biais et d'erreur au sein de leurs données en utilisant des approches de validation et de filtrage, l'entrainement des participants et la standardisation des données. Cependant, ces approches ne permettent pas d'éliminer l'erreur de mesure et le biais associé à la structuration spatiale des données. L'erreur aléatoire est définie comme la variation dans la réponse qui ne peut pas être décrite par les variables prédictives. Dans le contexte des projets de CS, on parle surtout d'erreur d'échantillonnage résultant des différences d'expérience ou d'intérêt entre participants. Le biais peut être subdivisé en biais systématique et en biais d'échantillonnage. Le biais systématique apparaît quand des mesures répétées d'un même processus conduisent à des sur-ou sous estimations. En revanche, le biais d'échantillonnage est le fait que certains événements sont plus probables d'être échantillonnés que d'autres.

Expériences de la méta-analyse

Les auteurs proposent d'étudier différentes approches de modélisation qui permettent de contrôler et de corriger pour ces sources de variabilité ou de structuration. Les modèles linéaires et leurs extensions sont une première approche, ils décrivent les changements de la variable réponse comme une fonction (linéaire ou autre) des variables prédictives (métadonnées). Les modèles à effet mixtes sont une extension au modèle linéaire, c'est-à-dire des modèles prenant en compte des effets fixes et des effets aléatoires. Étudier les effets aléatoires permet d'expliquer la variabilité liée aux variables prédictives (groupes). Comme ces approches ne permettent pas de contrôler le biais systématique, les auteurs proposent d'utiliser des modèles hiérarchisés ou du "Machine Learning" (ML). L'avantage de ces approches est qu'elles permettent non seulement de décrire les paramètres comme une fonction des variables prédictives, mais en plus, elles ne sont pas limitées par le nombre de paramètres.

Résultats de la méta-analyse

L'utilisation des modèles linéaires est illustrée par un premier jeu de données constitué de données de présence, de présence-absence et d'abondance d'oursins. Chaque type de donnée réponse est corrélé à la température de surface et les auteurs démontrent que le grain du résultat dépend des variables réponses utilisées. Le deuxième résultat, en utilisant des modèles à effets mixtes, essaie d'identifier comment le biais d'échantillonnage influence l'inférence de patrons biologiques. Ils illustrent qu'en contrôlant la nature structurée des données, ils améliorent le "fit" du modèle sans rejeter les hypothèses sous-jacentes. En revenant sur le jeu de données des oursins, mais en utilisant un modèle hiérarchisé, les auteurs démontrent à quel point ne pas prendre en compte la détection imparfaite cause des sous-estimations drastiques de l'occurrence des oursins. Enfin, le ML leur permet de contrôler la non-indépendance des données en agrégeant les observations à une échelle supérieure.

Rigueur de la méta-analyse

Il s'agit d'une méta-analyse très rigoureuse dans laquelle, les auteurs illustrent à partir de jeux de données comment différentes méthodes, de la régression linéaire simple au réseau de neurones artificiel, peuvent contrôler pour le biais et l'erreur statistique.

Ce que cette méta-analyse apporte au débat

Une collaboration incluant des statisticiens et bénévoles peut par tâtonnement permettre de construire une compréhension des contraintes associées à l'échantillonnage. Face à la grande diversité d'approches en modélisation, il s'avère essentiel de déterminer les problèmes associés aux jeux de données et surtout de comprendre comment le biais ou l'erreur peuvent influencer la problématique de recherche. Idéalement, le programme d'échantillonnage a été conçu d'avance et de façon à prendre en compte toute sorte de biais et d'erreur généré.
En outre, pour améliorer l'analyse des résultats, il s'avère important d'enregistrer des variables environnementales et des variables associées à l'exécution de l'échantillonnage (identité de l'observateur). De même, la prise de métadonnées permet de corriger pour la pseudo-réplication originaire de l'échantillonnage en grappes.

Figure
Légende :

Table 1: Exemples d'utilisation des différentes méthodes dans un contexte de science citoyenne et les soucis qu'elles permettent d'adresser.

Source

Publiée il y a plus de 7 ans par D. Lutgen et C. Mayeux.
Dernière modification il y a plus de 7 ans.
Méta-analyse : Statistical solutions for error and bias in global citizen science datasets
  • 1
  • Auteurs
    Tomas J. Bird, Amanda E. Bates, Jonathan S. Lefcheck, Nicole A. Hill, Russell J. Thomson, Graham J. Edgar, Rick D. Stuart-Smith, Simon Wotherspoon, Martin Krkosek, Jemina F. Stuart-Smith, Gretta T. Pecl, Neville Barrett, Stewart Frusher
  • Année de publication
    2014
  • Journal
    Biological Conservation
  • Abstract (dans sa langue originale)

    Networks of citizen scientists (CS) have the potential to observe biodiversity and species distributions at global scales. Yet the adoption of such datasets in conservation science may be hindered by a perception that the data are of low quality. This perception likely stems from the propensity of data generated by CS to contain greater levels of variability (e.g., measurement error) or bias (e.g., spatio-temporal clustering) in comparison to data collected by scientists or instruments. Modern analytical approaches can account for many types of error and bias typical of CS datasets. It is possible to (1) describe how pseudo-replication in sampling influences the overall variability in response data using mixed-effects modeling, (2) integrate data to explicitly model the sampling process and account for bias using a hierarchical modeling framework, and (3) examine the relative influence of many different or related explanatory factors using machine learning tools. Information from these modeling approaches can be used to predict species distributions and to estimate biodiversity. Even so, achieving the full potential from CS projects requires meta-data describing the sampling process, reference data to allow for standardization, and insightful modeling suitable to the question of interest.

  • Identifiant unique
    10.1016/j.biocon.2013.07.037
  • Accès libre
    Accéder à la référence
  • Apparait dans la controverse
    Les sciences citoyennes : un atout pour la recherche ?
  • Comment les contributeurs jugent la qualité scientifique de cette référence :

    0
    0
    0
    0
    1