ControverSciences.org

Titre de la méta-analyse

Solutions statistiques pour les erreurs et les biais au sein de jeux de données globaux issus de sciences citoyennes

Introduction à la méta-analyse

La majorité des projets de CS prennent en compte l'existence de biais et d'erreur au sein de leurs données en utilisant des approches de validation et de filtrage, l'entrainement des participants et la standardisation des données. Cependant, ces approches ne permettent pas d'éliminer l'erreur de mesure et le biais associé à la structuration spatiale des données. L'erreur aléatoire est définie comme la variation dans la réponse qui ne peut pas être décrite par les variables prédictives. Dans le contexte des projets de CS, on parle surtout d'erreur d'échantillonnage résultant des différences d'expérience ou d'intérêt entre participants. Le biais peut être subdivisé en biais systématique et en biais d'échantillonnage. Le biais systématique apparaît quand des mesures répétées d'un même processus conduisent à des sur-ou sous estimations. En revanche, le biais d'échantillonnage est le fait que certains événements sont plus probables d'être échantillonnés que d'autres.

Expériences de la méta-analyse

Les auteurs proposent d'étudier différentes approches de modélisation qui permettent de contrôler et de corriger pour ces sources de variabilité ou de structuration. Les modèles linéaires et leurs extensions sont une première approche, ils décrivent les changements de la variable réponse comme une fonction (linéaire ou autre) des variables prédictives (métadonnées). Les modèles à effet mixtes sont une extension au modèle linéaire, c'est-à-dire des modèles prenant en compte des effets fixes et des effets aléatoires. Étudier les effets aléatoires permet d'expliquer la variabilité liée aux variables prédictives (groupes). Comme ces approches ne permettent pas de contrôler le biais systématique, les auteurs proposent d'utiliser des modèles hiérarchisés ou du "Machine Learning" (ML). L'avantage de ces approches est qu'elles permettent non seulement de décrire les paramètres comme une fonction des variables prédictives, mais en plus, elles ne sont pas limitées par le nombre de paramètres.

Résultats de la méta-analyse

L'utilisation des modèles linéaires est illustrée par un premier jeu de données constitué de données de présence, de présence-absence et d'abondance d'oursins. Chaque type de donnée réponse est corrélé à la température de surface et les auteurs démontrent que le grain du résultat dépend des variables réponses utilisées. Le deuxième résultat, en utilisant des modèles à effets mixtes, essaie d'identifier comment le biais d'échantillonnage influence l'inférence de patrons biologiques. Ils illustrent qu'en contrôlant la nature structurée des données, ils améliorent le "fit" du modèle sans rejeter les hypothèses sous-jacentes. En revenant sur le jeu de données des oursins, mais en utilisant un modèle hiérarchisé, les auteurs démontrent à quel point ne pas prendre en compte la détection imparfaite cause des sous-estimations drastiques de l'occurrence des oursins. Enfin, le ML leur permet de contrôler la non-indépendance des données en agrégeant les observations à une échelle supérieure.

Rigueur de la méta-analyse

Il s'agit d'une méta-analyse très rigoureuse dans laquelle, les auteurs illustrent à partir de jeux de données comment différentes méthodes, de la régression linéaire simple au réseau de neurones artificiel, peuvent contrôler pour le biais et l'erreur statistique.

Ce que cette méta-analyse apporte au débat

Une collaboration incluant des statisticiens et bénévoles peut par tâtonnement permettre de construire une compréhension des contraintes associées à l'échantillonnage. Face à la grande diversité d'approches en modélisation, il s'avère essentiel de déterminer les problèmes associés aux jeux de données et surtout de comprendre comment le biais ou l'erreur peuvent influencer la problématique de recherche. Idéalement, le programme d'échantillonnage a été conçu d'avance et de façon à prendre en compte toute sorte de biais et d'erreur généré.
En outre, pour améliorer l'analyse des résultats, il s'avère important d'enregistrer des variables environnementales et des variables associées à l'exécution de l'échantillonnage (identité de l'observateur). De même, la prise de métadonnées permet de corriger pour la pseudo-réplication originaire de l'échantillonnage en grappes.

Figure

Légende :

Table 1: Exemples d'utilisation des différentes méthodes dans un contexte de science citoyenne et les soucis qu'elles permettent d'adresser.

Source