Phylogenomic studies can settle long-standing debates but should be scrutinized when well-established clades are contradicted and divergence dates are highly incompatible with the fossil record. Liu et al. (1) construct a species tree for Mammalia based on 4,388 protein-coding genes from 90 taxa to derive a novel model for the placental radiation, but their coalescence time tree shows multiple “red flags” that suggest underlying problems. Three well-validated clades (2–5), Odontoceti (toothed whales), Lemuriformes (lemurs, aye-aye), and Afrosoricida (tenrecs, golden moles) are robustly contradicted (100% bootstrap) in their preferred STAR species tree (1). Odontoceti has been corroborated repeatedly over the past 20 y (2–4), and 12 homoplasy-free transposons diagnose the clade (5), so it is remarkable that analysis of >4,000 loci is discordant. Phylogenomic results for an alternative coalescence method (6) correct Liu et al.'s preferred tree by recovering Odontoceti, Lemuriformes, and Afrosoricida with maximum support (1.0 posterior probability).
Given these red flags, we examined alignments and gene trees for a subsample of the 400 genes that Liu et al. spot-checked and determined were “clean and devoid of the salient irregularities that characterize rogue loci” (1). Detailed visual inspection of the first 50 genes in this “clean” set shows clear-cut homology errors (paralogy, exons aligned to introns, different exons aligned to each other, editing mistakes) in 50 of 50 alignments (100%). Misalignments of nonorthologous segments result in artificially long branches, artifactual clades, or both in the inferred gene trees (7). For example, the gene tree for CFLAR shows an aberrant clade (sperm whale + river dolphin + minke whale) that results from aligning intron 6 in these taxa with exons 5 + 6 in other taxa. Liu et al. applied an approach for partitioning genes into quintiles based on deviation from a molecular clock to derive better estimates of divergence times and diversification patterns, but genuine clock violations in gene trees are intermingled with extremely long branches associated with homology errors. For example, the gorilla branch for the ETV1 gene is ∼149 times longer than the human branch, owing to misalignment of noncoding sequence to protein-coding sequence.
Liu et al.’s preferred time tree includes 12 nodes (e.g., Paenungulata, Anthropoidea, Caniformia) where molecular divergence dates are more recent than ages implied by fossils (4, 8, 9), so-called “zombie lineages” (9). The most striking example is for sperm whale versus minke whale (∼2.9 Ma). This age is an order of magnitude younger than the ∼36.4-Ma divergence based on the oldest mysticete, Mystacodon (8). Indeed, 122 extinct baleen whale species are described from strata older than 2.9 Ma, and 30 taxa are >23 Ma (The Paleobiology Database; paleodb.org). “Unreliability surrounding the fossil record” (1) is, therefore, an unreasonable explanation for this shallow split or for the extremely recent basal divergence in Cetacea (∼11.4 Ma). Widespread zombie lineages in a time tree pull remaining divergence dates toward the present (9). Denser sampling of fossil calibrations and imposition of hard-bounded minima can offset such distortions (2), but these tactics were not utilized. Rather than generating “a hypothesis of mammalian divergence timing that is more consistent with the fossil record” (1), widespread homology errors and methodological glitches generated a pattern of diversification that strictly counters extensive systematic work on Mammalia (2–5) and robust paleontological patterns (4, 8, 9) (The Paleobiology Database; paleodb.org).
Titre de la review
Drapeaux rouges phylogénomiques: erreurs d'homologie et lignées de zombies dans la diversification évolutive des mammifères placentaires
Drapeaux rouges phylogénomiques: erreurs d'homologie et lignées de zombies dans la diversification évolutive des mammifères placentaires
Résumé de la review
L'arbre de coalescence proposé par l'étude de Liu et al. (2017) présente un certain nombre de drapeaux rouges qui suggèrent des problèmes cachés.
Trois des taxons généralement validés (Odontoceti, Lemuriformes et Afrosoricada) utilisés pour l'arbre basé sur la méthode STAR sont contredit dans cet article. Pour le taxon Odontoceti, une discordance sur plus de 4 000 loci a été trouvé alors que d'autres études ont trouvé 12 transposons sans homoplasie permettant de confirmer l'existence de ce taxon.
De plus, la datation de 12 nodes (Paenungulata, Anthropoidea, Caniformia) de l'arbre préféré par l'étude présente une divergence moléculaire postérieure à l'âge des fossiles. Par exemple, l'étude propose une diversification des baleines de Minke et des cachalots datant de 2.9 Ma, ce qui est d'un ordre de grandeur inférieur à la divergence datant de 36.4 Ma basé sur le plus ancien mysticète Mystacodon. En effet, 122 espèces éteintes de baleines sont décrites comme appartenant à des strates plus anciennes que 2.9 Ma et 30 taxons ont un âge supérieur à 23 Ma. L'explication d'un "manque de fiabilité des enregistrements fossiles" est donc déraisonnable pour cette divergence récente. De nombreuses lignés zombies tirent les dates de divergence vers le présent tandis que l'utilisation d'un échantillonnage plus approfondi des calibrages de fossiles et l'imposition d'une limite rigide peut compenser ces distorsions. Cependant, ces tactiques n'ont pas été utilisées.
Enfin, il semblerait que l'alignement des gènes présente des erreurs d'homologies (paralogie, alignement d'exons avec des introns, différents exons alignés ensembles) dans chacun des 50 premières séquences vérifiées dans cette étude. Cela résulte en des branches artificiellement longues, des clades artificiels ou les deux. Ainsi, l'arbre proposé montre un clade aberrant composé du cachalot, du dauphin de rivière et de la baleine de Minke qui résulte de l'alignement entre l'intron 6 d'un taxon avec les exons 5 et 6 des autres taxons. Liu et al. a utilisé une approche de partitionnement des gènes en quintiles afin d'obtenir de meilleurs estimations de la date de divergence et des schémas de diversification mais des violations de l'horloge génétique sont mélangés avec de longues branches et des erreurs d'homologies. Par exemple, la branche du gorille pour le gène ETV1 est 149 fois plus longue que la branche humaine, ce qui est du à un alignement entre séquence non codante et séquence codante pour une protéine.
L'arbre de coalescence proposé par l'étude de Liu et al. (2017) présente un certain nombre de drapeaux rouges qui suggèrent des problèmes cachés.
Trois des taxons généralement validés (Odontoceti, Lemuriformes et Afrosoricada) utilisés pour l'arbre basé sur la méthode STAR sont contredit dans cet article. Pour le taxon Odontoceti, une discordance sur plus de 4 000 loci a été trouvé alors que d'autres études ont trouvé 12 transposons sans homoplasie permettant de confirmer l'existence de ce taxon.
De plus, la datation de 12 nodes (Paenungulata, Anthropoidea, Caniformia) de l'arbre préféré par l'étude présente une divergence moléculaire postérieure à l'âge des fossiles. Par exemple, l'étude propose une diversification des baleines de Minke et des cachalots datant de 2.9 Ma, ce qui est d'un ordre de grandeur inférieur à la divergence datant de 36.4 Ma basé sur le plus ancien mysticète Mystacodon. En effet, 122 espèces éteintes de baleines sont décrites comme appartenant à des strates plus anciennes que 2.9 Ma et 30 taxons ont un âge supérieur à 23 Ma. L'explication d'un "manque de fiabilité des enregistrements fossiles" est donc déraisonnable pour cette divergence récente. De nombreuses lignés zombies tirent les dates de divergence vers le présent tandis que l'utilisation d'un échantillonnage plus approfondi des calibrages de fossiles et l'imposition d'une limite rigide peut compenser ces distorsions. Cependant, ces tactiques n'ont pas été utilisées.
Enfin, il semblerait que l'alignement des gènes présente des erreurs d'homologies (paralogie, alignement d'exons avec des introns, différents exons alignés ensembles) dans chacun des 50 premières séquences vérifiées dans cette étude. Cela résulte en des branches artificiellement longues, des clades artificiels ou les deux. Ainsi, l'arbre proposé montre un clade aberrant composé du cachalot, du dauphin de rivière et de la baleine de Minke qui résulte de l'alignement entre l'intron 6 d'un taxon avec les exons 5 et 6 des autres taxons. Liu et al. a utilisé une approche de partitionnement des gènes en quintiles afin d'obtenir de meilleurs estimations de la date de divergence et des schémas de diversification mais des violations de l'horloge génétique sont mélangés avec de longues branches et des erreurs d'homologies. Par exemple, la branche du gorille pour le gène ETV1 est 149 fois plus longue que la branche humaine, ce qui est du à un alignement entre séquence non codante et séquence codante pour une protéine.
Ce que cette review apporte au débat
Cette review ne remet pas en cause la théorie soutenue par l'étude de Liu et al. (2017) mais souligne des problèmes de méthode.
Cette review ne remet pas en cause la théorie soutenue par l'étude de Liu et al. (2017) mais souligne des problèmes de méthode.
Dernière modification il y a plus de 7 ans.