Bonjour tout le monde!
Un grand bravo à ceux qui sont restés!
Pour les autres, qu'ils se rassurent, on commence à voir pointer l'extrémité du bout du tunnel!
Résumé: le cladogramme est établi sur la base de caractères partagés (synapomorphies) par les unités taxinomiques, formant des groupes monophylétiques (clades).
On va poursuivre en effectuant un petit retour sur quelques notions précédemment évoquées.
Cladistique 3
1- les caractères, leur codage
On a dit plus haut qu'il s'agit de "descripteurs" portant des "états", deux généralement (oui/non; présence/absence par exemple), mais il n'est pas interdit d'utiliser des états multiples.
Il faut ici survoler quelques questions induites:
- les caractères non-informatifs. Il s'agit de caractères partagés par l'ensemble des objets étudiés. Exemple, si on s'intéresse aux papillons par exemple, il est inutile de retenir des caractères tels que "existe sur la planète Terre", "porte des écailles sur les ailes", "meurt un jour", etc.
Non seulement ils ne sont d'aucun intérêt, mais de plus perturbent les mesures de solidité des arbres obtenus.
Si l'on reprend l'exemple de l'arbre figuré plus haut (clado2) et que l'on adjoint 10 nouveaux caractères, tous partagés de la même manière par les taxons étudiés, la topologie de l'arbre ne sera pas modifiée, mais en revanche sa longueur passera de 6 à 16 pas, et l'indice de cohérence (voir plus bas) passera de 0.82 à 0.93, donnant le sentiment d'une "meilleure" cohérence du cladogramme.
Celle-ci est pourtant artificielle.
On en trouvait un très bel exemple dans la matrice proposée par le site de l'INRP, mais, bizarre, depuis que j'ai cité une page de ce site, elle a disparu... Quelle étrangissime coïncidence!...
Sur le fond, c'est effectivement préférable, mais sur la forme, c'est pour le moins cavalier... Z'avaient un peu honte, sans doute....
M'enfin... continuons!
- la "total evidence". L'idée est de retenir tous les caractères informatifs pour l'analyse. Pour compléter, on lira avec profit Lecointre & Deleporte (2005)* et Farias et al. (2000)** où on trouvera (fig. 5) un cladogramme reposant sur 1400 caractères.
Il se pose une question cependant (parmi d'autres!), relative au codage par exemple de fossiles dont on ne possède que des éléments parcellaires. Dans ce cas, il est possible de faire mention d'un caractère à l'état inconnu ("?") dans la matrice, qui est alors traité par les logiciels d'analyse phylogénétique (on y reviendra) et permet, dans le cas présent, d'intégrer le fossile.
Je propose un exemple ci-dessous.
Nota: le taxon fossile est surligné en rose
Il s'agit de l'étude d'une larve d'Ephemeroptera fossile, du Miocène, nouveau genre (Pseudokageronia).
Figurent ici le cladogramme, la liste des caractères affectés du "?" chez le fossile, et la matrice.
Dès l'abord, il faut remarquer qu'il y a 16 caractères pour 7 taxons étudiés (hors groupe externe) soit effectivement dans la "règle" du 2x +1 caractères (n = nb de taxons).
Les états de caractères manquants chez le fossile sont ceux des pièces buccales, des épines sur les griffes, et de la 7ème branchie, invisibles sur l'empreinte dans la diatomite.
Malgré ces caractères manquants, un cladogramme a pu être construit, ce qui a permis de proposer l'érection d'un nouveau genre, et de lui assigner une position basale.
On notera au passage (explications plus loin) que l'indice de cohérence (IC) est de 0.60.
Si besoin, l'article originel est téléchargeable là:
http://www.famu.org/mayfly/pubs/pub_m/pubmasselotg1999p61.pdf
*LECOINTRE G. & DELEPORTE P. 2005. Total evidence requires exclusion of phylogenetically misleading data. Zoologica Scripta, 34(1): 101–117 (téléchargeable ici: http://www.mnhn.fr/glecointre/docs/061_Lecointre-Deleporte.pdf )
**FARIAS I.P., ORTÍ G. & MEYER A. 2000. Total Evidence: Molecules, Morphology, and the Phylogenetics of Cichlid Fishes. Journal of Experimental Zoology (MOL DEV EVOL) 288:76–92 (téléchargeable ici
golab.unl.edu/publications/Farias%202000.pdf
[NOTA: le lien fonctionne, mais impossible de l'encadrer par les balises html ad hoc... Moi, pas comprendre, faire donc un copier/coller dans votre navigateur)
2- la polarisation des caractères, la notion de groupe externe (outgroup)
L'état d'un caractère est dit "dérivé", ou apomorphe, par confrontation avec un (des) groupe (s) externe (s), considéré(s) alors comme "ancestral" ou plésiomorphe. Dans l'exemple ci-dessus, on a choisi le genre Oligoneuriella comme groupe externe sur la base d'un travail précédent (McCafferty WP. 1991. Toward a phylogenetic classification of the Ephemeroptera (Insecta): A commentary on systematics. Annals of the Entomological Society of America 84(4):343-360, téléchargeable là: http://www.famu.org/mayfly/pubs/pub_m/pubmccaffertyw1991p343.pdf)
En toute logique, il eût été également possible de choisir le groupe-frère du clade [Heptageniidae+Oligoneuridae], soit les Isonychiidae (Isonychia ignota étant le représentant -rare- de cette famille pour la France).
Ainsi, le choix du groupe externe, lors d'une analyse cladistique, nécessite de se référer aux travaux précédents relatifs à la phylogénie du groupe étudié.
3- arbre minimal, parcimonie
Je rappelle que la longueur (L) d'un arbre est le nombre de transformations minimales nécessaires à sa résolution.
La méthode choisie est celle dite de la parcimonie. J'insiste ici pour rappeler qu'il s'agit d'une méthode, et non d'un principe, comme pourtant on le lit trop souvent. Une méthode est un simple outil, un principe une forme d'axiome, un dogme.
L'idée de parcimonie n'est pas neuve: Copernic (dont on vient de retrouver les restes), l'a implicitement évoquée, considérant que la théorie de Ptolémée (le soleil tournant autour de la terre) avait un "coût" plus élevé que la sienne, laquelle minimisait le nombre de relations terre/soleil pour chaque planète. C'est une approche "parcimonieuse" avant la lettre...
On peut décrire trois types de parcimonie:
- parcimonie de Camin-Sokal (réversions non admises), Camin & Sokal (1965)*
- parcimonie de Dollo (convergences non admises), Le Quesne (1972)**, Farris (1977)***
- parcimonie de Wagner (convergences et réversions admises). Kluge & Farris (1969)****, Farris (1970)*****
Si l'on désire le minimum de scénarisation, il faut éviter tout "blocage" évolutif implicite.
De ce fait, j'utilise pour ma part la parcimonie de Wagner, presque exclusivement, à charge évidemment de discuter les homoplasies
sur le cladogramme .
* Camin J. H. & Sokal R. R. 1965. A method for deducing branching sequences in phylogeny. Evolution, 19: 311-326.
** LeQuesne W. J. 1972. Further studies based on the uniquely derived character concept. Syst. Zool., 21(3): 281-288.
*** Farris, J. S. 1977. Phylogenetic analysis under Dollo's law. Syst. Zool., 26: 78-88.
**** Kluge A. G. & Farris J. S. 1969. Quantitative phyletics and the evolution of anurans. Syst. Zool., 18(1): 1-32.
***** Farris J. S. 1970. Methods for computing Wagner trees. Syst. Zool., 19: 83-92.
Enfin, pour les fous (et un chouia matheux!), on peut se procurer le très intéressant ALBERT V. A. (Ed.) 2005. Parsimony, Phylogenetics and Genomics. Oxford University Press, Oxford, ix + 229 p. chez les libraires en ligne du web.
4- Indice de cohérence
Lorsque j'ai obtenu un arbre minimal, j'ai besoin d'en évaluer la cohérence.
Je n'aborderai pas ici les techniques de bootstrap, jacknife et autres, qu'on pourra traiter ultérieurement, si besoin.
Qui dit cohérence, dit mesure de l'homoplasie, ennemie jurée du cladiste!
Kluge & Farris ont ainsi créé un indice (Consistency Index en anglais, Indice de Cohérence par chez nous...) qui renvoie, de manière synthétique, la situation de l'arbre en termes d'homoplasies.
Défini comme "le rapport entre le nombre minimum (R) de transformations qui sont nécessaires pour expliquer les états de tous les caractères et le nombre effectif de transformations (L) dans l'arbre considéré." (Darlu & Tassy, 1993), il est beaucoup plus simple à comprendre au travers d'un exemple.
Chaque caractère peut présenter des états distincts (codés 0, 1, 2, 3, etc...). On calcule, pour chaque caractère, son amplitude, c'est-à-dire le nombre de changements d'états possibles, moins un.
Pour un caractère pouvant présenter les états (0, 1, 2) soit 3 états, l'amplitude sera de 3-1 =2.
L'amplitude totale (A) est la somme des amplitudes par caractères. Dans le cas du cladogramme "Pseudokageronia" visible ci-dessus, A est de:
1+1+1+1+1+1+1+1+1+1+1+2+2+1+1+1= 18
On connait la longueur L de l'arbre (dans l'exemple, L = 30), on en déduit donc IC = A/L = 18/30 = 0,60...
A noter que le point d'interrogation (caractères 5, 12, 13, 14, 15, 16 de l'exemple) équivaut à l'état le plus "élévé" pour le caractère (rappel: le "?" représente tous les états possibles, soit pour le caractère 12 par exemple, les valeurs 0, 1 ou 2).
Pour la lecture, on retiendra que plus l'IC est élevé, moins il y a d'homoplasies, l'idéal étant un IC de 1, bien entendu (zéro homoplasie).
Des nuances sont à apporter, que l'on trouvera développées dans le Darlu & Tassy, ainsi d'ailleurs qu'un exposé sur l'IR, Indice de Rétention.
5- Attributs:
Un cladogramme prend également tout son intérêt lorsque les groupes monophylétiques sont confrontés à des données externes, par exemple du milieu. Pour ce faire, on code ces données externes, on peut les inclure dans la matrice (en les rendant inactives pour le calcul), et on en examine la congruence avec les unités taxinomiques.
C'est une des grandes forces de la cladistique vs. la phénétique que de permettre ces comparaisons, puisque les informations ne sont pas délayées dans une "bouillie distancielle" mais au contraire, lisibles une par une...
Noter aussi qu'il existe au moins un logiciel de comparaison d'arbres (on en reparlera lors de la description des principaux outils informatiques) autorisant la lecture face à face par exemple d'un arbre phylogénétique "parasite" et de son acolyte "hôte".
C'est un bel outil d'étude des co-évolutions.
La fois prochaine, si personne ne m'a voué aux gémonies , on abordera:
- petit vade-mecum à l'usage du lecteur de cladogrammes,
- les applications exotiques de la cladistique,
La fois suivante on parlera des logiciels, agrémentés d'une liste bibliographique de base.
On terminera le pensum infligé à l'insu de vot' plein gré par la taxinomie, et autres questions qui me seront venues à l'esprit d'ici là!
Bonne journée!