1.12 Phylogenetische Inferenz
Wir haben gesehen, wie man die Homologie von DNA-Basen in einem Satz von Sequenzen durch Alignment ermittelt. Nun können wir diese DNA-Sequenzen verwenden, um einen Stammbaum abzuleiten. Wir werden dazu die Maximum Likelihood (ML) als Methode verwenden.
Anders als distanzbasierte Ansätze, wie wir sie beim letzten Mal gesehen haben, ist ML eine probabilistische Methode. Das grundsätzliche Ziel ist es, den Stammbaum zu finden, unter dem die Daten (das DNA-Alignment) die höchste Likelihood, also Wahrscheinlichkeit unter einem bestimmten Modell, haben. Für dieses Modell schätzt der Algorithmus auch Raten für die Evolution der Merkmale – hier, die DNA-Basen. Da es unmöglich ist, den besten Stammbaum analytisch zu ermitteln oder die Likelihood für alle möglichen Stammbäume durchzurechnen, nutzt man hier wieder einen heuristischen Algorithmus, der die Parameter schrittweise verändert und versucht, die Likelihood zu verbessern.
1.12.1 Literatur/Weiterführendes
Phylogenetic trees: the basics (19 min), Greg Tucker
1.12.2 Lernziele
Nach dieser Übungseinheit werden Sie in der Lage sein:
einen Maximum-Likelihood-Baum für ein DNA-Alignment zu generieren
eine geeignete Außengruppe auszuwählen
Bootstrap-Support-Werte für Stammbaum-Äste zu interpretieren
1.12.4 Tutorial
1.12.4.1 Ein einfacher Stammbaum
Die Datei matk_11sp_bombacoideae_cds_aligned.fas enthält das Alignment der matK-kodierenden Sequenzen für 11 Bombacoideae-Arten. Wir haben dieses Alignment bereits in der letzten Einheit verwendet.
Wir können in MEGA einen einfachen ML-Stammbaum erstellen. Dazu öffnen wir das Alignment diesmal mit der Option Analyze statt Align. Unter Phylogeny wählen wir die Option Construct/Test Maximum Likelihood Tree. Wir belassen die Standardeinstellungen, setzen aber Test of Phylogeny vorerst auf None.
MEGA öffnet den resultierenden ML-Baum automatisch in seinem eigenen Baumbetrachter. Sie können ihn auch als Grafik oder als Newick-Datei exportieren.
1.12.5 Außengruppe
Grundsätzlich führt phylogenetische Inferenz erst einmal zu einem Stammbaum ohne Kenntnis der Wurzel, d.h. wo die Evolution der Gruppe begonnen hat. Wenn wir etwa den Stammbaum aus dem bisherigen Alignment (mit Daten für Arten aus drei Gruppen der Bombacoideae) mit dem der gesamten Bombacoideae vergleichen, stellen wir fest: Catostemma sollte eigentlich näher mit Adansonia verwandt sein als Ceiba.
Um den Wurzelknoten einer Gruppe ableiten zu können, müssen wir eine geeignete Außengruppe hinzufügen, die wir auf der Grundlage zusätzlicher Informationen ausgewählt haben. Idealerweise nutzen wir Arten, die möglichst nah mit unserer Innengruppe verwandt sind, aber nicht zu ihr gehören. Dies müssen wir aufgrund vorheriger phylogenetischer Arbeiten oder morphologischer Kriterien einschätzen.
Nach dem bekannten Bombacoideae-Stammbaum wären etwa Catostemma, Scleronema, Aguiaria oder Cavanillesia geeignete Außergruppen für eine Analyse von Adansonia.
Die Datei matk_all_bombacoideae.fas enthält matK-Sequenzen für verschiedene Bombacoideae-Arten. Wir können daraus Sequenzen auswählen, etwa mit R, MEGA oder einem Texteditor.
1.12.6 Statistischer Test des branch support
Bislang haben wir einen einzigen ML-Baum geschätzt. Wir sehr können wir den Verwandtschaftsverhältnissen, die wir sehen, trauen?
Ein häufig verwendeter Ansatz zum Test des statistschen supports ist das Bootstrapping. Dabei handelt es sich um ein generisches statistisches Verfahren, bei dem wir unsere Daten (hier die Spalten des Alignments) zufällig mehrmals neu “ziehen” (mit “Zurücklegen”) und dann sehen, ob wir immer noch das gleiche Muster ableiten.
In MEGA gibt man dafür bei Test of Phylogeny die gewünschte Anzahl der Bootstrap-Wiederholungen an. Üblicherweise sind 100 Replikate ausreichend.
Die Bootstrap-Werte werden als Prozentsatz (0-100 oder 0-1) auf den einzelnen Ästen ausgedrückt (branch support). Ein Wert von 100 Prozent bedeutet, dass dieser Ast (mit allen Arten links und rechts des Astes) mit allen neu zusammengestellten Vergleichs-Alignments gefunden wurde. Üblicherweise interpretiert man Werte ab 70 als starke Unterstützung für die Monophylie einer Klade.
Sie werden die Unterstützungswerte der Zweige in MEGA sehen, aber Sie können auch eine Newick-Datei mit Unterstützungswerten exportieren und sie z.B. in R öffnen. An dieser Stelle können Sie auch ein grafisches Programm, FigTree, zum Anzeigen von Stammbäumen testen, das auf den PCs bereits installiert sein sollte.
1.12.7 Aufgaben
Ausgehend von dem bekannten Bombacoideae-Stammbaum, den Sie bereits in der zweiten Sitzung gesehen haben, welche Art würde sich als Außengruppe für die Gattung Eriotheca eignen?
Erstellen Sie einen Maximum-Likelihood-Stammbaum für Eriotheca. Dafür müssen Sie die entsprechenden matK-Sequenzen (inklusive Stammbaum) aus der Datei matk_all_bombacoideae.fas auswählen, in MEGA ein Alignment erstellen und mit diesem dann einen Stammbaum.
Hinweis: MEGA hat die lästige Eigenschaft, alle Unterstriche (_) in Artnamen durch Leerzeichen zu ersetzen, wenn man ein Alignment speichert. Es kann also sein, dass Sie die Leerzeichen in der Alignmentdatei wieder ersetzen müssen, falls Sie sie speichern. Sie können dies mit einem Texteditor (Suchen & Ersetzen) oder mit der Funktion gsub()
in R tun.
Exportieren Sie den Eriotheca-Stammbaum als Newick-Datei. Lesen Sie diese dann in R ein, bewurzeln Sie den Stammbaum mithilfe der Außengruppe und plotten Sie ihn mit geeigneten Einstellungen, wie wir es in den vorherigen Einheiten gesehen haben.
Welche Verwandschaftsbeziehungen im Stammbaum erhalten starke Bootstrap-Unterstützung? Vergleichen Sie sie mit unserem bekannten Bombacoideae-Stammbaum: Welche Unterschiede gibt es?