Dies ist der Befehl dnaclust, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
dnaclust – Programm zum Clustern einer großen Anzahl kurzer DNA-Sequenzen
ZUSAMMENFASSUNG
dnaclust {-i | --Eingang} im Ordner [{-s | --Ähnlichkeit} Schwelle]
[{-m | --multiple-alignment}] [{-d | --Header}] [{-l | --left-gaps-allowed}]
[{-k | --k-mer-length} Länge] [{-a | -- approximative-filter}] [--no-k-mer-filter]
dnaclust [{-h | --help} | {-v | --Version}]
BESCHREIBUNG
Diese Handbuchseite dokumentiert kurz die dnaclust
dnaclust ist ein Werkzeug zum Clustern einer großen Anzahl kurzer DNA-Sequenzen. Die Cluster sind
so erstellt, dass der „Radius“ jedes Clusters nicht größer als der angegebene ist
Schwelle.
Die zu gruppierenden Eingabesequenzen sollten im Fasta-Format vorliegen. Die ID jeder Sequenz ist
basierend auf dem ersten Wort der Sequenz im Fasta-Format. Das erste Wort ist das Präfix
des Headers bis zum ersten Auftreten von Leerzeichen im Header. Der
Die Ausgabe wird nach STDOUT geschrieben. Wenn Sie möchten, dass die Ausgabe in eine Datei geschrieben wird, leiten Sie einfach um
die Ausgabe (siehe Beispiele).
Die Ausgabe verfügt über zwei Modi: den Standard-Clustering-Modus und Clustering mit mehreren
Sequenzausrichtung. Im Clustering-Modus (ohne Mehrfachausrichtung) wird jeder Cluster
in einer separaten Zeile gedruckt werden. Die Zeile enthält die IDs der Sequenzen in der
Cluster. Die erste ID in jeder Zeile ist die Cluster-Center-Sequenz-ID. Wegen der Art und Weise
Da unsere Cluster konstruiert werden, ist die Länge der Cluster-Center-Sequenz immer größer
größer oder gleich der Länge einer der Sequenzen im Cluster ist. Bitte beachten Sie, dass da
Normalerweise enthalten einige Cluster viele Sequenzen, die Zeilen der Ausgabe können sehr lang sein. Wenn
Wenn Sie die Ausgabe visuell überprüfen möchten, verwenden Sie bitte „less -S“ oder einen Editor, der dies tut
Wickeln Sie keine langen Zeilen ein. Die Anzahl der Cluster kann mit „wc -l“ ermittelt werden.
Weitere Informationen zum Multiple Sequence Alignment-Modus finden Sie in der Beschreibung von
--multiple-alignment .
OPTIONAL
Das Programm folgt der üblichen GNU-Befehlszeilensyntax, mit langen Optionen, die mit zwei beginnen
Bindestriche ('-'). Nachfolgend finden Sie eine Zusammenfassung der Optionen.
--Ähnlichkeit Schwelle, -s Schwelle
Der Ähnlichkeitsschwellenwert gibt den Radius der erstellten Cluster an. Dieser Parameter
ist eine Gleitkommazahl zwischen 0 und 1. Sie wird auf Basis einer Halbglobalität berechnet
Ausrichtung einer Sequenz an der Cluster-Center-Sequenz. Nämlich Ähnlichkeit = 1 - (edit
Abstand) / (Länge der kürzeren Sequenz). Der Bearbeitungsabstand ist die Mindestzahl
von Einfügungen, Löschungen oder Ersetzungen, die erforderlich sind, um eine Sequenz dem Cluster hinzuzufügen
mittlere Sequenz. Unsere Algorithmen sind schneller, je höher die Ähnlichkeit ist.
--k-mer-length Länge, -k Länge
Wenn Sie den k-mer-Filter verwenden (der standardmäßig aktiviert ist), können Sie Folgendes angeben
maximale Länge der zum Filtern verwendeten k-mere.
Die längeren k-mer-Längen erfordern mehr Speicher zum Speichern der k-mer-Zählungen und der Filterung
wird langsamer sein. Mit der längeren k-mer-Länge wird der Filter jedoch spezifischer
und daher kann die Suche nach Sequenzausrichtung schneller sein.
Es gibt einen Kompromiss zwischen Filterung und Suchzeit. Wenn Sie das nicht angeben
Für die k-mer-Länge wird ein Wert von log4 (Median der Längen der Eingabesequenzen) ausgewählt
automatisch. Mit dieser Option können Sie den Standardwert überschreiben.
Beachten Sie jedoch, dass längere k-mer-Längen mehr Speicher zum Speichern erfordern würden
die filternden Datenstrukturen.
-- approximative-filter , -a
Standardmäßig ist der K-Mer-Filter zu 100 Prozent empfindlich. Dies bedeutet, dass in der Ausgabe
Beim Clustering liegen keine zwei Clusterzentren innerhalb des Schwellenwertabstands voneinander.
Der genaue Filter ist allerdings etwas langsam. Diese Option beschleunigt den Filter durch Verwendung
eine Heuristik. Die Verwendung des Näherungsfilters kann zu solchen Clusterzentren führen
nah, und insgesamt gruppiert sich eine größere Anzahl. Der ungefähre Filter ist jedoch normalerweise
um ein Vielfaches schneller als der exakt empfindliche Filter. Nutzen Sie diese Option, wenn Sie es sind
Clustering dient in erster Linie dazu, die Redundanz in den Daten zu reduzieren, und kümmert sich nicht darum
Qualität der Clusterbildung.
--allow-left-gaps , -l
Mit dieser Option werden die Abstände basierend auf einer semi-globalen Ausrichtung gemessen. Der
Die halbglobale Ausrichtung ermöglicht Lücken ohne Nachteile an beiden Enden des kürzeren
Sequenz.
Die Standardausrichtung ist eine einseitige halbglobale Ausrichtung. dh Lücken sind nur erlaubt
am rechten Ende der kürzeren Sequenz ohne Strafe. Dieses Verhalten entspricht
die Daten aus der gezielten Sequenzierung einer Region (z. B. des ribosomalen 16S-RNA-Gens).
--multiple-alignment, -m
Legen Sie das Ausgabeformat fest, um die Ausrichtung mehrerer Sequenzen jedes Clusters anzuzeigen. Der
Lücken in den Ausrichtungen werden durch den Bindestrich „-“ dargestellt.
Das Format der MSA-Ausgabe ist wie folgt: Die MSA jedes Clusters umfasst mehrere
Linien. Das MSA beginnt mit einer Zeile, die das Zeichen „#“ enthält, gefolgt von der Nummer
Sequenzen in diesem Cluster. Es folgen die ausgerichteten Sequenzen (die Lücken enthalten können).
das Fasta-Format. Jeder Fasta-Datensatz besteht aus zwei Zeilen. Die Kopfzeile und
die Sequenzlinie. Da jede ausgerichtete Sequenz in einer einzelnen Zeile ausgegeben wird, ist die Ausgabe
kann sehr lange Zeilen enthalten. Bitte verwenden Sie „less -S“ oder einen Editor, der nicht umbricht
Lange Schlangen auch für die Inspektion des MSA.
--no-k-mer-filter
Deaktiviert den K-Mer-Filter. Geeignet zum Clustern sehr kurzer Sequenzen mit hoher Geschwindigkeit
Ähnlichkeitsschwelle.
-d, --Header
Programmoptionen zur Ausgabe schreiben.
-h, --help
Zusammenfassung der Optionen anzeigen.
-v, --Version
Programmversion anzeigen.
Beispiele:
./dnaclust file.fasta -l -s 0.98 -k 3 > Cluster
Nutzen Sie dnaclust online über die Dienste von onworks.net