Dies ist der Befehl cdhit-est-2d, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
cdhit-est-2d – führt den CD-HIT-Algorithmus auf RNA/DNA-Sequenzen im db1- oder db2-Format aus
ZUSAMMENFASSUNG
cdhit-est-2d [Optionen]
BESCHREIBUNG
====== CD-HIT Version 4.6 (erstellt am 23) ======
Optionen
-i Eingabedateiname für DB1 im Fasta-Format, erforderlich
-i2 Eingabedateiname für DB2 im Fasta-Format, erforderlich
-o Ausgabedateiname, erforderlich
-c Sequenzidentitätsschwellenwert, Standard 0.9 Dies ist der "globale" Standardwert des CD-Hits
Sequenzidentität" berechnet als: Anzahl identischer Aminosäuren im Alignment
geteilt durch die volle Länge der kürzeren Sequenz
-G Globale Sequenzidentität verwenden, Standard 1 wenn auf 0 gesetzt, dann lokale Sequenz verwenden
Identität, berechnet als: Anzahl identischer Aminosäuren im Alignment dividiert durch
die Länge der Ausrichtung HINWEIS!!! nicht verwenden -G 0, es sei denn, Sie verwenden die Ausrichtung
Abdeckungskontrollen siehe Optionen -al, -AL, -wie, -WIE
-b band_width der Ausrichtung, Standard 20
-M Speicherlimit (in MB) für das Programm, Standard 800; 0 für unbegrenzt;
-T Anzahl Threads, Standard 1; mit 0 werden alle CPUs verwendet
-n word_length, Standardwert 10, siehe Benutzerhandbuch für die Auswahl
-l Länge von throw_away_sequences, Standard 10
-d Länge der Beschreibung in der .clstr-Datei, Standard 20, wenn auf 0 gesetzt, dauert es die Fasta
defline und stoppt beim ersten Leerzeichen
-s Längendifferenz-Cutoff, Standard 0.0 wenn auf 0.9 gesetzt, die kürzeren Sequenzen müssen
mindestens 90% Länge des Repräsentanten des Clusters sein
-S Längendifferenz-Cutoff in Aminosäure, Standard 999999, wenn auf 60 eingestellt, die Länge
Unterschied zwischen den kürzeren Sequenzen und dem Repräsentanten des Clusters kann
nicht größer als 60 . sein
-s2 Längendifferenz-Grenzwert für DB1, Standardwert 1.0, Seqs in DB1 >= Seqs in
db2 in einem gleichen Cluster, wenn auf 0.9 eingestellt, können die Sequenzen in db1 nur >= 90 % der seqs in db2 ausmachen
-S2 Längendifferenz-Cutoff, Standardwert 0, Seqs in DB1 >= Seqs in DB2 in A
Wenn derselbe Cluster auf 60 gesetzt ist, können die Sequenzen in DB2 60aa länger sein als die Sequenzen in DB1
-al Alignment-Coverage für die längere Sequenz, Standardwert 0.0, wenn auf 0.9 gesetzt, die
Das Alignment muss 90% der Sequenz abdecken
-AL Ausrichtungsabdeckungssteuerung für die längere Sequenz, Standard 99999999, wenn auf 60 gesetzt,
und die Länge der Sequenz 400 beträgt, dann muss das Alignment >= 340 (400-60) sein
Rückstände
-wie Alignment Coverage für die kürzere Sequenz, Standard 0.0, wenn auf 0.9 gesetzt, die
Das Alignment muss 90% der Sequenz abdecken
-WIE Ausrichtungsabdeckungssteuerung für die kürzere Sequenz, Standard 99999999, wenn auf 60 gesetzt,
und die Länge der Sequenz 400 beträgt, dann muss das Alignment >= 340 (400-60) sein
Rückstände
-A minimale Alignment-Coverage-Kontrolle für beide Sequenzen, Standard 0 Alignment muss
cover >= dieser Wert für beide Sequenzen
-ul maximaler nicht übereinstimmender Prozentsatz für die längere Sequenz, Standard 1.0, wenn auf 0.1 gesetzt,
die nicht übereinstimmende Region (ohne führende und nachfolgende Lücken) darf nicht mehr als 10 % betragen
der Folge
-uns maximaler nicht übereinstimmender Prozentsatz für die kürzere Sequenz, Standard 1.0, wenn auf 0.1 gesetzt,
die nicht übereinstimmende Region (ohne führende und nachfolgende Lücken) darf nicht mehr als 10 % betragen
der Folge
-U maximale nicht übereinstimmende Länge, Standard 99999999, wenn auf 10 gesetzt, der nicht übereinstimmende Bereich
(ohne Leading und Tailing Gaps) darf nicht mehr als 10 Basen betragen
-B 1 oder 0, Standard 0, Standardmäßig werden Sequenzen im RAM gespeichert, wenn auf 1 gesetzt, Sequenz
auf der Festplatte gespeichert sind, wird empfohlen zu verwenden -B 1 für riesige Datenbanken
-p 1 oder 0, Standard 0, wenn auf 1 gesetzt, Druckausrichtungsüberlappung in .clstr-Datei
-g 1 oder 0, Standardwert 0 durch den Standardalgorithmus von cd-hit, eine Sequenz wird zu den
ersten Cluster, der den Schwellenwert erfüllt (schneller Cluster). Bei Einstellung auf 1 wird das Programm
gruppieren Sie es in den ähnlichsten Cluster, der den Schwellenwert erfüllt (genau, aber langsam
Modus), aber entweder 1 oder 0 ändert die Repräsentanten der endgültigen Cluster nicht
-r 1 oder 0, Standard 1, standardmäßig werden sowohl +/+ als auch +/- Ausrichtungen durchgeführt, wenn auf 0 gesetzt, nur +/+
Strangausrichtung
-Maske Maskierungsbuchstaben (z -Maske NX, um sowohl „N“ als auch „X“ auszublenden)
-Spiel Matching-Score, Standard 2 (1 für TU und NN)
-Nichtübereinstimmung
Nicht übereinstimmende Punktzahl, Standard -2
-Lücke Lückenöffnungsergebnis, Standard -6
-gap-ext
Gap Extension Score, Standard -1
-backen Backup-Cluster-Datei schreiben (1 oder 0, Standard 0)
-h diese Hilfe ausdrucken
Fragen, Fehler, kontaktieren Sie Limin Fu unter l2fu@ucsd.edu, oder Weizhong Li at liwz@sdsc.edu
Für aktualisierte Versionen und Informationen besuchen Sie bitte: http://cd-hit.org
Der cd-hit Webserver ist auch erhältlich bei http://cd-hit.org
Wenn Sie CD-Hit nützlich finden, zitieren Sie bitte:
"Clustering von hochhomologen Sequenzen, um die Größe großer Proteine zu reduzieren
Datenbank", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatik, (2001)
17:282-283 „Cd-hit: ein schnelles Programm zum Clustering und Vergleichen großer Mengen von
Protein- oder Nukleotidsequenzen“, Weizhong Li & Adam Godzik. Bioinformatik, (2006)
22: 1658-1659
Verwenden Sie cdhit-est-2d online über die Dienste von onworks.net