cdhit-est-2d – Online in der Cloud

Dies ist der Befehl cdhit-est-2d, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


cdhit-est-2d – führt den CD-HIT-Algorithmus auf RNA/DNA-Sequenzen im db1- oder db2-Format aus

ZUSAMMENFASSUNG


cdhit-est-2d [Optionen]

BESCHREIBUNG


====== CD-HIT Version 4.6 (erstellt am 23) ======

Optionen

-i Eingabedateiname für DB1 im Fasta-Format, erforderlich

-i2 Eingabedateiname für DB2 im Fasta-Format, erforderlich

-o Ausgabedateiname, erforderlich

-c Sequenzidentitätsschwellenwert, Standard 0.9 Dies ist der "globale" Standardwert des CD-Hits
Sequenzidentität" berechnet als: Anzahl identischer Aminosäuren im Alignment
geteilt durch die volle Länge der kürzeren Sequenz

-G Globale Sequenzidentität verwenden, Standard 1 wenn auf 0 gesetzt, dann lokale Sequenz verwenden
Identität, berechnet als: Anzahl identischer Aminosäuren im Alignment dividiert durch
die Länge der Ausrichtung HINWEIS!!! nicht verwenden -G 0, es sei denn, Sie verwenden die Ausrichtung
Abdeckungskontrollen siehe Optionen -al, -AL, -wie, -WIE

-b band_width der Ausrichtung, Standard 20

-M Speicherlimit (in MB) für das Programm, Standard 800; 0 für unbegrenzt;

-T Anzahl Threads, Standard 1; mit 0 werden alle CPUs verwendet

-n word_length, Standardwert 10, siehe Benutzerhandbuch für die Auswahl

-l Länge von throw_away_sequences, Standard 10

-d Länge der Beschreibung in der .clstr-Datei, Standard 20, wenn auf 0 gesetzt, dauert es die Fasta
defline und stoppt beim ersten Leerzeichen

-s Längendifferenz-Cutoff, Standard 0.0 wenn auf 0.9 gesetzt, die kürzeren Sequenzen müssen
mindestens 90% Länge des Repräsentanten des Clusters sein

-S Längendifferenz-Cutoff in Aminosäure, Standard 999999, wenn auf 60 eingestellt, die Länge
Unterschied zwischen den kürzeren Sequenzen und dem Repräsentanten des Clusters kann
nicht größer als 60 . sein

-s2 Längendifferenz-Grenzwert für DB1, Standardwert 1.0, Seqs in DB1 >= Seqs in
db2 in einem gleichen Cluster, wenn auf 0.9 eingestellt, können die Sequenzen in db1 nur >= 90 % der seqs in db2 ausmachen

-S2 Längendifferenz-Cutoff, Standardwert 0, Seqs in DB1 >= Seqs in DB2 in A
Wenn derselbe Cluster auf 60 gesetzt ist, können die Sequenzen in DB2 60aa länger sein als die Sequenzen in DB1

-al Alignment-Coverage für die längere Sequenz, Standardwert 0.0, wenn auf 0.9 gesetzt, die
Das Alignment muss 90% der Sequenz abdecken

-AL Ausrichtungsabdeckungssteuerung für die längere Sequenz, Standard 99999999, wenn auf 60 gesetzt,
und die Länge der Sequenz 400 beträgt, dann muss das Alignment >= 340 (400-60) sein
Rückstände

-wie Alignment Coverage für die kürzere Sequenz, Standard 0.0, wenn auf 0.9 gesetzt, die
Das Alignment muss 90% der Sequenz abdecken

-WIE Ausrichtungsabdeckungssteuerung für die kürzere Sequenz, Standard 99999999, wenn auf 60 gesetzt,
und die Länge der Sequenz 400 beträgt, dann muss das Alignment >= 340 (400-60) sein
Rückstände

-A minimale Alignment-Coverage-Kontrolle für beide Sequenzen, Standard 0 Alignment muss
cover >= dieser Wert für beide Sequenzen

-ul maximaler nicht übereinstimmender Prozentsatz für die längere Sequenz, Standard 1.0, wenn auf 0.1 gesetzt,
die nicht übereinstimmende Region (ohne führende und nachfolgende Lücken) darf nicht mehr als 10 % betragen
der Folge

-uns maximaler nicht übereinstimmender Prozentsatz für die kürzere Sequenz, Standard 1.0, wenn auf 0.1 gesetzt,
die nicht übereinstimmende Region (ohne führende und nachfolgende Lücken) darf nicht mehr als 10 % betragen
der Folge

-U maximale nicht übereinstimmende Länge, Standard 99999999, wenn auf 10 gesetzt, der nicht übereinstimmende Bereich
(ohne Leading und Tailing Gaps) darf nicht mehr als 10 Basen betragen

-B 1 oder 0, Standard 0, Standardmäßig werden Sequenzen im RAM gespeichert, wenn auf 1 gesetzt, Sequenz
auf der Festplatte gespeichert sind, wird empfohlen zu verwenden -B 1 für riesige Datenbanken

-p 1 oder 0, Standard 0, wenn auf 1 gesetzt, Druckausrichtungsüberlappung in .clstr-Datei

-g 1 oder 0, Standardwert 0 durch den Standardalgorithmus von cd-hit, eine Sequenz wird zu den
ersten Cluster, der den Schwellenwert erfüllt (schneller Cluster). Bei Einstellung auf 1 wird das Programm
gruppieren Sie es in den ähnlichsten Cluster, der den Schwellenwert erfüllt (genau, aber langsam
Modus), aber entweder 1 oder 0 ändert die Repräsentanten der endgültigen Cluster nicht

-r 1 oder 0, Standard 1, standardmäßig werden sowohl +/+ als auch +/- Ausrichtungen durchgeführt, wenn auf 0 gesetzt, nur +/+
Strangausrichtung

-Maske Maskierungsbuchstaben (z -Maske NX, um sowohl „N“ als auch „X“ auszublenden)

-Spiel Matching-Score, Standard 2 (1 für TU und NN)

-Nichtübereinstimmung
Nicht übereinstimmende Punktzahl, Standard -2

-Lücke Lückenöffnungsergebnis, Standard -6

-gap-ext
Gap Extension Score, Standard -1

-backen Backup-Cluster-Datei schreiben (1 oder 0, Standard 0)

-h diese Hilfe ausdrucken

Fragen, Fehler, kontaktieren Sie Limin Fu unter l2fu@ucsd.edu, oder Weizhong Li at liwz@sdsc.edu
Für aktualisierte Versionen und Informationen besuchen Sie bitte: http://cd-hit.org

Der cd-hit Webserver ist auch erhältlich bei http://cd-hit.org

Wenn Sie CD-Hit nützlich finden, zitieren Sie bitte:

"Clustering von hochhomologen Sequenzen, um die Größe großer Proteine ​​zu reduzieren
Datenbank", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatik, (2001)
17:282-283 „Cd-hit: ein schnelles Programm zum Clustering und Vergleichen großer Mengen von
Protein- oder Nukleotidsequenzen“, Weizhong Li & Adam Godzik. Bioinformatik, (2006)
22: 1658-1659

Verwenden Sie cdhit-est-2d online über die Dienste von onworks.net



Neueste Linux- und Windows-Online-Programme