Dies ist der Befehl ncbi-seg, der im kostenlosen OnWorks-Hosting-Provider über eine unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
ncbi-seg - Segmentsequenz(en) nach lokaler Komplexität
ZUSAMMENFASSUNG
ncbi-seg-Sequenz [ W ] [ K(1) ] [ K(2) ] [ -x ] [ Optionen ]
BESCHREIBUNG
ncbi-seg unterteilt Sequenzen in kontrastierende Segmente von geringer Komplexität und hoher
Komplexität. Vom Algorithmus definierte Segmente mit geringer Komplexität stellen "einfache Sequenzen" dar
oder "kompositionell voreingenommene Regionen".
Lokal optimierte Segmente mit geringer Komplexität werden auf definierten Stringenzniveaus produziert,
basierend auf formalen Definitionen lokaler kompositorischer Komplexität (Wootton & Federhen, 1993).
Die Segmentlängen und die Anzahl der Segmente pro Sequenz werden automatisch ermittelt
durch den Algorithmus.
Die Eingabe ist eine FASTA-formatierte Sequenzdatei oder eine Datenbankdatei mit vielen FASTA-
formatierte Sequenzen. ncbi-seg ist auf Aminosäuresequenzen abgestimmt. Für Nukleotid
Sequenzen siehe unten BEISPIELE FÜR PARAMETERSÄTZE.
Die Stringenz der Suche nach Segmenten mit geringer Komplexität wird von drei Benutzer-
definierte Parameter, Triggerfensterlänge [ W ], Triggerkomplexität [ K(1) ] und Erweiterung
Komplexität [ K(2)] (siehe unten unter PARAMETER ). Die bereitgestellten Voreinstellungen sind geeignet für
Maskierung von Datenbanksuchabfragen mit geringer Komplexität [ Option -x erforderlich, siehe
unten].
OUTPUTS UND ANWENDUNGEN
(1) Lesbare segmentierte Sequenz [Standard]. Regionen unterschiedlicher Komplexität sind
im "Baumformat" angezeigt. Siehe BEISPIELE.
(2) Maskierung mit geringer Komplexität (siehe Altschul et al., 1994). Erstellen Sie ein maskiertes FASTA-formatiertes
Datei, eingabebereit als Abfragesequenz für Datenbanksuchprogramme wie BLAST oder
FASTA. Die Aminosäuren in Regionen mit geringer Komplexität werden durch "x"-Zeichen ersetzt [-x
Möglichkeit]. Siehe BEISPIELE.
(3) Datenbankaufbau. Produzieren Sie FASTA-formatierte Dateien mit geringer Komplexität
Segmente [-l Option] oder hochkomplexe Segmente [-h Option] oder beides [-a Option]. Jeder
segment ist ein separater Sequenzeintrag mit einer informativen Kopfzeile.
ALGORITHM
Der SEG-Algorithmus hat zwei Stufen. Zuerst Identifizierung von ungefähren Rohsegmenten von
geringe Komplexität; zweite lokale Optimierung.
In der ersten Stufe wird die Stringenz und Auflösung der Suche nach niedrigkomplexen
Segmente wird durch das W bestimmt, K(1) und K(2) Parameter. Alle Triggerfenster sind
definiert, einschließlich überlappender Fenster, der Länge W und der Komplexität kleiner oder gleich
K(1). "Komplexität" wird hier durch Gleichung (3) von Wootton & Federhen (1993) definiert. Jeder
Triggerfenster wird dann in beide Richtungen zu einem Contig erweitert, indem es mit Extension zusammengeführt wird
Fenster, bei denen es sich um überlappende Fenster der Länge W und einer Komplexität kleiner oder gleich handelt
K(2). Jedes Contig ist ein Rohsegment.
In der zweiten Stufe wird jedes Rohsegment auf eine einzige optimale niedrige Komplexität reduziert
Segment, das das gesamte Rohsegment sein kann, aber normalerweise eine Untersequenz ist. Das Optimale
Teilfolge hat den niedrigsten Wert der Wahrscheinlichkeit P(0) (Gleichung (5) von Wootton &
Federn, 1993).
PARAMETER
Diese drei numerischen Parameter stehen in obligatorischer Reihenfolge nach dem Sequenzdateinamen.
Triggerfensterlänge [ W ]. Eine ganze Zahl größer als Null [Standard 12].
Komplexität auslösen. [K1]. Die maximale Komplexität eines Triggerfensters in Einheiten von Bits.
K1 muss gleich oder größer Null sein. Der Maximalwert beträgt 4.322 (log[base 2]20) für
Aminosäuresequenzen [Standard 2.2].
Erweiterungskomplexität [ K2 ]. Die maximale Komplexität eines Erweiterungsfensters in Einheiten von
Bits. Nur Werte größer als K1 sind bei der Erweiterung getriggerter Fenster wirksam. Bereich von
mögliche Werte sind wie bei K1 [ Default 2.5 ].
OPTIONAL
Die folgenden Optionen können in beliebiger Reihenfolge in der Befehlszeile nach dem W, K1 und platziert werden
K2-Parameter:
-a Gibt sowohl Segmente mit niedriger als auch mit hoher Komplexität in einer FASTA-formatierten Datei aus, als
eine Reihe von separaten Einträgen mit Kopfzeilen.
-c [Zeichen-pro-Zeile]
Anzahl der Sequenzzeichen pro Ausgabezeile [Standard 60]. Andere Charaktere, wie z
B. Restnummern, sind zusätzlich.
-h Gibt nur die hochkomplexen Segmente in einer FASTA-formatierten Datei aus, als Satz von
separate Einträge mit Kopfzeilen.
-l Nur die Segmente mit geringer Komplexität in einer FASTA-formatierten Datei ausgeben, als Satz von
separate Einträge mit Kopfzeilen.
-m [Länge]
Mindestlänge in Resten für ein Segment mit hoher Komplexität [Standard 0]. Kürzer
Segmente werden mit benachbarten Segmenten geringer Komplexität zusammengeführt.
-o Alle überlappenden, unabhängig ausgelösten Segmente geringer Komplexität anzeigen [dies sind
standardmäßig zusammengeführt].
-q Erzeuge ein Ausgabeformat mit der Sequenz in einem nummerierten Block mit Markierungen zur Unterstützung
Rückstandszählung. Die Segmente mit niedriger Komplexität und hoher Komplexität liegen in den unteren und
Großbuchstaben bzw.
-t [Länge]
Parameter „Maximale Beschnittlänge“ [Default 100]. Dies steuert den Suchraum (und
Suchzeit) bei der Optimierung von Rohsegmenten (siehe ALGORITHMUS oben). Von
Standard, Untersequenzen, die 100 oder mehr Reste kürzer als das Rohsegment sind, werden weggelassen
aus der Suche. Dieser Parameter kann erhöht werden, um eine umfangreichere Suche zu ermöglichen, wenn
Rohsegmente sind länger als 100 Reste.
-x Die Maskierungsoption für Aminosäuresequenzen. Jede Eingabesequenz wird repräsentiert durch a
einzelne Ausgabesequenz im FASTA-Format mit Regionen geringer Komplexität durch Strings ersetzt
von "x"-Zeichen.
Beispiele: OF PARAMETER SETS
Standardparameter werden durch 'ncbi-seg sequence' (entspricht 'ncbi-seg sequence 12
2.2 2.5'). Diese Parameter eignen sich für die Maskierung mit geringer Komplexität vieler Amino
Säuresequenzen [mit Option -x].
Datenbank-Datenbank Vergleiche:
Strengere (niedrigere) Komplexitätsparameter sind geeignet, wenn maskierte Sequenzen
im Vergleich zu maskierten Sequenzen. Zum Beispiel für BLAST- oder FASTA-Suchen, die zwei vergleichen
Aminosäuresequenz-Datenbanken können die folgenden Maskierungen auf beide Datenbanken angewendet werden:
ncbi-seg-Datenbank 12 1.8 2.0 -x
Homopolymer Analyse:
Um alle homopolymeren Untersequenzen der Länge (zum Beispiel) 7 oder größer zu untersuchen:
ncbi-seg-Sequenz 7 0 0
Nicht kugelförmig Regionen of Protein Sequenzen:
Viele lange nicht-globuläre Domänen können bei längeren Fensterlängen diagnostiziert werden, typischerweise:
ncbi-seg-Sequenz 45 3.4 3.75
Für einige kürzere nicht-globuläre Domänen ist der folgende Satz geeignet:
ncbi-seg-Sequenz 25 3.0 3.3
Nukleotid Sequenzen:
Der Maximalwert der Komplexitätsparameter beträgt 2 (log[base 2]4). Zum Maskieren die
Folgendes entspricht in etwa den Standardparametern für Aminosäure
Sequenzen:
ncbi-seg-sequenz.na 21 1.4 1.6
Beispiele:
Das Folgende ist eine Datei namens 'prion' im FASTA-Format:
>PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA
VVGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ILLISFLIFLIVG
Die Befehlszeile:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa
gibt die Standardausgabe unten
>PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
WNTGGSRYPGQGSPGGNRY
ppqggggwgqphgggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 THSQWNKPSKPKTNMKHM
agaaaagavvgglggymlgsams 113-135
136-187 RPIIHFGSDYEDRYYRENMHRYPNQVYYRP
MDEYSNQNNFVHDCVNITIKQH
tvttttkgenftet 188-201
202-236 DVKMMERVVEQMCITQYERESQAYYQRGSS
MVLFS
sppvillisflifliv 237-252
253-253 G
Die Sequenzen niedriger Komplexität sind auf der linken Seite (Kleinbuchstaben) und Sequenzen hoher Komplexität
sind auf der rechten Seite (Großbuchstaben). Alle Sequenzsegmente von links nach rechts gelesen und ihre
Reihenfolge in der Sequenz ist von oben nach unten, wie durch die mittlere Spalte der Reste gezeigt
Zahlen.
Die Befehlszeile:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa -x
gibt die folgende FASTA-formatierte Datei:-
>PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxTHSQWNKPSKPKTNMKHMxxxxxxx
xxxxxxxxxxxxxxxRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxxxxxxxxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
xxxxxxxxxxxxG
Verwenden Sie ncbi-seg online mit den onworks.net-Diensten