Questo è il comando ncbi-seg che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
ncbi-seg - sequenza di segmenti per complessità locale
SINOSSI
sequenza ncbi-seg [ W ] [ K(1)] [ K(2) ] [ -x ] [ opzioni ]
DESCRIZIONE
ncbi-seg divide le sequenze in segmenti contrastanti di bassa complessità e alta
complessità. I segmenti a bassa complessità definiti dall'algoritmo rappresentano "sequenze semplici"
o "regioni composizionalmente distorte".
I segmenti a bassa complessità ottimizzati a livello locale sono prodotti a livelli di rigore definiti,
sulla base di definizioni formali di complessità compositiva locale (Wootton & Federhen, 1993).
Le lunghezze dei segmenti e il numero di segmenti per sequenza vengono determinati automaticamente
dall'algoritmo.
L'input è un file di sequenza in formato FASTA o un file di database contenente molti file FASTA-
sequenze formattate. ncbi-seg è sintonizzato per le sequenze di amminoacidi. Per nucleotide
sequenze, vedere ESEMPI DI SET DI PARAMETRI di seguito.
La severità della ricerca di segmenti a bassa complessità è determinata da tre utenti
parametri definiti, lunghezza della finestra di trigger [ W ], complessità del trigger [ K(1) ] ed estensione
complessità [ K(2)] (vedi sotto in PARAMETRI ). Le impostazioni predefinite fornite sono adatte per
mascheramento a bassa complessità delle sequenze di query di ricerca del database [opzione -x richiesta, vedere
sotto].
USCITE E APPLICAZIONI
(1) Sequenza segmentata leggibile [Predefinito]. Regioni di complessità contrastante sono
visualizzato in "formato ad albero". Vedi ESEMPI.
(2) Mascheramento a bassa complessità (vedi Altschul et al, 1994). Produrre un formato mascherato FASTA
file, pronto per l'input come sequenza di query per programmi di ricerca di database come BLAST o
FASTA. Gli amminoacidi nelle regioni a bassa complessità sono sostituiti con caratteri "x" [-x
opzione]. Vedi ESEMPI.
(3) Costruzione della banca dati. Produrre file in formato FASTA contenenti bassa complessità
segmenti [-l opzione], o segmenti ad alta complessità [-h opzione], o entrambi [-a opzione]. Ogni
segmento è una voce di sequenza separata con una riga di intestazione informativa.
ALGORITMO
L'algoritmo SEG ha due fasi. In primo luogo, l'identificazione dei segmenti grezzi approssimativi di
bassa complessità; seconda ottimizzazione locale.
Nella prima fase, il rigore e la risoluzione della ricerca di bassa complessità
segmenti è determinato da W, K(1) e K(2) parametri. Tutte le finestre di trigger sono
definito, comprese le finestre sovrapposte, di lunghezza W e complessità minore o uguale a
K(1). La "complessità" qui è definita dall'equazione (3) di Wootton & Federhen (1993). Ogni
la finestra di trigger viene quindi estesa in un contig in entrambe le direzioni fondendosi con l'estensione
finestre, che sono finestre sovrapposte di lunghezza W e complessità minore o uguale a
K(2). Ogni contig è un segmento grezzo.
Nella seconda fase, ogni segmento grezzo viene ridotto a un singolo ottimale a bassa complessità
segmento, che può essere l'intero segmento grezzo ma di solito è una sottosequenza. L'ottimale
sottosequenza ha il valore più basso della probabilità P(0) (equazione (5) di Wootton &
Federen, 1993).
PARAMETRI
Questi tre parametri numerici sono in ordine obbligatorio dopo il nome del file di sequenza.
Lunghezza della finestra del trigger [ W ]. Un numero intero maggiore di zero [ Predefinito 12 ].
Complessità di attivazione. [ K1 ]. La massima complessità di una finestra di trigger in unità di bit.
K1 deve essere uguale o maggiore di zero. Il valore massimo è 4.322 (log[base 2]20) per
sequenze di amminoacidi [Predefinito 2.2].
Complessità dell'estensione [ K2 ]. La massima complessità di una finestra di estensione in unità di
bit. Solo i valori maggiori di K1 sono efficaci nell'estensione delle finestre attivate. Intervallo di
valori possibili è come per K1 [ Default 2.5 ].
VERSIONI
Le seguenti opzioni possono essere poste in qualsiasi ordine nella riga di comando dopo W, K1 e
Parametri K2:
-a Emette sia segmenti a bassa complessità che ad alta complessità in un file formattato FASTA, come
un insieme di voci separate con righe di intestazione.
-c [caratteri per riga]
Numero di caratteri di sequenza per riga di output [Predefinito 60]. Altri personaggi, come
come numeri di residuo, sono aggiuntivi.
-h Emette solo i segmenti ad alta complessità in un file formattato FASTA, come un insieme di
voci separate con righe di intestazione.
-l Emette solo i segmenti a bassa complessità in un file formattato FASTA, come un insieme di
voci separate con righe di intestazione.
-m [lunghezza]
Lunghezza minima in residui per un segmento ad alta complessità [default 0]. Più corto
i segmenti vengono uniti con segmenti adiacenti a bassa complessità.
-o Mostra tutti i segmenti a bassa complessità sovrapposti, attivati indipendentemente [questi sono
unito per impostazione predefinita].
-q Produce un formato di output con la sequenza in un blocco numerato con segni di aiuto
conteggio dei residui. I segmenti a bassa complessità e ad alta complessità sono a bassa e
caratteri maiuscoli rispettivamente.
-t [lunghezza]
Parametro "Lunghezza massima di taglio" [default 100]. Questo controlla lo spazio di ricerca (e
tempo di ricerca) durante l'ottimizzazione dei segmenti grezzi (vedi ALGORITMO sopra). Di
impostazione predefinita, vengono omesse le sottosequenze 100 o più residui più brevi del segmento grezzo
dalla ricerca. Questo parametro può essere aumentato per dare una ricerca più ampia se
i segmenti grezzi sono più lunghi di 100 residui.
-x L'opzione di mascheramento per le sequenze di amminoacidi. Ogni sequenza di input è rappresentata da a
sequenza di output singola in formato FASTA con regioni a bassa complessità sostituite da stringhe
di "x" caratteri.
ESEMPI OF PARAMETRO SETS
I parametri predefiniti sono dati dalla 'sequenza ncbi-seg' (equivalente alla 'sequenza ncbi-seg 12
2.2 2.5'). Questi parametri sono appropriati per il mascheramento a bassa complessità di molti amino
sequenze acide [con l'opzione -x].
Database-database confronti:
Parametri di complessità più rigorosi (inferiori) sono adatti quando le sequenze mascherate sono
rispetto alle sequenze mascherate. Ad esempio, per le ricerche BLAST o FASTA che confrontano due
database di sequenze di amminoacidi, il seguente mascheramento può essere applicato a entrambi i database:
database ncbi-seg 12 1.8 2.0 -x
omopolimero analisi:
Per esaminare tutte le sottosequenze omopolimeriche di lunghezza (ad esempio) 7 o maggiore:
sequenza ncbi-seg 7 0 0
Non globulare regioni of le proteine sequenze:
Molti domini lunghi non globulari possono essere diagnosticati a lunghezze di finestra maggiori, in genere:
sequenza ncbi-seg 45 3.4 3.75
Per alcuni domini non globulari più brevi, è appropriato il seguente set:
sequenza ncbi-seg 25 3.0 3.3
nucleotide sequenze:
Il valore massimo dei parametri di complessità è 2 (log[base 2]4). Per il mascheramento, il
quanto segue è approssimativamente equivalente in effetti ai parametri predefiniti per l'amminoacido
sequenze:
ncbi-seg sequenza.na 21 1.4 1.6
ESEMPI
Quello che segue è un file chiamato 'prion' in formato FASTA:
>PRIO_PRINCIPALE DELLE PROTEINE DEI PRIONI UMANI PRINCIPALI
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA
VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHTVTTTTKGENFTETDVKMMERVVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ILLISFLIVG
La riga di comando:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa
fornisce l'output standard di seguito
>PRIO_PRINCIPALE DELLE PROTEINE DEI PRIONI UMANI PRINCIPALI
1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
WNTGSRYPGQGSPGGNRY
ppqggggwgqphgggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 THSQWNKPSKPKTNMKHM
agaaaagaavvgglggymlgsams 113-135
136-187 RPIIHFGSDYEDRYYRENMHRYPNQVYYRP
MDEYSNQNNFVHDCVNITIKQH
tvttttkgenftet 188-201
202-236 DVKMMERVVVEQMCITQYERESQAYYQRGSS
MVLFS
sppvillisflifliv 237-252
253-253 G
Le sequenze a bassa complessità sono a sinistra (minuscole) e le sequenze ad alta complessità
sono a destra (maiuscolo). Tutti i segmenti di sequenza letti da sinistra a destra e loro
l'ordine nella sequenza è dall'alto verso il basso, come mostrato dalla colonna centrale del residuo
numeri.
La riga di comando:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa -x
fornisce il seguente file in formato FASTA: -
>PRIO_PRINCIPALE DELLE PROTEINE DEI PRIONI UMANI PRINCIPALI
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYx
xxxxTHSQWNKPSKPKTNMKHMxxx
RPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
xxG
Usa ncbi-seg online utilizzando i servizi onworks.net