EnglishFranceseSpagnolo

Favicon di OnWorks

ncbi-seg - Online nel cloud

Esegui ncbi-seg nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando ncbi-seg che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


ncbi-seg - sequenza di segmenti per complessità locale

SINOSSI


sequenza ncbi-seg [ W ] [ K(1)] [ K(2) ] [ -x ] [ opzioni ]

DESCRIZIONE


ncbi-seg divide le sequenze in segmenti contrastanti di bassa complessità e alta
complessità. I segmenti a bassa complessità definiti dall'algoritmo rappresentano "sequenze semplici"
o "regioni composizionalmente distorte".

I segmenti a bassa complessità ottimizzati a livello locale sono prodotti a livelli di rigore definiti,
sulla base di definizioni formali di complessità compositiva locale (Wootton & Federhen, 1993).
Le lunghezze dei segmenti e il numero di segmenti per sequenza vengono determinati automaticamente
dall'algoritmo.

L'input è un file di sequenza in formato FASTA o un file di database contenente molti file FASTA-
sequenze formattate. ncbi-seg è sintonizzato per le sequenze di amminoacidi. Per nucleotide
sequenze, vedere ESEMPI DI SET DI PARAMETRI di seguito.

La severità della ricerca di segmenti a bassa complessità è determinata da tre utenti
parametri definiti, lunghezza della finestra di trigger [ W ], complessità del trigger [ K(1) ] ed estensione
complessità [ K(2)] (vedi sotto in PARAMETRI ). Le impostazioni predefinite fornite sono adatte per
mascheramento a bassa complessità delle sequenze di query di ricerca del database [opzione -x richiesta, vedere
sotto].

USCITE E APPLICAZIONI


(1) Sequenza segmentata leggibile [Predefinito]. Regioni di complessità contrastante sono
visualizzato in "formato ad albero". Vedi ESEMPI.

(2) Mascheramento a bassa complessità (vedi Altschul et al, 1994). Produrre un formato mascherato FASTA
file, pronto per l'input come sequenza di query per programmi di ricerca di database come BLAST o
FASTA. Gli amminoacidi nelle regioni a bassa complessità sono sostituiti con caratteri "x" [-x
opzione]. Vedi ESEMPI.

(3) Costruzione della banca dati. Produrre file in formato FASTA contenenti bassa complessità
segmenti [-l opzione], o segmenti ad alta complessità [-h opzione], o entrambi [-a opzione]. Ogni
segmento è una voce di sequenza separata con una riga di intestazione informativa.

ALGORITMO


L'algoritmo SEG ha due fasi. In primo luogo, l'identificazione dei segmenti grezzi approssimativi di
bassa complessità; seconda ottimizzazione locale.

Nella prima fase, il rigore e la risoluzione della ricerca di bassa complessità
segmenti è determinato da W, K(1) e K(2) parametri. Tutte le finestre di trigger sono
definito, comprese le finestre sovrapposte, di lunghezza W e complessità minore o uguale a
K(1). La "complessità" qui è definita dall'equazione (3) di Wootton & Federhen (1993). Ogni
la finestra di trigger viene quindi estesa in un contig in entrambe le direzioni fondendosi con l'estensione
finestre, che sono finestre sovrapposte di lunghezza W e complessità minore o uguale a
K(2). Ogni contig è un segmento grezzo.

Nella seconda fase, ogni segmento grezzo viene ridotto a un singolo ottimale a bassa complessità
segmento, che può essere l'intero segmento grezzo ma di solito è una sottosequenza. L'ottimale
sottosequenza ha il valore più basso della probabilità P(0) (equazione (5) di Wootton &
Federen, 1993).

PARAMETRI


Questi tre parametri numerici sono in ordine obbligatorio dopo il nome del file di sequenza.

Lunghezza della finestra del trigger [ W ]. Un numero intero maggiore di zero [ Predefinito 12 ].

Complessità di attivazione. [ K1 ]. La massima complessità di una finestra di trigger in unità di bit.
K1 deve essere uguale o maggiore di zero. Il valore massimo è 4.322 (log[base 2]20) per
sequenze di amminoacidi [Predefinito 2.2].

Complessità dell'estensione [ K2 ]. La massima complessità di una finestra di estensione in unità di
bit. Solo i valori maggiori di K1 sono efficaci nell'estensione delle finestre attivate. Intervallo di
valori possibili è come per K1 [ Default 2.5 ].

VERSIONI


Le seguenti opzioni possono essere poste in qualsiasi ordine nella riga di comando dopo W, K1 e
Parametri K2:

-a Emette sia segmenti a bassa complessità che ad alta complessità in un file formattato FASTA, come
un insieme di voci separate con righe di intestazione.

-c [caratteri per riga]
Numero di caratteri di sequenza per riga di output [Predefinito 60]. Altri personaggi, come
come numeri di residuo, sono aggiuntivi.

-h Emette solo i segmenti ad alta complessità in un file formattato FASTA, come un insieme di
voci separate con righe di intestazione.

-l Emette solo i segmenti a bassa complessità in un file formattato FASTA, come un insieme di
voci separate con righe di intestazione.

-m [lunghezza]
Lunghezza minima in residui per un segmento ad alta complessità [default 0]. Più corto
i segmenti vengono uniti con segmenti adiacenti a bassa complessità.

-o Mostra tutti i segmenti a bassa complessità sovrapposti, attivati ​​indipendentemente [questi sono
unito per impostazione predefinita].

-q Produce un formato di output con la sequenza in un blocco numerato con segni di aiuto
conteggio dei residui. I segmenti a bassa complessità e ad alta complessità sono a bassa e
caratteri maiuscoli rispettivamente.

-t [lunghezza]
Parametro "Lunghezza massima di taglio" [default 100]. Questo controlla lo spazio di ricerca (e
tempo di ricerca) durante l'ottimizzazione dei segmenti grezzi (vedi ALGORITMO sopra). Di
impostazione predefinita, vengono omesse le sottosequenze 100 o più residui più brevi del segmento grezzo
dalla ricerca. Questo parametro può essere aumentato per dare una ricerca più ampia se
i segmenti grezzi sono più lunghi di 100 residui.

-x L'opzione di mascheramento per le sequenze di amminoacidi. Ogni sequenza di input è rappresentata da a
sequenza di output singola in formato FASTA con regioni a bassa complessità sostituite da stringhe
di "x" caratteri.

ESEMPI OF PARAMETRO SETS


I parametri predefiniti sono dati dalla 'sequenza ncbi-seg' (equivalente alla 'sequenza ncbi-seg 12
2.2 2.5'). Questi parametri sono appropriati per il mascheramento a bassa complessità di molti amino
sequenze acide [con l'opzione -x].

Database-database confronti:
Parametri di complessità più rigorosi (inferiori) sono adatti quando le sequenze mascherate sono
rispetto alle sequenze mascherate. Ad esempio, per le ricerche BLAST o FASTA che confrontano due
database di sequenze di amminoacidi, il seguente mascheramento può essere applicato a entrambi i database:

database ncbi-seg 12 1.8 2.0 -x

omopolimero analisi:
Per esaminare tutte le sottosequenze omopolimeriche di lunghezza (ad esempio) 7 o maggiore:

sequenza ncbi-seg 7 0 0

Non globulare regioni of le proteine sequenze:
Molti domini lunghi non globulari possono essere diagnosticati a lunghezze di finestra maggiori, in genere:

sequenza ncbi-seg 45 3.4 3.75

Per alcuni domini non globulari più brevi, è appropriato il seguente set:

sequenza ncbi-seg 25 3.0 3.3

nucleotide sequenze:
Il valore massimo dei parametri di complessità è 2 (log[base 2]4). Per il mascheramento, il
quanto segue è approssimativamente equivalente in effetti ai parametri predefiniti per l'amminoacido
sequenze:

ncbi-seg sequenza.na 21 1.4 1.6

ESEMPI


Quello che segue è un file chiamato 'prion' in formato FASTA:

>PRIO_PRINCIPALE DELLE PROTEINE DEI PRIONI UMANI PRINCIPALI
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA
VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHTVTTTTKGENFTETDVKMMERVVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ILLISFLIVG

La riga di comando:

ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa

fornisce l'output standard di seguito

>PRIO_PRINCIPALE DELLE PROTEINE DEI PRIONI UMANI PRINCIPALI

1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
WNTGSRYPGQGSPGGNRY
ppqggggwgqphgggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 THSQWNKPSKPKTNMKHM
agaaaagaavvgglggymlgsams 113-135
136-187 RPIIHFGSDYEDRYYRENMHRYPNQVYYRP
MDEYSNQNNFVHDCVNITIKQH
tvttttkgenftet 188-201
202-236 DVKMMERVVVEQMCITQYERESQAYYQRGSS
MVLFS
sppvillisflifliv 237-252
253-253 G

Le sequenze a bassa complessità sono a sinistra (minuscole) e le sequenze ad alta complessità
sono a destra (maiuscolo). Tutti i segmenti di sequenza letti da sinistra a destra e loro
l'ordine nella sequenza è dall'alto verso il basso, come mostrato dalla colonna centrale del residuo
numeri.

La riga di comando:

ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa -x

fornisce il seguente file in formato FASTA: -

>PRIO_PRINCIPALE DELLE PROTEINE DEI PRIONI UMANI PRINCIPALI
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYx
xxxxTHSQWNKPSKPKTNMKHMxxx
RPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
xxG

Usa ncbi-seg online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

Comandi Linux

Ad