Questo è il comando sim4db che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
sim4db - allineamento batch di sequenze di cDNA a un genoma target
SINOSSI
Una semplice invocazione da riga di comando:
sim4db -genomic g.fasta -cdna c.fasta -scr script -output o.sim4db
dove:
- 'c.fasta' e 'g.fasta' sono i file di sequenza del genoma e del cDNA multi-fasta
- 'script' è un file di script che indica i singoli allineamenti da calcolare
- l'output in formato sim4db verrà inviato al file 'o.sim4db' ('-' per output standard)
Un'invocazione più complessa:
sim4db -genomic g.fasta -cdna c.fasta -output o.sim4db [opzioni]
DESCRIZIONE
sim4db esegue un rapido allineamento batch di grandi set di sequenze di cDNA (EST, mRNA) su un set di
regioni genomiche eucariotiche. Utilizza gli algoritmi sim4 e sim4cc per determinare il file
allineamenti, ma incorpora un meccanismo di indicizzazione e recupero di sequenze veloci, implementato
nel pacchetto gemello foglia(1), per elaborare rapidamente grandi volumi di sequenze.
Mentre sim4db produce allineamenti allo stesso modo di sim4 o sim4cc, ha ulteriori
funzionalità per renderlo più utilizzabile con pipeline di annotazione dell'intero genoma. Un copione
il file può essere utilizzato per raggruppare accoppiamenti tra cDNA e le loro corrispondenti regioni genomiche,
da allineare come un'unica esecuzione e utilizzando lo stesso set di parametri. Opzionalmente anche Sim4db
riporta più di un allineamento per lo stesso cDNA all'interno di una regione genomica, purché essi
soddisfare i criteri definiti dall'utente come la lunghezza minima, l'identità della sequenza percentuale o
copertura. Questa caratteristica è determinante per trovare tutti gli allineamenti di una famiglia di geni in uno
luogo. Infine, l'output viene presentato come allineamenti sim4db personalizzati o come gene GFF3
caratteristiche.
VERSIONI
Opzioni salienti:
-cdna utilizza queste sequenze di cDNA (file multi-fasta)
-genomic utilizza queste sequenze genomiche (file multi-fasta)
-script usa questo file di script
-pairwise allinea sequenzialmente coppie di sequenze
Se nessuna delle opzioni '-script' e '-pairwise'
è specificato, sim4db esegue tutti contro tutti
allineamenti tra coppie di cDNA e sequenze genomiche.
-output scrive l'output in questo file
-gff3 riporta l'output in formato GFF3
-interspecie usa sim4cc per allineamenti inter-specie (predefinito sim4)
Opzioni di filtro:
-mincoverage trova iterativamente tutti i modelli di esoni con il valore specificato
COPERTURA PERCENTUALE minima
-minidentity trova iterativamente tutti i modelli di esoni con il valore specificato
PERCENTUALE minima IDENTITÀ ESONE
-minlength trova iterativamente tutti i modelli di esoni con il valore specificato
COPERTURA ASSOLUTA minima (numero di bp abbinati)
(predefinito 0)
-riporta sempre sempre rapporto modelli di esoni, anche se
sono al di sotto delle soglie di qualità
Solo se non viene fornita alcuna copertura minima, miniidentità o lunghezza minima
viene restituito il miglior modello di esone. Questa è l'operazione PREDEFINITA.
Probabilmente vorrai specificare TUTTI e TRE i livelli di copertura minima,
miniidentità e minlunghezza! Non assumere i valori predefiniti
sono quello che vuoi!
Sicuramente vorrai specificare almeno uno tra mincoverage,
miniidentità e minlength con semprereport! Se non lo fai,
la copertura minima sarà impostata su 90 e la miniidentità su 95, per ridurla
il numero di corrispondenze spurie quando viene trovata una buona corrispondenza.
Opzioni ausiliarie:
-nodeflines non include la definizione nell'output di sim4db
-alignments stampa gli allineamenti
-i polytail NON mascherano le code poly-A e poly-T
-tagliare gli esoni marginali se A/T % > x (code poli-AT)
-noncanonical non forza i siti di giunzione canonici
-splicemodel utilizza il seguente modello di giunzione: 0 - sim4 originale;
1 - GeneSplicer; 2 - Barlume; le opzioni 1 e 2 sono
disponibile solo con '-interspecies'.
Il valore predefinito per sim4 è 0 e per sim4cc è 1.
-forcestrand Forza la previsione del filo ad essere sempre
uno tra "avanti" o "indietro"
Opzioni di esecuzione:
-threads Utilizza n thread.
-touch crea questo file quando il programma termina l'esecuzione
Opzioni di debug:
-v stampa lo stato su stderr durante l'esecuzione
-V stampa le righe dello script (stderr) mentre vengono elaborate
Opzioni dello sviluppatore:
-Z imposta il modello di semina distanziato
-H imposta il fattore di peso del ricollegamento (H=1000 consigliato per gli mRNA)
-K imposta la prima soglia MSP
-C imposta la seconda soglia MSP
-Ma impostare il limite del numero di MSP consentiti
-Mp stesso, come percentuale di basi nel cDNA
NOTA: Se utilizzati, devono essere specificati sia -Ma che -Mp!
Utilizza sim4db online utilizzando i servizi onworks.net