sumaclust - Online nel cloud

Esegui sumaclust nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando sumaclust che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Esegui in Ubuntu Corri in Fedora Esegui in Windows Sim Esegui in MACOS Sim

PROGRAMMA:

NOME

sumaclust - clustering stellare di sequenze genetiche

SINOSSI

sommaclusa [opzioni]

DESCRIZIONE

Con lo sviluppo del sequenziamento di nuova generazione, sono necessari strumenti efficienti per gestire
milioni di sequenze in tempi ragionevoli. Sumaclust è un programma sviluppato da
il LEC. Sumaclust mira a raggruppare le sequenze in un modo che sia veloce ed esatto allo stesso tempo
tempo. Questo strumento è stato sviluppato per essere adattato al tipo di dati generati dal DNA
metabarcoding, cioè marcatori brevi interamente sequenziati. Sumalust raggruppa le sequenze usando
lo stesso algoritmo di clustering di UCLUST e CD-HIT. Questo algoritmo è principalmente utile per
rilevare le sequenze "errate" create durante i protocolli di amplificazione e sequenziamento,
derivanti da sequenze 'vere'.

VERSIONI

-h [H]elp - stampa aiuto

-l : La lunghezza della sequenza di riferimento è la più breve.

-L La lunghezza della sequenza di riferimento è la più grande.

-a La lunghezza della sequenza di riferimento è la lunghezza dell'allineamento (impostazione predefinita).

-n Il punteggio è normalizzato dalla lunghezza della sequenza di riferimento (impostazione predefinita).

-r : Punteggio grezzo, non normalizzato.

-d : Il punteggio è espresso in distanza (predefinito : il punteggio è espresso in somiglianza).

-t ##.## : Soglia punteggio per il clustering. Se il punteggio è normalizzato ed espresso in
somiglianza (predefinito),

è un'identità, ad esempio 0.95 per un'identità del 95%. Se il punteggio è normalizzato e
espresso in distanza, è (1.0 - identità), ad esempio 0.05 per un'identità del 95%.
Se il punteggio non è normalizzato ed espresso in similarità, è la lunghezza del
Sottosequenza comune più lunga. Se il punteggio non è normalizzato ed espresso in
distanza, è (lunghezza di riferimento - lunghezza LCS). Solo sequenze con una somiglianza
sopra ##.## con la sequenza centrale di un cluster sono assegnati a quel cluster.
Predefinito: 0.97.

-e Opzione esatta: viene assegnata una sequenza al cluster con la sequenza centrale
presentando il punteggio di somiglianza più alto > soglia, rispetto al valore predefinito
opzione 'veloce' in cui viene assegnata una sequenza al primo cluster trovato con un centro
sequenza che presenta un punteggio > soglia.

-R ## Rapporto massimo tra i conteggi di due sequenze in modo che quella meno abbondante possa
essere considerata una variante di quella più abbondante. Predefinito: 1.0.

-p ## Multithreading con ## thread utilizzando openMP.

-s ####
Ordinamento per ####. Deve essere "Nessuno" per nessun ordinamento o una chiave nell'intestazione fasta di
ogni sequenza, ad eccezione del conteggio che può essere calcolato (predefinito: ordina per
contano).

-o L'ordinamento è in ordine crescente (predefinito: decrescente).

-g le n vengono sostituite con le a (predefinito: le sequenze con n vengono scartate).

-B ### Viene attivato l'output della tabella OTU in formato BIOM e scritto nel file ###.

-O ### L'output della mappa OTU (mappa di osservazione) è attivato e scritto nel file ###.

-F ### L'output in formato FASTA viene scritto nel file ### invece dell'output standard.

-f L'uscita in formato FASTA è disattivata.

Argomento: il set di dati del nucleotide in cluster

Usa sumaclust online utilizzando i servizi onworks.net

<Prec
Succ.>