Questo è il comando sumaclust che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
sumaclust - clustering stellare di sequenze genetiche
SINOSSI
sommaclusa [opzioni]
DESCRIZIONE
Con lo sviluppo del sequenziamento di nuova generazione, sono necessari strumenti efficienti per gestire
milioni di sequenze in tempi ragionevoli. Sumaclust è un programma sviluppato da
il LEC. Sumaclust mira a raggruppare le sequenze in un modo che sia veloce ed esatto allo stesso tempo
tempo. Questo strumento è stato sviluppato per essere adattato al tipo di dati generati dal DNA
metabarcoding, cioè marcatori brevi interamente sequenziati. Sumalust raggruppa le sequenze usando
lo stesso algoritmo di clustering di UCLUST e CD-HIT. Questo algoritmo è principalmente utile per
rilevare le sequenze "errate" create durante i protocolli di amplificazione e sequenziamento,
derivanti da sequenze 'vere'.
VERSIONI
-h [H]elp - stampa aiuto
-l : La lunghezza della sequenza di riferimento è la più breve.
-L La lunghezza della sequenza di riferimento è la più grande.
-a La lunghezza della sequenza di riferimento è la lunghezza dell'allineamento (impostazione predefinita).
-n Il punteggio è normalizzato dalla lunghezza della sequenza di riferimento (impostazione predefinita).
-r : Punteggio grezzo, non normalizzato.
-d : Il punteggio è espresso in distanza (predefinito : il punteggio è espresso in somiglianza).
-t ##.## : Soglia punteggio per il clustering. Se il punteggio è normalizzato ed espresso in
somiglianza (predefinito),
è un'identità, ad esempio 0.95 per un'identità del 95%. Se il punteggio è normalizzato e
espresso in distanza, è (1.0 - identità), ad esempio 0.05 per un'identità del 95%.
Se il punteggio non è normalizzato ed espresso in similarità, è la lunghezza del
Sottosequenza comune più lunga. Se il punteggio non è normalizzato ed espresso in
distanza, è (lunghezza di riferimento - lunghezza LCS). Solo sequenze con una somiglianza
sopra ##.## con la sequenza centrale di un cluster sono assegnati a quel cluster.
Predefinito: 0.97.
-e Opzione esatta: viene assegnata una sequenza al cluster con la sequenza centrale
presentando il punteggio di somiglianza più alto > soglia, rispetto al valore predefinito
opzione 'veloce' in cui viene assegnata una sequenza al primo cluster trovato con un centro
sequenza che presenta un punteggio > soglia.
-R ## Rapporto massimo tra i conteggi di due sequenze in modo che quella meno abbondante possa
essere considerata una variante di quella più abbondante. Predefinito: 1.0.
-p ## Multithreading con ## thread utilizzando openMP.
-s ####
Ordinamento per ####. Deve essere "Nessuno" per nessun ordinamento o una chiave nell'intestazione fasta di
ogni sequenza, ad eccezione del conteggio che può essere calcolato (predefinito: ordina per
contano).
-o L'ordinamento è in ordine crescente (predefinito: decrescente).
-g le n vengono sostituite con le a (predefinito: le sequenze con n vengono scartate).
-B ### Viene attivato l'output della tabella OTU in formato BIOM e scritto nel file ###.
-O ### L'output della mappa OTU (mappa di osservazione) è attivato e scritto nel file ###.
-F ### L'output in formato FASTA viene scritto nel file ### invece dell'output standard.
-f L'uscita in formato FASTA è disattivata.
Argomento: il set di dati del nucleotide in cluster
Usa sumaclust online utilizzando i servizi onworks.net