To jest polecenie sumaclust, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
sumaklus - gwiazdowe skupienie sekwencji genetycznych
STRESZCZENIE
sumaklus [opcje]
OPIS
Wraz z rozwojem sekwencjonowania nowej generacji potrzebne są wydajne narzędzia
miliony sekwencji w rozsądnych ilościach czasu. Sumaclust to program opracowany przez
LECA. Sumaclust ma na celu grupowanie sekwencji w sposób szybki i jednocześnie dokładny
czas. Narzędzie to zostało opracowane w celu dostosowania do rodzaju danych generowanych przez DNA
metabarkodowanie, czyli całkowicie sekwencjonowane, krótkie znaczniki. Sumaclust grupuje sekwencje za pomocą
ten sam algorytm grupowania co UCLUST i CD-HIT. Algorytm ten jest przydatny głównie do
wykryć „błędne” sekwencje powstałe podczas protokołów amplifikacji i sekwencjonowania,
wywodzące się z „prawdziwych” ciągów.
OPCJE
-h [H]pomoc - wydrukuj pomoc
-l : Długość sekwencji odniesienia jest najkrótsza.
-L Długość sekwencji odniesienia jest największa.
-a Długość sekwencji referencyjnej to długość dopasowania (domyślna).
-n Wynik jest normalizowany według długości sekwencji odniesienia (domyślnie).
-r : Wynik surowy, nie znormalizowany.
-d : Wynik wyrażony jest odległością (domyślnie: wynik wyrażony jest podobieństwem).
-t ##.## : Próg wyniku dla grupowania. Jeśli wynik jest znormalizowany i wyrażony w
podobieństwo (domyślne),
jest to tożsamość, np. 0.95 dla tożsamości 95%. Jeśli wynik jest znormalizowany i
wyrażona odległością, wynosi (1.0 - identyczność), np. 0.05 dla tożsamości 95%.
Jeśli wynik nie jest znormalizowany i wyrażony w podobieństwie, jest to długość
Najdłuższy wspólny podciąg. Jeżeli wynik nie jest znormalizowany i wyrażony w
odległość, to jest (długość odniesienia - długość LCS). Tylko sekwencje z podobieństwem
powyżej ##.## ze środkową sekwencją klastra są przypisane do tego klastra.
Domyślnie: 0.97.
-e Opcja dokładna: Do klastra przypisana jest sekwencja z sekwencją środkową
prezentując najwyższy wynik podobieństwa > próg, w przeciwieństwie do wartości domyślnej
opcja „szybka”, w której sekwencja jest przypisana do pierwszego znalezionego klastra ze środkiem
sekwencja prezentująca wynik > próg.
-R ## Maksymalny stosunek zliczeń dwóch sekwencji, tak aby mogła być mniej liczna
należy uważać za odmianę bardziej obfitej. Wartość domyślna: 1.0.
-p ## Wielowątkowość z ## wątkami przy użyciu openMP.
-s ####
Sortowanie według ####. Musi mieć wartość „Brak” w przypadku braku sortowania lub klucz w nagłówku fasta
każdą sekwencję, z wyjątkiem liczby, którą można obliczyć (domyślnie: sortowanie według
liczyć).
-o Sortowanie odbywa się w kolejności rosnącej (domyślnie: malejąco).
-g n są zastępowane przez a (domyślnie: sekwencje z n są odrzucane).
-B ### Wyjście tabeli OTU w formacie BIOM zostaje aktywowane i zapisane do pliku ###.
-O ### Wyjście mapy OTU (mapy obserwacyjnej) jest aktywowane i zapisane w pliku ###.
-F ### Dane wyjściowe w formacie FASTA są zapisywane do pliku ### zamiast na standardowe wyjście.
-f Wyjście w formacie FASTA jest wyłączone.
Argument: zbiór danych nukleotydów do klastra
Korzystaj z sumaclustu online, korzystając z usług onworks.net