Ito ang command sumaclust na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
sumaclust - star clustering ng mga genetic sequence
SINOPSIS
sumaclust [mga pagpipilian]
DESCRIPTION
Sa pagbuo ng susunod na henerasyong pagkakasunud-sunod, ang mga mahusay na tool ay kailangan upang mahawakan
milyun-milyong sequence sa makatwirang tagal ng panahon. Ang Sumaclust ay isang programa na binuo ni
ang LECA. Nilalayon ng Sumaclust na i-cluster ang mga sequence sa paraang mabilis at eksakto sa parehong paraan
oras. Ang tool na ito ay binuo upang iakma sa uri ng data na nabuo ng DNA
metabarcoding, ibig sabihin, ganap na sequenced, maikling marker. Sumaclust cluster sequences gamit
ang parehong clustering algorithm bilang UCLUST at CD- HIT. Ang algorithm na ito ay pangunahing kapaki-pakinabang sa
tuklasin ang 'mali-mali' na mga sequence na nilikha sa panahon ng amplification at sequencing protocol,
nagmula sa mga 'totoong' sequence.
Opsyon
-h [H]tulong - i-print tulong
-l : Ang haba ng pagkakasunud-sunod ng sanggunian ay ang pinakamaikling.
-L Ang haba ng pagkakasunud-sunod ng sanggunian ay ang pinakamalaki.
-a Ang haba ng sequence ng sanggunian ay ang haba ng pagkakahanay (default).
-n Na-normalize ang marka ayon sa haba ng pagkakasunud-sunod ng sanggunian (default).
-r : Raw score, hindi na-normalize.
-d : Ang marka ay ipinahayag sa layo (default : ang marka ay ipinahayag sa pagkakatulad).
-t ##.## : Threshold ng marka para sa clustering. Kung ang marka ay na-normalize at ipinahayag sa
pagkakatulad (default),
ito ay isang pagkakakilanlan, hal 0.95 para sa isang pagkakakilanlan ng 95%. Kung ang iskor ay normalized at
ipinahayag sa distansya, ito ay (1.0 - pagkakakilanlan), hal 0.05 para sa isang pagkakakilanlan ng 95%.
Kung ang marka ay hindi na-normalize at ipinahayag sa pagkakatulad, ito ay ang haba ng
Pinakamahabang Karaniwang Kasunod. Kung ang marka ay hindi na-normalize at ipinahayag sa
distansya, ito ay (haba ng sanggunian - haba ng LCS). Mga sequence lang na may pagkakatulad
sa itaas ##.## na may center sequence ng isang cluster ay nakatalaga sa cluster na iyon.
Default: 0.97.
-e Eksaktong opsyon: May nakatalagang sequence sa cluster na may center sequence
ipinapakita ang pinakamataas na marka ng pagkakatulad > threshold, kumpara sa default
'mabilis' na opsyon kung saan nakatalaga ang isang sequence sa unang cluster na natagpuan na may center
sequence na nagpapakita ng score > threshold.
-R ## Pinakamataas na ratio sa pagitan ng mga bilang ng dalawang pagkakasunud-sunod upang ang hindi gaanong sagana ay maaari
ituring bilang isang variant ng mas masagana. Default: 1.0.
-p ## Multithreading na may ## thread gamit ang openMP.
-s ####
Pag-uuri ayon sa ####. Dapat ay 'Wala' para walang pag-uuri, o isang susi sa fasta header ng
bawat sequence, maliban sa bilang na maaaring kalkulahin (default: pag-uuri ayon sa
bilangin).
-o Ang pag-uuri ay nasa pataas na pagkakasunud-sunod (default : pababang).
-g Ang mga n ay pinalitan ng mga a (default: ang mga pagkakasunud-sunod na may mga n ay itinatapon).
-B ### Ang output ng talahanayan ng OTU sa BIOM na format ay isinaaktibo, at nakasulat sa file ###.
-O ### Ang output ng OTU map (observation map) ay isinaaktibo, at nakasulat sa file ###.
-F ### Ang output sa FASTA na format ay isinulat sa file ### sa halip na karaniwang output.
-f Na-deactivate ang output sa FASTA na format.
Argument: ang nucleotide dataset sa cluster
Gumamit ng sumaclust online gamit ang mga serbisyo ng onworks.net