Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 sumaclust 명령입니다.
프로그램:
이름
sumaclust - 유전자 서열의 스타 클러스터링
개요
수마클러스트 [옵션]
기술
차세대 시퀀싱의 개발로 효율적인 도구가 필요합니다.
합리적인 시간 동안 수백만 개의 시퀀스. Sumaclust는 에서 개발한 프로그램입니다.
레카. Sumaclust는 동시에 빠르고 정확한 방식으로 시퀀스를 클러스터링하는 것을 목표로 합니다.
시간. 이 도구는 DNA에 의해 생성된 데이터 유형에 맞게 개발되었습니다.
메타바코딩, 즉 완전히 시퀀싱된 짧은 마커. Sumaclust는 다음을 사용하여 시퀀스를 클러스터링합니다.
UCLUST 및 CD-HIT와 동일한 클러스터링 알고리즘. 이 알고리즘은 주로 다음에 유용합니다.
증폭 및 시퀀싱 프로토콜 중에 생성된 '잘못된' 시퀀스 감지,
'true' 시퀀스에서 파생됩니다.
옵션
-h [H]도움말 - 인쇄 돕다
-l : 참조 시퀀스 길이가 가장 짧습니다.
-L 참조 시퀀스 길이가 가장 깁니다.
-a 참조 시퀀스 길이는 정렬 길이(기본값)입니다.
-n 점수는 참조 시퀀스 길이(기본값)로 정규화됩니다.
-r : 정규화되지 않은 원시 점수입니다.
-d : 점수는 거리로 표현됩니다. (default : 점수는 유사도로 표현됩니다.)
-t ##.## : 클러스터링에 대한 점수 임계값입니다. 점수를 정규화하여 다음과 같이 표현하면
유사성(기본값),
그것은 동일성입니다. 예를 들어 0.95%의 동일성을 위한 95입니다. 점수가 정규화되면
거리로 표현하면 (1.0 - 동일성), 예를 들어 동일성이 0.05%인 경우 95입니다.
점수가 정규화되지 않고 유사도로 표현되는 경우 해당 점수의 길이입니다.
가장 긴 공통 부분 수열. 점수가 정규화되지 않고
거리, 그것은 (기준 길이 - LCS 길이)입니다. 유사성이 있는 시퀀스만
클러스터의 중심 시퀀스가 있는 ##.## 위의 클러스터가 해당 클러스터에 할당됩니다.
기본값 : 0.97.
-e 정확한 옵션: 중앙 시퀀스가 있는 클러스터에 시퀀스가 할당됩니다.
기본값과 달리 가장 높은 유사성 점수 > 임계값 제시
중심이 있는 첫 번째 클러스터에 시퀀스가 할당되는 '빠른' 옵션
점수 > 임계값을 제시하는 시퀀스.
-R ## 두 시퀀스의 카운트 사이의 최대 비율로 덜 풍부한 시퀀스가
더 풍부한 것의 변종으로 간주됩니다. 기본값: 1.0.
-p ## openMP를 사용하는 ## 스레드가 있는 멀티스레딩.
-s ####
####순으로 정렬합니다. 정렬하지 않으려면 'None'이거나 fasta 헤더의 키여야 합니다.
계산할 수 있는 개수를 제외한 각 시퀀스(기본값: 정렬 기준
세다).
-o 정렬은 오름차순(기본값: 내림차순)입니다.
-g n은 a로 대체됩니다(기본값: n이 있는 시퀀스는 버려짐).
-B ### BIOM 형식의 OTU 테이블 출력이 활성화되고 ### 파일에 기록됩니다.
-O ### OTU 지도(관측 지도)의 출력이 활성화되고 ### 파일에 기록됩니다.
-F ### FASTA 형식의 출력은 표준 출력 대신 ### 파일에 기록됩니다.
-f FASTA 형식의 출력이 비활성화됩니다.
인수: 클러스터링할 뉴클레오티드 데이터 세트
onworks.net 서비스를 사용하여 온라인에서 sumaclust 사용