Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 cdhit 명령입니다.
프로그램:
이름
cdhit - 신속하게 시퀀스 그룹화
개요
CDHIT [옵션 ]
기술
====== CD-HIT 버전 4.6(23년 2016월 XNUMX일 빌드) ======
옵션
-i fasta 형식의 파일 이름 입력, 필수
-o 출력 파일 이름, 필수
-c 시퀀스 식별 임계값, 기본 0.9 이것은 기본 cd-hit의 "글로벌
서열 동일성"은 다음과 같이 계산됨: 정렬된 동일한 아미노산의 수
더 짧은 시퀀스의 전체 길이로 나눈 값
-G 전역 시퀀스 ID를 사용하고 1으로 설정된 경우 기본값 0을 사용하고 로컬 시퀀스를 사용합니다.
동일성, 다음과 같이 계산됨: 정렬된 동일한 아미노산의 수를 로 나눈 값
정렬의 길이 참고!!! 사용하지 마십시오 -G 정렬을 사용하지 않는 한 0
적용 범위 제어 옵션 참조 -알, -알, -같이, -같이
-b band_width 정렬, 기본값 20
-M 프로그램의 메모리 제한(MB), 기본값은 800입니다. 무제한의 경우 0,
-T 스레드 수, 기본값은 1입니다. 0이면 모든 CPU가 사용됩니다.
-n word_length, 기본값 5, 선택에 대한 사용자 가이드 참조
-l throw_away_sequences의 길이, 기본값 10
-t 중복 허용 오차, 기본값 2
-d .clstr 파일의 설명 길이, 20으로 설정하면 기본값 0, fasta 소요
정의하고 첫 번째 공간에서 멈춤
-s 길이 차이 컷오프, 0.0로 설정된 경우 기본값 0.9, 더 짧은 시퀀스는
클러스터 대표 길이의 90% 이상이어야 합니다.
-S 아미노산의 길이 차이 컷오프, 999999으로 설정된 경우 기본값 60, 길이
더 짧은 시퀀스와 클러스터의 대표자 간의 차이는
60보다 크지 않다
-알 더 긴 시퀀스에 대한 정렬 적용 범위, 0.0로 설정된 경우 기본값 0.9,
정렬은 시퀀스의 90%를 커버해야 합니다.
-알 더 긴 시퀀스에 대한 정렬 적용 범위 제어, 99999999으로 설정된 경우 기본값 60,
시퀀스의 길이가 400이면 정렬은 >= 340(400-60)이어야 합니다.
잔류 물
-같이 더 짧은 시퀀스에 대한 정렬 적용 범위, 0.0로 설정된 경우 기본값 0.9,
정렬은 시퀀스의 90%를 커버해야 합니다.
-같이 더 짧은 시퀀스에 대한 정렬 적용 범위 제어, 99999999으로 설정된 경우 기본값 60,
시퀀스의 길이가 400이면 정렬은 >= 340(400-60)이어야 합니다.
잔류 물
-A 두 시퀀스에 대한 최소 정렬 적용 범위 제어, 기본 0 정렬은 반드시
커버 >= 두 시퀀스에 대한 이 값
-uL 더 긴 시퀀스에 대한 일치하지 않는 최대 백분율, 1.0로 설정된 경우 기본값 0.1,
일치하지 않는 영역(선행 및 후행 간격 제외)은 10%를 넘지 않아야 합니다.
순서의
-우리를 더 짧은 시퀀스에 대한 일치하지 않는 최대 백분율, 1.0로 설정된 경우 기본값 0.1,
일치하지 않는 영역(선행 및 후행 간격 제외)은 10%를 넘지 않아야 합니다.
순서의
-U 일치하지 않는 최대 길이, 기본값 99999999 10으로 설정하면 일치하지 않는 영역
(선행 및 후행 공백 제외) 10개 염기를 초과해서는 안 됩니다.
-B 1 또는 0, 기본값 0, 기본적으로 시퀀스는 1로 설정된 경우 RAM에 저장됩니다. 시퀀스
하드 드라이브에 저장되어 사용하는 것이 좋습니다. -B 1 거대한 데이터베이스용
-p 1 또는 0, 0로 설정된 경우 기본값 1, .clstr 파일에서 정렬 겹침 인쇄
-g 1 또는 0, cd-hit의 기본 알고리즘에 의한 기본값 0, 시퀀스는 다음으로 클러스터링됩니다.
임계값을 충족하는 첫 번째 클러스터(빠른 클러스터). 1로 설정하면 프로그램은
임계값을 충족하는 가장 유사한 클러스터로 클러스터링합니다(정확하지만 느린
모드) 그러나 1 또는 0은 최종 클러스터의 대표자를 변경하지 않습니다.
-박 백업 클러스터 파일 쓰기(1 또는 0, 기본값 0)
-h 이 도움말 인쇄
질문, 버그, Limin Fu에 문의 [이메일 보호], 또는 Weizhong Li의 [이메일 보호]
업데이트된 버전 및 정보를 보려면 다음을 방문하십시오. http://cd-hit.org
cd-hit 웹 서버는 다음에서 사용할 수도 있습니다. http://cd-hit.org
cd-hit이 유용하다고 생각되면 다음을 인용하십시오.
"대형 단백질의 크기를 줄이기 위한 고도로 상동성인 서열의 클러스터링
데이터베이스", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. 생물정보학, (2001)
17:282-283 "일부 중복성을 허용하면 대규모 클러스터링 속도가 상당히 빨라집니다.
단백질 데이터베이스", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. 생물 정보학,
(2002) 18:77-82
onworks.net 서비스를 사용하여 온라인으로 cdhit 사용