Это команда cdhit-est-2d, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
cdhit-est-2d - запустить алгоритм CD-HIT для последовательностей РНК / ДНК в формате db1 или db2
СИНТАКСИС
cdhit-est-2d [Возможности]
ОПИСАНИЕ
====== CD-HIT версии 4.6 (от 23 января 2016 г.) ======
Возможности
-i входное имя файла для db1 в формате fasta, обязательно
-i2 входное имя файла для db2 в формате fasta, обязательно
-o имя выходного файла, обязательно
-c порог идентификации последовательности, по умолчанию 0.9, это глобальный
идентичность последовательности "рассчитывается как: количество идентичных аминокислот в выравнивании
делится на полную длину более короткой последовательности
-G использовать идентификатор глобальной последовательности, по умолчанию 1, если установлено значение 0, затем использовать локальную последовательность
идентичность, рассчитываемая как: количество идентичных аминокислот в выравнивании, деленное на
длина расклада ВНИМАНИЕ !!! не использовать -G 0, если вы не используете выравнивание
контроль покрытия см. варианты -аЛ, -АЛ, -в качестве, -В КАЧЕСТВЕ
-b band_width of alignment, по умолчанию 20
-M ограничение памяти (в МБ) для программы, по умолчанию 800; 0 для неограниченного;
-T количество потоков, по умолчанию 1; с 0 будут использоваться все процессоры
-n word_length, по умолчанию 10, см. руководство пользователя для выбора
-l длина throw_away_sequences, по умолчанию 10
-d длина описания в файле .clstr, по умолчанию 20, если установлено 0, требуется фаста
defline и останавливается на первом пробеле
-s отсечка разницы в длине, по умолчанию 0.0, если установлено значение 0.9, более короткие последовательности должны
быть не менее 90% длины представителя кластера
-S отсечка разницы в длине в аминокислоте, по умолчанию 999999, если установлено 60, длина
разница между более короткими последовательностями и представителем кластера может
не быть больше 60
-s2 отсечка разницы в длине для db1, по умолчанию 1.0, по умолчанию seqs в db1> = seqs в
db2 в том же кластере, если установлено в 0.9, seqs в db1 могут только> = 90% seqs в db2
-S2 отсечка разницы в длине, по умолчанию 0, seqs в db1> = seqs в db2 в a
тот же кластер, если установлено значение 60, seqs в db2 могут на 60aa длиннее, чем seqs в db1
-аЛ охват выравнивания для более длинной последовательности, по умолчанию 0.0, если установлено значение 0.9,
выравнивание должно охватывать 90% последовательности
-АЛ контроль покрытия выравнивания для более длинной последовательности, по умолчанию 99999999, если установлено значение 60,
и длина последовательности 400, тогда выравнивание должно быть> = 340 (400-60)
остатки
-в качестве охват выравнивания для более короткой последовательности, по умолчанию 0.0, если установлено значение 0.9,
выравнивание должно охватывать 90% последовательности
-В КАЧЕСТВЕ контроль покрытия выравнивания для более короткой последовательности, по умолчанию 99999999, если установлено значение 60,
и длина последовательности 400, тогда выравнивание должно быть> = 340 (400-60)
остатки
-A минимальный контроль покрытия выравнивания для обеих последовательностей, выравнивание по умолчанию 0 должно
cover> = это значение для обеих последовательностей
-uL максимальный процент несоответствий для более длинной последовательности, по умолчанию 1.0, если установлено на 0.1,
несогласованная область (исключая ведущие и хвостовые промежутки) не должна превышать 10%
последовательности
-нас максимальный процент несоответствий для более короткой последовательности, по умолчанию 1.0, если установлено на 0.1,
несогласованная область (исключая ведущие и хвостовые промежутки) не должна превышать 10%
последовательности
-U максимальная несопоставленная длина, по умолчанию 99999999, если установлено 10, несогласованная область
(без учета ведущего и хвостового зазоров) не более 10 баз.
-B 1 или 0, по умолчанию 0, по умолчанию последовательности сохраняются в ОЗУ, если установлено 1, последовательность
хранятся на жестком диске, рекомендуется использовать -B 1 для огромных баз данных
-p 1 или 0, по умолчанию 0, если установлено 1, выравнивание печати перекрывается в файле .clstr
-g 1 или 0, по умолчанию 0 алгоритмом по умолчанию cd-hit, последовательность кластеризуется в
первый кластер, соответствующий порогу (быстрый кластер). Если установлено значение 1, программа будет
сгруппируйте его в наиболее похожий кластер, который соответствует пороговому значению (точный, но медленный
mode), но ни 1, ни 0 не изменят представителей конечных кластеров
-r 1 или 0, по умолчанию 1, по умолчанию выполняется выравнивание + / + и +/-, если установлено значение 0, только + / +
выравнивание прядей
-маска маскирующие буквы (например, -маска NX, чтобы замаскировать как 'N', так и 'X')
-соответствие оценка соответствия, по умолчанию 2 (1 для TU и NN)
-несоответствие
оценка несовпадения, по умолчанию -2
-зазор начальный счет разрыва, по умолчанию -6
-пробел-ext
оценка расширения разрыва, по умолчанию -1
-бак записать файл резервной копии кластера (1 или 0, по умолчанию 0)
-h распечатать эту справку
Вопросы, ошибки, свяжитесь с Лимином Фу по адресу [электронная почта защищена], или Вэйчжун Ли в [электронная почта защищена]
Для получения обновленных версий и информации посетите: http://cd-hit.org
веб-сервер cd-hit также доступен по адресу http://cd-hit.org
Если вы сочтете компакт-диск полезным, пожалуйста, процитируйте:
"Кластеризация высокогомологичных последовательностей для уменьшения размера большого белка
база данных », Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatics, (2001)
17: 282-283 "Cd-hit: быстрая программа для кластеризации и сравнения больших наборов
белковые или нуклеотидные последовательности », Weizhong Li & Adam Godzik. Bioinformatics, (2006)
22: 1658-1659
Используйте cdhit-est-2d онлайн с помощью сервисов onworks.net