Это команда ncbi-seg, которую можно запустить в провайдере бесплатного хостинга OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
ncbi-seg - последовательность сегментов по локальной сложности
СИНТАКСИС
последовательность ncbi-seg [W] [ K(1)] [ K(2)] [-x] [параметры]
ОПИСАНИЕ
ncbi-seg делит последовательности на контрастирующие сегменты низкой сложности и высокой сложности.
сложность. Сегменты низкой сложности, определенные алгоритмом, представляют собой «простые последовательности»
или «регионы с предвзятым отношением к композиции».
Локально оптимизированные сегменты низкой сложности производятся с определенными уровнями строгости,
основанный на формальных определениях локальной композиционной сложности (Wootton & Federhen, 1993).
Длины сегментов и количество сегментов в последовательности определяются автоматически.
по алгоритму.
Входными данными является файл последовательности в формате FASTA или файл базы данных, содержащий множество FASTA-
форматированные последовательности. ncbi-seg настроен на аминокислотные последовательности. Для нуклеотида
последовательности, см. ПРИМЕРЫ НАБОРОВ ПАРАМЕТРОВ ниже.
Строгость поиска сегментов низкой сложности определяется тремя пользователями:
определенные параметры, длина окна триггера [Вт], сложность триггера [ K(1)] и расширение
сложность [ K(2)] (см. Ниже в разделе ПАРАМЕТРЫ). Предоставленные значения по умолчанию подходят для
низкоуровневое маскирование последовательностей поисковых запросов в базе данных [требуется параметр -x, см.
ниже].
ВЫХОДЫ И ПРИМЕНЕНИЕ
(1) Читаемая сегментированная последовательность [по умолчанию]. Области контрастной сложности
отображается в «древовидном формате». См. ПРИМЕРЫ.
(2) Маскирование низкой сложности (см. Altschul et al, 1994). Создавать маскированные FASTA-форматированные
файл, готовый для ввода в качестве последовательности запросов для программ поиска в базе данных, таких как BLAST или
ФАСТА. Аминокислоты в областях с низкой сложностью заменяются символами «x» [-x
вариант]. См. ПРИМЕРЫ.
(3) Построение базы данных. Создавайте файлы в формате FASTA, содержащие несложные
сегменты [параметр -l], сегменты высокой сложности [параметр -h] или оба варианта [параметр -a]. Каждый
сегмент - это отдельная запись последовательности с информативной строкой заголовка.
ALGORITHM / АЛГОРИТМ
Алгоритм SEG состоит из двух этапов. Во-первых, определение примерных сырых сегментов
невысокая сложность; вторая локальная оптимизация.
На первом этапе строгость и разрешимость поиска малой сложности
сегментов определяется буквой W, K(1) и K(2) параметры. Все окна запуска
определены, включая перекрывающиеся окна, длиной W и сложностью меньше или равной
K(1). «Сложность» здесь определяется уравнением (3) Wootton & Federhen (1993). Каждый
затем окно запуска расширяется в контиг в обоих направлениях путем слияния с расширением
окна, которые представляют собой перекрывающиеся окна длиной W и сложностью меньше или равной
K(2). Каждый контиг - это необработанный сегмент.
На втором этапе каждый необработанный сегмент сводится к одному оптимальному невысокому уровню сложности.
сегмент, который может быть целым необработанным сегментом, но обычно является подпоследовательностью. Оптимальный
подпоследовательность имеет наименьшее значение вероятности P(0) (уравнение (5) Wootton &
Федерхен, 1993).
ПАРАМЕТРЫ
Эти три числовых параметра находятся в обязательном порядке после имени файла последовательности.
Длина окна запуска [Вт]. Целое число больше нуля [по умолчанию 12].
Сложность триггера. [K1]. Максимальная сложность окна запуска в битах.
K1 должен быть равен или больше нуля. Максимальное значение составляет 4.322 (логарифм [основание 2] 20) для
аминокислотные последовательности [по умолчанию 2.2].
Сложность расширения [K2]. Максимальная сложность пристройки окна в единицах
биты. Только значения, превышающие K1, эффективны при расширении срабатывающих окон. Диапазон
возможные значения такие же, как для K1 [по умолчанию 2.5].
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
Следующие параметры могут быть размещены в командной строке в любом порядке после W, K1 и
Параметры К2:
-a Выводить сегменты как низкой, так и высокой сложности в файл в формате FASTA, как
набор отдельных записей со строками заголовка.
-c [символов в строке]
Количество символов последовательности в строке вывода [по умолчанию 60]. Другие персонажи, например
как номера остатков, являются дополнительными.
-h Выводить только сегменты высокой сложности в файл в формате FASTA в виде набора
отдельные записи строками заголовка.
-l Выводить только сегменты низкой сложности в файл в формате FASTA в виде набора
отдельные записи строками заголовка.
-m [длина]
Минимальная длина в остатках для сегмента высокой сложности [по умолчанию 0]. Короче
сегменты объединяются с соседними сегментами низкой сложности.
-o Показать все перекрывающиеся сегменты низкой сложности с независимым запуском [это
по умолчанию объединено].
-q Создает выходной формат с последовательностью в пронумерованном блоке с пометками для помощи
подсчет остатков. Сегменты низкой и высокой сложности относятся к категории более низкой и средней сложности.
символы верхнего регистра соответственно.
-t [длина]
Параметр «Максимальная длина обрезки» [по умолчанию 100]. Это контролирует пространство поиска (и
время поиска) при оптимизации сырых сегментов (см. АЛГОРИТМ выше). К
по умолчанию подпоследовательности на 100 или более остатков короче исходного сегмента опускаются
из поиска. Этот параметр можно увеличить, чтобы обеспечить более широкий поиск, если
необработанные сегменты длиннее 100 остатков.
-x Параметр маскировки для аминокислотных последовательностей. Каждая входная последовательность представлена
единая выходная последовательность в FASTA-формате с заменой областей низкой сложности на строки
символов "x".
ПРИМЕРЫ OF ПАРАМЕТР НАБОРЫ
Параметры по умолчанию задаются «ncbi-seg sequence» (эквивалентно «ncbi-seg sequence 12»).
2.2 2.5 '). Эти параметры подходят для маскирования невысокой сложности многих аминокислот.
кислотные последовательности [с опцией -x].
База данных-база данных сравнения:
Более строгие (более низкие) параметры сложности подходят, когда замаскированные последовательности
по сравнению с замаскированными последовательностями. Например, для запросов BLAST или FASTA, которые сравнивают два
базы данных аминокислотных последовательностей, к обеим базам данных может применяться следующая маскировка:
база данных ncbi-seg 12 1.8 2.0 -x
Гомополимер анализ:
Чтобы исследовать все гомополимерные подпоследовательности длиной (например) 7 или больше:
последовательность ncbi-seg 7 0 0
Неглобулярный районы of белок последовательности:
Многие длинные неглобулярные домены можно диагностировать при большей длине окна, обычно:
последовательность ncbi-seg 45 3.4 3.75
Для некоторых более коротких неглобулярных доменов подходит следующий набор:
последовательность ncbi-seg 25 3.0 3.3
нуклеотидная последовательности:
Максимальное значение параметров сложности - 2 (log [base 2] 4). Для маскировки
следующее примерно эквивалентно по действию параметрам по умолчанию для аминокислоты
последовательности:
ncbi-seg sequence.na 21 1.4 1.6
ПРИМЕРЫ
Ниже приведен файл с именем prion в формате FASTA:
> PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAAGA
VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ИЛЛИСФЛИФЛИВГ
Командная строка:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa
дает стандартный вывод ниже
> PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
ВНТГГСРИПГQGSPGGNRY
ppqggggwgqphgggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 ТХСКВНКПСКППКТНМХМ
agaaaagavvgglggymlgsams 113–135
136-187 RPIIHFGSDYEDRYYRENMHRYPNQVYYRP
MDEYSNQNNFVHDCVNITIKQH
твтттткгенфтет 188-201
202-236 ДВКММЕРВВЕQMCITQYERESQAYYQRGSS
МВЛФС
sppvillisflifliv 237-252
253-253 G
Последовательности низкой сложности находятся слева (нижний регистр), а последовательности высокой сложности
находятся справа (в верхнем регистре). Все сегменты последовательности читаются слева направо, а их
порядок в последовательности сверху вниз, как показано в центральном столбце остатка
номера.
Командная строка:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa -x
дает следующий файл в формате FASTA: -
> PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYx
xxxxTHSQWNKPSKPKTNMKHMxxx
RPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
ххG
Используйте ncbi-seg онлайн с помощью сервисов onworks.net