ncbi-seg - Интернет в облаке

Запустите ncbi-seg в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда ncbi-seg, которую можно запустить в провайдере бесплатного хостинга OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

Запускаем в Ubuntu Запускаем в Fedora Запустить в Windows Sim Запускаем в MACOS Sim

ПРОГРАММА:

ИМЯ

ncbi-seg - последовательность сегментов по локальной сложности

СИНТАКСИС

последовательность ncbi-seg [W] [ K(1)] [ K(2)] [-x] [параметры]

ОПИСАНИЕ

ncbi-seg делит последовательности на контрастирующие сегменты низкой сложности и высокой сложности.
сложность. Сегменты низкой сложности, определенные алгоритмом, представляют собой «простые последовательности»
или «регионы с предвзятым отношением к композиции».

Локально оптимизированные сегменты низкой сложности производятся с определенными уровнями строгости,
основанный на формальных определениях локальной композиционной сложности (Wootton & Federhen, 1993).
Длины сегментов и количество сегментов в последовательности определяются автоматически.
по алгоритму.

Входными данными является файл последовательности в формате FASTA или файл базы данных, содержащий множество FASTA-
форматированные последовательности. ncbi-seg настроен на аминокислотные последовательности. Для нуклеотида
последовательности, см. ПРИМЕРЫ НАБОРОВ ПАРАМЕТРОВ ниже.

Строгость поиска сегментов низкой сложности определяется тремя пользователями:
определенные параметры, длина окна триггера [Вт], сложность триггера [ K(1)] и расширение
сложность [ K(2)] (см. Ниже в разделе ПАРАМЕТРЫ). Предоставленные значения по умолчанию подходят для
низкоуровневое маскирование последовательностей поисковых запросов в базе данных [требуется параметр -x, см.
ниже].

ВЫХОДЫ И ПРИМЕНЕНИЕ

(1) Читаемая сегментированная последовательность [по умолчанию]. Области контрастной сложности
отображается в «древовидном формате». См. ПРИМЕРЫ.

(2) Маскирование низкой сложности (см. Altschul et al, 1994). Создавать маскированные FASTA-форматированные
файл, готовый для ввода в качестве последовательности запросов для программ поиска в базе данных, таких как BLAST или
ФАСТА. Аминокислоты в областях с низкой сложностью заменяются символами «x» [-x
вариант]. См. ПРИМЕРЫ.

(3) Построение базы данных. Создавайте файлы в формате FASTA, содержащие несложные
сегменты [параметр -l], сегменты высокой сложности [параметр -h] или оба варианта [параметр -a]. Каждый
сегмент - это отдельная запись последовательности с информативной строкой заголовка.

ALGORITHM / АЛГОРИТМ

Алгоритм SEG состоит из двух этапов. Во-первых, определение примерных сырых сегментов
невысокая сложность; вторая локальная оптимизация.

На первом этапе строгость и разрешимость поиска малой сложности
сегментов определяется буквой W, K(1) и K(2) параметры. Все окна запуска
определены, включая перекрывающиеся окна, длиной W и сложностью меньше или равной
K(1). «Сложность» здесь определяется уравнением (3) Wootton & Federhen (1993). Каждый
затем окно запуска расширяется в контиг в обоих направлениях путем слияния с расширением
окна, которые представляют собой перекрывающиеся окна длиной W и сложностью меньше или равной
K(2). Каждый контиг - это необработанный сегмент.

На втором этапе каждый необработанный сегмент сводится к одному оптимальному невысокому уровню сложности.
сегмент, который может быть целым необработанным сегментом, но обычно является подпоследовательностью. Оптимальный
подпоследовательность имеет наименьшее значение вероятности P(0) (уравнение (5) Wootton &
Федерхен, 1993).

ПАРАМЕТРЫ

Эти три числовых параметра находятся в обязательном порядке после имени файла последовательности.

Длина окна запуска [Вт]. Целое число больше нуля [по умолчанию 12].

Сложность триггера. [K1]. Максимальная сложность окна запуска в битах.
K1 должен быть равен или больше нуля. Максимальное значение составляет 4.322 (логарифм [основание 2] 20) для
аминокислотные последовательности [по умолчанию 2.2].

Сложность расширения [K2]. Максимальная сложность пристройки окна в единицах
биты. Только значения, превышающие K1, эффективны при расширении срабатывающих окон. Диапазон
возможные значения такие же, как для K1 [по умолчанию 2.5].

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ

Следующие параметры могут быть размещены в командной строке в любом порядке после W, K1 и
Параметры К2:

-a Выводить сегменты как низкой, так и высокой сложности в файл в формате FASTA, как
набор отдельных записей со строками заголовка.

-c [символов в строке]
Количество символов последовательности в строке вывода [по умолчанию 60]. Другие персонажи, например
как номера остатков, являются дополнительными.

-h Выводить только сегменты высокой сложности в файл в формате FASTA в виде набора
отдельные записи строками заголовка.

-l Выводить только сегменты низкой сложности в файл в формате FASTA в виде набора
отдельные записи строками заголовка.

-m [длина]
Минимальная длина в остатках для сегмента высокой сложности [по умолчанию 0]. Короче
сегменты объединяются с соседними сегментами низкой сложности.

-o Показать все перекрывающиеся сегменты низкой сложности с независимым запуском [это
по умолчанию объединено].

-q Создает выходной формат с последовательностью в пронумерованном блоке с пометками для помощи
подсчет остатков. Сегменты низкой и высокой сложности относятся к категории более низкой и средней сложности.
символы верхнего регистра соответственно.

-t [длина]
Параметр «Максимальная длина обрезки» [по умолчанию 100]. Это контролирует пространство поиска (и
время поиска) при оптимизации сырых сегментов (см. АЛГОРИТМ выше). К
по умолчанию подпоследовательности на 100 или более остатков короче исходного сегмента опускаются
из поиска. Этот параметр можно увеличить, чтобы обеспечить более широкий поиск, если
необработанные сегменты длиннее 100 остатков.

-x Параметр маскировки для аминокислотных последовательностей. Каждая входная последовательность представлена
единая выходная последовательность в FASTA-формате с заменой областей низкой сложности на строки
символов "x".

ПРИМЕРЫ OF ПАРАМЕТР НАБОРЫ

Параметры по умолчанию задаются «ncbi-seg sequence» (эквивалентно «ncbi-seg sequence 12»).
2.2 2.5 '). Эти параметры подходят для маскирования невысокой сложности многих аминокислот.
кислотные последовательности [с опцией -x].

База данных-база данных сравнения:
Более строгие (более низкие) параметры сложности подходят, когда замаскированные последовательности
по сравнению с замаскированными последовательностями. Например, для запросов BLAST или FASTA, которые сравнивают два
базы данных аминокислотных последовательностей, к обеим базам данных может применяться следующая маскировка:

база данных ncbi-seg 12 1.8 2.0 -x

Гомополимер анализ:
Чтобы исследовать все гомополимерные подпоследовательности длиной (например) 7 или больше:

последовательность ncbi-seg 7 0 0

Неглобулярный районы of белок последовательности:
Многие длинные неглобулярные домены можно диагностировать при большей длине окна, обычно:

последовательность ncbi-seg 45 3.4 3.75

Для некоторых более коротких неглобулярных доменов подходит следующий набор:

последовательность ncbi-seg 25 3.0 3.3

нуклеотидная последовательности:
Максимальное значение параметров сложности - 2 (log [base 2] 4). Для маскировки
следующее примерно эквивалентно по действию параметрам по умолчанию для аминокислоты
последовательности:

ncbi-seg sequence.na 21 1.4 1.6

ПРИМЕРЫ

Ниже приведен файл с именем prion в формате FASTA:

> PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAAGA
VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ИЛЛИСФЛИФЛИВГ

Командная строка:

ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa

дает стандартный вывод ниже

> PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR

1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
ВНТГГСРИПГQGSPGGNRY
ppqggggwgqphgggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 ТХСКВНКПСКППКТНМХМ
agaaaagavvgglggymlgsams 113–135
136-187 RPIIHFGSDYEDRYYRENMHRYPNQVYYRP
MDEYSNQNNFVHDCVNITIKQH
твтттткгенфтет 188-201
202-236 ДВКММЕРВВЕQMCITQYERESQAYYQRGSS
МВЛФС
sppvillisflifliv 237-252
253-253 G

Последовательности низкой сложности находятся слева (нижний регистр), а последовательности высокой сложности
находятся справа (в верхнем регистре). Все сегменты последовательности читаются слева направо, а их
порядок в последовательности сверху вниз, как показано в центральном столбце остатка
номера.

Командная строка:

ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa -x

дает следующий файл в формате FASTA: -

> PRIO_HUMAN MAJOR PRION PROTEIN PRECURSOR
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYx
xxxxTHSQWNKPSKPKTNMKHMxxx
RPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
ххG

Используйте ncbi-seg онлайн с помощью сервисов onworks.net