Это команда soapdenovo-31mer, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
soapdenovo - Краткий метод сборки, с помощью которого можно построить черновую сборку de novo.
СИНТАКСИС
мылоденово_31мер мылоденово_63мер мылоденово_127мер
Введение
SOAPdenovo - это новый метод быстрой сборки, с помощью которого можно построить черновую сборку de novo.
для геномов размером с человека. Программа разработана специально для сборки Illumina GA.
короткие чтения. Это создает новые возможности для построения эталонных последовательностей и переноса
точный анализ неизученных геномов рентабельным способом.
1) Поддержка больших kmer до 127 для использования длинных чтений. Предусмотрены три версии.
I. Версия 31mer поддерживает только kmer <= 31.
II. Версия 63mer поддерживает только kmer <= 63 и удваивает потребление памяти, чем
31mer версия, даже используется с kmer <= 31.
III. Версия 127mer поддерживает только kmer <= 127 и удваивает потребление памяти, чем
63mer версия, даже используется с kmer <= 63.
Обратите внимание, что с более длинным kmer количество узлов значительно уменьшится,
таким образом, потребление памяти обычно меньше, чем удвоение со смещенной версией.
2) Добавлен новый параметр в модуль «преграф». Этот параметр запускает память
предположение, чтобы избежать дальнейшего перераспределения. Единица параметра - ГБ. Без дальнейшего
перераспределения, SOAPdenovo работает быстрее и потенциально может съесть всю память
машина. Например, если рабочая станция предоставляет 50 г свободной памяти, используйте -a 50 в
pregraph, то перед обработкой будет выделен статический объем памяти в 50 г
читает. Это также поможет избежать прерывания работы другими пользователями, использующими один и тот же компьютер.
3) Заполненные пробелы базы теперь представлены строчными буквами в файле 'scafSeq'.
4) Введены инструкции SIMD для повышения производительности.
Конфигурация файл
Для больших проектов генома с глубоким секвенированием данные обычно организованы в виде нескольких
читать файлы последовательности, созданные из нескольких библиотек. Файл конфигурации сообщает
ассемблер, где найти эти файлы и соответствующую информацию. Example.config - это
пример такого файла.
В файле конфигурации есть раздел для глобальной информации, а затем несколько библиотек.
разделы. Сейчас в раздел глобальной информации включен только max_rd_len. Любой
чтение длиннее чем max_rd_len будет обрезано до этой длины.
Информация о библиотеке и информация о данных секвенирования, созданная из библиотеки.
должны быть организованы в соответствующем разделе библиотеки. Каждый раздел библиотеки начинается
с тегом [LIB] и включает в себя следующие элементы:
avg_ins
Это значение указывает средний размер вставки этой библиотеки или пиковое значение.
положение на диаграмме распределения размеров пластин.
обратный_сек
Этот параметр принимает значение 0 или 1. Он сообщает ассемблеру, нужны ли последовательности чтения
быть дополнительно перевернутым. Illumima GA производит два типа парных
библиотеки: а) прямо-обратные, созданные из фрагментированных концов ДНК с типичными
размер вставки менее 500 п.н .; б) вперед-вперед, генерируемый циркуляризацией
библиотеки с типичным размером вставки более 2 Кб. Параметр «reverse_seq»
должен быть установлен, чтобы указать это: 0, вперед-назад; 1, вперед-вперед.
asm_flags = 3
Этот индикатор определяет, в какой части (ах) используются считывания. Принимает значение 1 (только
сборка контигов), 2 (только сборка подмостей), 3 (сборка как контигов, так и подмостей),
или 4 (только закрытие гэпа).
rd_len_cutoff
Ассемблер сократит чтение из текущей библиотеки до этой длины.
ранг Принимает целочисленные значения и решает, в каком порядке чтения используются для скаффолда.
сборка. Библиотеки с одинаковым «рангом» используются одновременно во время эшафота.
сборка.
пара_num_cutoff
Этот параметр является пороговым значением номера пары для надежного соединения между
два контига или предварительных каркаса.
карта_лен
Это вступает в силу на этапе «карты» и представляет собой минимальную длину выравнивания между
read и контиг, необходимые для надежного чтения.
Ассемблер принимает прочитанный файл в двух форматах: FASTA или FASTQ. Брачно-парные отношения
можно указать двумя способами: два файла последовательности с одинаковым порядком чтения, принадлежащие
в пару или два соседних чтения в одном файле (только FASTA), принадлежащем паре.
В файле конфигурации одинарные конечные файлы обозначаются «f = / path / filename» или
«Q = / pah / filename» для форматов fasta или fastq отдельно. Парные чтения в два фаста
Файлы последовательности обозначаются «f1 =» и «f2 =». В то время как парное чтение в двух последовательностях fastq
файлы обозначаются символами «q1 =» и «q2 =». Парные чтения в одном файле последовательности fasta
обозначается элементом «p =».
Все перечисленные выше элементы в каждом разделе библиотеки не являются обязательными. Ассемблер назначает по умолчанию
ценности для большинства из них. Если вы не знаете, как установить параметр, вы можете удалить его.
из вашего файла конфигурации.
Получите it и политические лидеры
Как только файл конфигурации доступен, типичный способ запустить ассемблер: $ {bin}
все –s файл_конфигурации –K 63 –R –o префикс_графа
Пользователь также может выбрать пошаговый запуск процесса сборки следующим образом: $ {bin} pregraph
\ [u2013] файл_конфигурации \ [u2013] K 63 [\ [u2013] R -d \ [u2013] p -a] \ [u2013] o префикс_графа
$ {bin} contig \ [u2013] g префикс_графа [\ [u2013] R \ [u2013] M 1 -D] $ {bin} map \ [u2013] s
файл_конфигурации \ [u2013] g префикс_графа [-p] $ {bin} scaff \ [u2013] g префикс_графа [\ [u2013] F -u
-Г -р]
Возможности
-a INT Инициировать предположение о памяти (ГБ), чтобы избежать дальнейшего перераспределения
-s файл конфигурации STR
-o Префикс файла графа вывода STR
-g STR префикс входного файла графа
-K INT Размер K-mer [по умолчанию 23, мин. 13, макс. 127]
-p INT многопоточность, n потоков [по умолчанию 8]
-R использовать чтение для решения крошечных повторов [по умолчанию нет]
-d INT удалить низкочастотные К-меры с частотой не выше [по умолчанию 0]
-D INT удалить края с покрытием не больше, чем [по умолчанию 1]
-M INT сила объединения похожих последовательностей во время завершения [по умолчанию 1, мин. 0, макс.
3]
-F Закрытие зазора внутри каркаса [по умолчанию нет]
-u снять маску с контигов с высоким покрытием перед созданием лесов [defaut mask]
-G INT допустимая разница в длине между предполагаемым и заполненным зазором
-L минимальная длина контигов, используемых для строительных лесов
Результат файлов
Эти файлы выводятся как результаты сборки:
а. * .contig
последовательности контигов без использования информации о сопряженных парах
б. * .scafSeq
последовательности каркаса (конечные последовательности контигов могут быть извлечены путем разрушения каркаса
последовательности в областях разрыва)
Есть и другие файлы, содержащие полезную информацию для опытных пользователей.
перечислены в Приложении Б.
FAQ
Как в набор К-мер размер?
Программа принимает нечетные числа от 13 до 31. Чем больше K-мер, тем выше скорость
уникальность в геноме и упростит график, но требует глубокого секвенирования
глубина и большая длина чтения, чтобы гарантировать перекрытие в любом месте генома.
Как в набор библиотека классифицировать?
SOAPdenovo будет использовать парные библиотеки с размером вставки от меньшего к большему и
построить строительные леса. Библиотеки с одинаковым рангом будут использоваться одновременно. Для
Например, в наборе данных генома человека мы установили пять рангов для пяти библиотек с помощью вставки
размер 200-bp, 500-bp, 2-Kb, 5-Kb и 10-Kb, отдельно. Желательно, чтобы пары в
каждый ранг обеспечивает адекватный физический охват генома.
ПРИЛОЖЕНИЕ A: an пример.config
# максимальная длина чтения
max_rd_len = 50
[БИБЛИОТЕКА]
# средний размер вставки
avg_ins = 200
# если необходимо изменить последовательность
reverse_seq = 0
# в какой части (ах) используются чтения
asm_flags = 3
# использовать только первые 50 бит / с каждого чтения
rd_len_cutoff = 50
# в каком порядке чтения используются при построении лесов
ранг = 1
# обрезка номера пары для надежного соединения (по умолчанию 3)
pair_num_cutoff = 3
# минимальная выровненная длина до контигов для надежного места чтения (по умолчанию 32)
map_len = 32
#fastq файл для чтения 1
q1 = / путь / ** LIBNAMEA ** / fastq_read_1.fq
#fastq файл для чтения 2 всегда следует за файлом fastq для чтения 1
q2 = / путь / ** LIBNAMEA ** / fastq_read_2.fq
#fasta файл для чтения 1
f1 = / путь / ** LIBNAMEA ** / fasta_read_1.fa
#fastq файл для чтения 2 всегда следует за файлом fastq для чтения 1
f2 = / путь / ** LIBNAMEA ** / fasta_read_2.fa
#fastq файл для однократного чтения
q = / путь / ** LIBNAMEA ** / fastq_read_single.fq
#fasta файл для однократного чтения
f = / путь / ** LIBNAMEA ** / fasta_read_single.fa
# один файл fasta для парных чтений
p = / путь / ** LIBNAMEA ** / pair_in_one_file.fa
[БИБЛИОТЕКА]
avg_ins = 2000
reverse_seq = 1
asm_flags = 2
ранг = 2
# отключение номера пары для надежного соединения
# (по умолчанию 5 для большого размера вставки)
pair_num_cutoff = 5
# минимальная выровненная длина до контигов для надежного местоположения чтения
# (по умолчанию 35 для большого размера вставки)
map_len = 35
q1 = / путь / ** LIBNAMEB ** / fastq_read_1.fq
q2 = / путь / ** LIBNAMEB ** / fastq_read_2.fq
q = / путь / ** LIBNAMEB ** / fastq_read_single.fq
f = / путь / ** LIBNAMEB ** / fasta_read_single.fa
Приложение B: выходной файлов
1. Вывести файлы из команды «преграф»
а. * .kmerFreq
Каждая строка показывает количество кмеров с частотой, равной номеру строки.
б. *.край
Каждая запись дает информацию о ребре в преграфе: длина, Kmers на обоих концах,
среднее кмерское покрытие, будь то обратная комплементарно идентичная и последовательность.
c. * .markOnEdge & * .path
Эти два файла предназначены для использования операций чтения для решения небольших повторов.
е. * .preArc
Связи между ребрами, которые устанавливаются путями чтения.
f. * .vertex
Кмеры на концах краев.
грамм. * .preGraphBasic
Некоторая основная информация о преграфе: количество вершин, значение K, количество ребер,
максимальная длина чтения и т. д.
2. Вывести файлы из команды «contig»
а. * .contig
Информация о контиге: соответствующий индекс кромки, длина, кмерское покрытие, кончик и
последовательность. Включен либо контиг, либо его обратный комплементарный аналог. Каждый
Индекс обратного комплементарного контига указан в файле * .ContigIndex.
б. * .Arc
Дуги, выходящие из каждого края, и их соответствующее покрытие считыванием
c. * .updated.edge
Некоторая информация для каждого ребра в графе: длина, Кмеры на обоих концах, разность индексов.
между обратным дополнительным краем и этим.
d. * .ContigIndex
Каждая запись дает информацию о каждом контиге в * .contig: это индекс края, длина,
разница в индексе между его обратным комплементарным аналогом и самим собой.
3. Вывести файлы из команды «карта».
а. * .peGrads
Информация для каждой библиотеки клонов: размер вставки, верхняя граница индекса чтения, ранг и пара
отсечка номера для надежной ссылки.
Этот файл можно изменить вручную для настройки строительных лесов.
б. * .readOnContig
Читайте локации на контигах. Здесь контиги обозначаются их индексом края. Howerver о
половина из них не указана в файле * .contig из-за их обратного дополнения
аналоги уже включены.
c. * .readInGap
Этот файл включает чтения, которые могут быть расположены в промежутках между контигами. Эта информация
будут использоваться для закрытия щелей в строительных лесах.
4. Вывести файлы из команды «scaff».
а. * .newContigIndex
Перед возведением контиги сортируются по длине. Их новый индекс указан
в этом файле. Это полезно, если нужно сопоставить контиги в * .contig с теми
в * .links.
б. * .links
Связи между контигами, которые устанавливаются парами чтения. Используются новые индексы.
c. * .scaf_gap
Контиги в пробелах, найденные графом контигов, выведенным процедурой контига. Здесь новый индекс
используются.
d. * .scaf
Контиги для каждого каркаса: индекс контига (соответствует индексу в * .contig), приблизительный
начальная позиция на каркасе, ориентация, длина контига и его связи с другими.
е. * .gapSeq
Последовательности разрывов между контигами.
f. * .scafSeq
Последовательность создания каждой лески.
Используйте soapdenovo-31mer онлайн на сервисах onworks.net