Это команда bwa, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
bwa - Инструмент выравнивания Берроуза-Уиллера
СИНТАКСИС
индекс bwa ref.fa
bwa mem ref.fa reads.fq> aln-se.sam
bwa mem ref.fa read1.fq read2.fq> aln-pe.sam
bwa aln ref.fa short_read.fq> aln_sa.sai
bwa samse ref.fa aln_sa.sai short_read.fq> aln-se.sam
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq> aln-pe.sam
bwa bwasw ref.fa long_read.fq> aln.sam
ОПИСАНИЕ
BWA - это программный пакет для сопоставления последовательностей с низким уровнем дивергенции с большим эталоном.
геном, такой как геном человека. Он состоит из трех алгоритмов: BWA-backtrack, BWA-SW.
и BWA-MEM. Первый алгоритм разработан для чтения последовательности Illumina до 100 бит / с,
в то время как остальные два для более длинных последовательностей варьировались от 70 до 1 Мбит / с. Совместное использование BWA-MEM и BWA-SW
аналогичные функции, такие как поддержка длительного чтения и выравнивание разделения, но BWA-MEM, который является
последний, обычно рекомендуется для высококачественных запросов, так как он быстрее и эффективнее
точный. BWA-MEM также имеет лучшую производительность, чем BWA-backtrack для 70-100bp Illumina.
читает.
Для всех алгоритмов BWA сначала необходимо построить FM-индекс для эталонного генома.
( индекс команда). Алгоритмы выравнивания вызываются с помощью различных подкоманд:
ALN/Самсе/сампе для BWA-backtrack, хвас для BWA-SW и сувениры для алгоритма BWA-MEM.
КОМАНДЫ И ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
индекс BWA индекс [-p префикс] [-a тип алгоритма] дб.фа
Индексируйте последовательности базы данных в формате FASTA.
ОПЦИИ:
-p STR Префикс выходной базы данных [такой же, как имя файла базы данных]
-a STR Алгоритм построения индекса BWT. BWA реализует два алгоритма для
Строительство ЛОВ: is и кстати. Первый алгоритм немного быстрее
для небольшой базы данных, но требует большого объема оперативной памяти и не работает для баз данных
с общей длиной более 2 ГБ. Второй алгоритм адаптирован из
исходный код BWT-SW. Теоретически работает с базой данных с триллионами
баз. Если этот параметр не указан, соответствующий алгоритм
будут выбраны автоматически.
сувениры BWA сувениры [-aCHjMpP] [-t нпотоки] [-k minSeedLen] [-w пропускная способность] [-d zВысадка] [-r
семяSplitRatio] [-c максокк] [-D цепь] [-m maxMateSW] [-W minSeedMatch] [-A
matchScore] [-B ммШтраф] [-O разрывOpenPen] [-E разрывExtPen] [-L клиппен] [-U
разорвать пару] [-R RGline] [-H HD-линии] [-v подробный уровень] db.prefix читает.fq [mate.fq]
Выровняйте последовательности запросов 70bp-1Mbp с алгоритмом BWA-MEM. Вкратце алгоритм
работает, засевая выравнивания с максимальными точными совпадениями (MEM), а затем расширяя
семян с помощью алгоритма Смита-Уотермана (SW) с аффинной щелью.
If mate.fq файл отсутствует и опция -p не установлен, эта команда касается ввода
чтения односторонние. Если mate.fq присутствует, эта команда предполагает, что i-й читать в
читает.fq и i-й читать в mate.fq составляют пару для чтения. Если -p Используется,
команда предполагает 2i-й и (2i+1) -го прочтения читает.fq составляют пару для чтения
(такой входной файл называется чередующимся). В этом случае, mate.fq игнорируется. В
режим парного конца, сувениры команда выведет ориентацию чтения и вставку
Распределение по размерам из партии чтений.
Алгоритм BWA-MEM выполняет локальное выравнивание. Это может привести к нескольким первичным
выравнивания для разных частей последовательности запроса. Это важная функция для
длинные последовательности. Однако некоторые инструменты, такие как markDuplicates Пикарда, не работают.
с разделенными выравниваниями. Можно рассмотреть вариант использования -M отмечать короткие сплит-хиты
как вторичный.
ALGORITHM / АЛГОРИТМ ОПЦИИ:
-t INT Количество потоков [1]
-k INT Минимальная длина семян. Матчи короче, чем INT будет пропущен. В
скорость выравнивания обычно нечувствительна к этому значению, если только оно не
значительно отклоняется от 20. [19]
-w INT Пропускная способность. По существу, промежутки длиннее, чем INT не найдется. Примечание
что на максимальную длину промежутка также влияет матрица оценок и
длина обращения, определяемая не только этим параметром. [100]
-d INT Недиагональный X-dropoff (Z-dropoff). Прекратите расширение, когда разница
между лучшим и текущим показателем расширения выше |i-j|*A+INT,
в котором i и j текущие позиции запроса и ссылки,
соответственно и A это оценка совпадения. Z-dropoff похож на
X-dropoff BLAST, за исключением того, что он не штрафует пробелы в одном из
последовательности в выравнивании. Z-dropoff не только позволяет избежать ненужного
удлинение, но также уменьшает плохое выравнивание внутри длительного хорошего выравнивания.
[100]
-r FLOAT Запуск повторного посева для MEM длиннее, чем minSeedLen*FLOAT. Это ключ
эвристический параметр для настройки производительности. Чем больше значение, тем меньше
семян, что приводит к более высокой скорости выравнивания, но меньшей точности. [1.5]
-c INT Выбросьте MEM, если в нем больше INT появление в геноме. Это
нечувствительный параметр. [500]
-D INT Падение цепей короче, чем FLOAT доля самой длинной перекрывающейся цепи
[0.5]
-m INT Выполнять самое большее INT раунды мат-SW [50]
-W INT Отбросьте цепочку, если количество оснований в семенах меньше, чем INT. Это
опция в основном используется для более длительных циклов / чтений. Когда положительный, он также
влияет на фильтрацию семян. [0]
-P В парном режиме выполните SW только для восстановления недостающих попаданий, но не
попытайтесь найти хиты, которые подходят подходящей паре.
ОЦЕНКА ОПЦИИ:
-A INT Соответствующий счет. [1]
-B INT Штраф за несоответствие. Частота ошибок последовательности составляет приблизительно: {75 *
exp [-журнал(4) * B / A]}. [4]
-O ИНТ [, ИНТ]
Разрыв открытого пенальти. Если указаны два числа, первое - это штраф.
открытия удаления, а второй - открытия вставки. [6]
-E ИНТ [, ИНТ]
Штраф за продление зазора. Если указаны два числа, первое - это
штраф за продление удаления и второй за продление вставки. А
зазор длиной k стоит O + k * E (т.е. -O для открытия нулевой длины
зазор). [1]
-L ИНТ [, ИНТ]
Штраф за отсечение. При выполнении расширения SW BWA-MEM отслеживает
лучший результат по достижении конца запроса. Если этот балл больше, чем
лучший результат SW за вычетом штрафа за отсечение, отсечение не будет
применяемый. Обратите внимание, что в этом случае тег SAM AS сообщает о лучшем SW
счет; Штраф за отсечение не начисляется. Если указаны два числа,
первый предназначен для клиппирования на 5'-конце, а второй - для 3'-концевого отсечения. [5]
-U INT Штраф за непарную пару чтения. BWA-MEM оценивает непарную пару чтения
как оценкаЧитать1 + оценкаЧитать2-INT и получает парную оценку
scoreRead1 + scoreRead2-insertPenalty. Он сравнивает эти две оценки с
определить, должны ли мы форсировать спаривание. Чем больше значение, тем больше
агрессивная пара чтения. [17]
ВХОД / ВЫХОД ОПЦИИ:
-p Умное сопряжение. Если два соседних чтения имеют одинаковое имя, они
считается, чтобы сформировать пару чтения. Таким образом, парные и односторонние чтения
могут быть смешаны в одном потоке FASTA / Q.
-R STR Полная строка заголовка группы чтения. '\ t' может использоваться в STR и будет
преобразован в TAB в выходном SAM. Идентификатор группы чтения будет прикреплен
на каждое чтение в выводе. Пример: @RG \ tID: foo \ tSM: bar. [нулевой]
-H ARG Если ARG начинается с @, он интерпретируется как строка и вставляется
в выходной заголовок SAM; в противном случае ARG интерпретируется как файл с
все строки, начинающиеся с @ в файле, вставленном в заголовок SAM.
[значение NULL]
-T INT Не выводить выравнивание со счетом ниже, чем INT. Эта опция влияет на
вывод и иногда флаг SAM 2. [30]
-j Рассматривайте контиги ALT как часть первичной сборки (т. Е. Игнорируйте
db.prefix.alt файл).
-h INT [, INT2]
Если в запросе не более INT хиты со счетом выше 80%
best hit, выведите их все в теге XA. Если INT2 указано, BWA-MEM
выходы до INT2 совпадения, если список содержит совпадение с ALT-контигом.
[5,200]
-a Выведите все найденные выравнивания для односторонних или непарных парных чтений.
Эти трассы будут помечены как второстепенные.
-C Добавить комментарий FASTA / Q к выходным данным SAM. Эта опция может быть использована для
передавать считанную метаинформацию (например, штрих-код) на выход SAM. Примечание
что комментарий FASTA / Q (строка после пробела в строке заголовка)
должен соответствовать спецификации SAM (например, BC: Z: CGTAC). Неправильные комментарии приводят к
некорректный вывод SAM.
-Y Используйте операцию мягкого отсечения СИГАР для дополнительных выравниваний. К
по умолчанию BWA-MEM использует мягкое отсечение для первичного выравнивания и жесткое
вырезка для дополнительных выравниваний.
-M Отметьте более короткие разделенные попадания как второстепенные (для совместимости с Пикардом).
-v INT Управляйте уровнем подробности вывода. Этот вариант не был полностью реализован
поддерживается во всем BWA. В идеале значение 0 для отключения всего вывода
к stderr; 1 только для вывода ошибок; 2 для предупреждений и ошибок; 3 для
все нормальные сообщения; 4 или выше для отладки. Когда этот вариант принимает
значение 4, вывод не SAM. [3]
-I FLOAT [, FLOAT [, INT [, INT]]]
Укажите среднее значение, стандартное отклонение (10% от среднего, если оно отсутствует), макс. (4
сигма от среднего значения, если отсутствует) и минимум (4 сигма, если отсутствует) вставки
распределение по размерам. Применимо только для ориентации FR. По умолчанию,
BWA-MEM выводит эти числа и ориентацию пар при достаточном количестве
читает. [предполагаемый]
ALN bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-lseedLen] [-t nThrds] [-cRN] [-M misMsc] [-O пробелOsc] [-E разрывEsc]
[-q trimQual] >
Найдите координаты SA входных чтений. Максимум maxSeedDiff различия
разрешено в первом семяLen подпоследовательность и максимум максимальная разница различия
допускается во всей последовательности.
ОПЦИИ:
-n NUM Максимальное расстояние редактирования, если значение INT или часть пропущенного
для выравнивания дана 2% -ная единообразная базовая частота ошибок, если FLOAT. В последнем случае,
максимальное расстояние редактирования выбирается автоматически для различных чтений
длины. [0.04]
-o INT Максимальное количество открываемых зазоров [1]
-e INT Максимальное количество расширений зазора, -1 для режима k-разницы (запрещение
длинные промежутки) [-1]
-d INT Запретить длинную делецию в пределах INT п.н. по направлению к 3'-концу [16]
-i INT Запретить отступы внутри INT п.н. по направлению к концам [5]
-l INT Возьмите первую подпоследовательность INT как семя. Если INT больше запроса
последовательность, раздача будет отключена. Для длинных чтений этот вариант
обычно составляет от 25 до 35 для "-k 2". [inf]
-k INT Максимальное расстояние редактирования в семени [2]
-t INT Количество потоков (многопоточный режим) [1]
-M INT Штраф за несоответствие. BWA не будет искать неоптимальные совпадения со счетом
ниже, чем (bestScore-misMsc). [3]
-O INT Штраф за открытый пробел [11]
-E INT Штраф за продление промежутка [4]
-R INT Продолжайте с неоптимальным выравниванием, если одинаково не более чем INT
лучшие хиты. Этот параметр влияет только на сопоставление парных концов. Увеличение этого
порог помогает повысить точность сопряжения за счет скорости,
особенно для коротких чтений (~ 32bp).
-c Обратный запрос, но не его дополнение, что требуется для выравнивания в
цветовое пространство. (Отключено с версии 0.6.x)
-N Отключить итеративный поиск. Все обращения с не более чем максимальная разница Различия
будет найден. Этот режим намного медленнее, чем по умолчанию.
-q INT Параметр для обрезки чтения. BWA сокращает чтение до
argmax_x {\ sum_ {i = x + 1} ^ l (INT-q_i)}, если q_l
длина. [0]
-I Входные данные находятся в формате чтения Illumina 1.3+ (качество равно ASCII-64).
-B INT Длина штрих-кода, начиная с 5'-конца. Когда INT положительный,
штрих-код каждого считывания будет обрезан перед отображением и будет записан
на BC Тег SAM. Для парных считываний штрих-код с обоих концов
соединены. [0]
-b Укажите входной файл последовательности чтения в формате BAM. Для парного конца
данные, два конца пары должны быть сгруппированы вместе, а параметры -1 or -2
обычно применяются, чтобы указать, какой конец должен быть отображен. Типичный
Командные строки для сопоставления данных на конце пары в формате BAM:
bwa aln ref.fa -b1 reads.bam> 1.sai
bwa aln ref.fa -b2 reads.bam> 2.sai
bwa sampe ref.fa 1.sai 2.sai reads.bam reads.bam> aln.sam
-0 После появления -b указано, использовать в сопоставлении только односторонние чтения.
-1 После появления -b указано, использовать только первое чтение в паре чтения в сопоставлении
(пропустить одностороннее чтение и второе чтение).
-2 После появления -b указано, используйте только второе чтение в паре чтения в сопоставлении.
Самсе bwa samse [-n maxOcc] >
Генерация выравниваний в формате SAM с учетом односторонних чтений. Повторяющиеся удары будут
выбирается случайным образом.
ОПЦИИ:
-n INT Максимальное количество выравниваний для вывода в теге XA для парных чтений
должным образом. Если чтение имеет более чем INT попаданий, тег XA не будет
написано. [3]
-r STR Укажите группу чтения в формате вроде `@RG \ tID: foo \ tSM: bar '. [нулевой]
сампе bwa sampe [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>
Сгенерировать выравнивания в формате SAM с учетом парных чтений. Повторяющиеся пары чтения
будут размещены случайным образом.
ОПЦИИ:
-a INT Максимальный размер вставки для считываемой пары, которая считается отображенной правильно.
Начиная с версии 0.4.5, эта опция используется только тогда, когда не хватает хороших
выравнивание, чтобы сделать вывод о распределении размеров вставок. [500]
-o INT Максимальное количество чтений для сопряжения. Чтение с большим количеством встреч
будет рассматриваться как одностороннее чтение. Уменьшение этого параметра помогает быстрее
спаривание. [100000]
-P Загрузите весь FM-индекс в память, чтобы уменьшить количество операций с диском (базовое пространство
только читает). С этой опцией требуется не менее 1.25 Нбайт памяти,
где N - длина генома.
-n INT Максимальное количество выравниваний для вывода в теге XA для парных чтений
должным образом. Если при чтении попаданий больше, чем INT, тег XA записываться не будет.
[3]
-N INT Максимальное количество выравниваний для вывода в теге XA при несогласованном чтении
пары (исключая одиночные). Если при чтении попаданий больше, чем INT, тег XA
не будет написано. [10]
-r STR Укажите группу чтения в формате вроде `@RG \ tID: foo \ tSM: bar '. [нулевой]
хвас bwa bwasw [-a MatchScore] [-b mmPen] [-q gapOpenPen] [-r gapExtPen] [-t nThreads]
[-w полоса пропускания] [-T thres] [-s hspIntv] [-z zBest] [-N nHspRev] [-c thresCoef]
[mate.fq]
Выровняйте последовательности запросов в дюйм. fq файл. Когда mate.fq присутствует, выполнять парно-
концевое выравнивание. Режим парного конца работает только для чтения с короткой вставкой Illumina.
библиотеки. В режиме парного конца BWA-SW может по-прежнему выводить выравнивания разделения, но
все они отмечены как неправильно спаренные; мат позиции не будут записаны
если у товарища есть несколько локальных попаданий.
ОПЦИИ:
-a INT Счет матча [1]
-b INT Штраф за несоответствие [3]
-q INT Штраф за открытый пробел [5]
-r INT Штраф за продление зазора. Штраф за непрерывный разрыв размера k составляет
д + к * р. [2]
-t INT Количество потоков в многопоточном режиме [1]
-w INT Ширина полосы в полосовом выравнивании [33]
-T INT Минимальный порог оценки, деленный на [37]
-c FLOAT Коэффициент корректировки порога в зависимости от длины запроса. Учитывая
l-длинный запрос, порог для сохранения попадания равен
a * max {T, c * log (l)}. [5.5]
-z INT Z-лучшая эвристика. Чем больше -z, тем выше точность за счет скорости. [1]
-s INT Максимальный размер интервала SA для инициирования семени. Высшее увеличение
точность за счет скорости. [3]
-N INT Минимальное количество семян, поддерживающих результирующее выравнивание, чтобы пропустить
обратное выравнивание. [5]
SAM ВЫРАВНИВАНИЕ ФОРМАТ
Выход из `aln ' Команда является двоичной и предназначена только для использования BWA. BWA выводит
окончательное выравнивание в формате SAM (Sequence Alignment / Map). Каждая строка состоит из:
┌────┬───────┬────────────────────────────────────── ───────────────────────
│Седло │ Поиск │ Описание │
├────┼───────┼────────────────────────────────────── ───────────────────────
│ 1 │ QNAME │ Запрос (пара) NAME │
│ 2 │ ФЛАГ │ побитовый ФЛАГ │
│ 3 │ RNAME │ Ссылочная последовательность NAME │
│ 4 │ POS │ Крайняя левая позиция на основе 1 / координата обрезанной последовательности │
│ 5 │ MAPQ │ Качество отображения (в масштабе Phred) │
│ 6 │ CIAGR │ расширенная строка CIGAR │
│ 7 │ MRNM │ Сопряжение Ссылочная последовательность NaMe (`= ', если то же, что и RNAME) │
│ 8 │ MPOS │ Mate POSistion на основе 1 │
│ 9 │ РАЗМЕР │ Предполагаемый РАЗМЕР вставки │
│10 │ SEQ │ запрос SEQuence на той же цепи, что и эталон │
│11 │ КАЧЕСТВО │ КАЧЕСТВО запроса (ASCII-33 дает базовое качество Phred) │
│12 │ OPT │ переменная ОПЦИОНАЛЬНЫЕ поля в формате TAG: VTYPE: VALUE │
└────┴───────┴─────────────────────────────────────── ───────────────────────
Каждый бит в поле FLAG определяется как:
┌────┬────────┬───────────────────────────────────── ────┐
│Chr │ Флаг │ Описание │
├────┼────────┼───────────────────────────────────── ────┤
│ p │ 0x0001 │ чтение парное в последовательности │
│ P │ 0x0002 │ чтение отображается в правильную пару │
│ u │ 0x0004 │ сама последовательность запроса не отображается │
│ U │ 0x0008 │ сопряжение не отображается │
│ r │ 0x0010 │ цепочка запроса (1 для обратного) │
│ R │ 0x0020 │ нить матки │
│ 1 │ 0x0040 │ чтение - первое чтение в паре │
│ 2 │ 0x0080 чтение - второе чтение в паре │
│ s │ 0x0100 │ выравнивание не первичное │
│ f │ 0x0200 │ отказ контроля качества │
│ d │ 0x0400 │ оптический или PCR дубликат │
│ S │ 0x0800 │ дополнительное выравнивание │
└────┴────────┴───────────────────────────────────── ────┘
Пожалуйста, проверьтеhttp://samtools.sourceforge.net> для спецификации формата и
инструменты для постобработки совмещения.
BWA генерирует следующие необязательные поля. Теги, начинающиеся с `X ', относятся к BWA.
┌────┬─────────────────────────────────────────────── ──────
│Тег │ Смысл │
├────┼─────────────────────────────────────────────── ──────┤
│NM │ Изменить расстояние │
│MD │ Несоответствие позиций / баз │
│AS │ Оценка выравнивания │
│BC │ Последовательность штрих-кода │
│SA │ Дополнительные выравнивания │
├────┼─────────────────────────────────────────────── ──────┤
│X0 │ Количество лучших хитов │
│X1 │ Количество неоптимальных совпадений, найденных BWA │
│XN │ Количество неоднозначных оснований в референции │
│XM │ Количество несовпадений в юстировке │
│XO │ Количество открытий зазора │
│XG │ Количество удлинений зазора │
│XT │ Тип: Уникальный / Повторяющийся / N / Mate-sw │
│XA │ Альтернативные хиты; формат: / (chr, pos, CIGAR, NM;) * / │
├────┼─────────────────────────────────────────────── ──────┤
│XS │ Неоптимальная оценка выравнивания │
│XF │ Поддержка прямого / обратного выравнивания │
│XE │ Количество поддерживающих семян │
└────┴─────────────────────────────────────────────── ──────
Обратите внимание, что XO и XG генерируются поиском BWT, а строка CIGAR - Smith-Waterman
выравнивание. Эти два тега могут не соответствовать строке CIGAR. Это не ошибка.
ПРИМЕЧАНИЯ ON КРАТКИЕ СВЕДЕНИЯ ВЫРАВНИВАНИЕ
центровка точность
Когда заполнение отключено, BWA гарантирует, что найдет выравнивание, содержащее максимум максимальная разница
различия в том числе maxGapO разрыв открывается, чего не происходит внутри нИнделЭнд б.п. в сторону
любой конец запроса. Более длинные промежутки могут быть обнаружены, если maxGapE положительно, но это не так
гарантированно найдем все хиты. Когда заполнение включено, BWA дополнительно требует, чтобы первый
семяLen подпоследовательность содержит не более maxSeedDiff различия.
Когда выравнивание с зазором отключено, ожидается, что BWA будет генерировать такое же выравнивание, как и Eland.
версия 1, программа центровки Illumina. Однако, поскольку BWA меняет `N 'в базе данных
последовательность к случайным нуклеотидам, совпадения с этими случайными последовательностями также будут подсчитаны. Как
Следовательно, BWA может пометить уникальное попадание как повторение, если случайные последовательности оказываются
идентичны последовательностям, которые должны отсутствовать в базе данных.
По умолчанию, если лучший результат не повторяется (контролируется -R), BWA также находит
все совпадения содержат еще одно несовпадение; в противном случае BWA находит только все одинаково лучшие совпадения. База
качество НЕ учитывается при оценке попаданий. В режиме парного конца BWA объединяет все совпадения
он нашел. Кроме того, он выполняет выравнивание по Смиту-Уотерману для несопоставленных чтений для спасения чтений.
с высокой частотой ошибок, а также для качественных аномальных пар для исправления потенциального выравнивания
ошибки.
Оценка Вставить Размер Распределение
BWA оценивает распределение размера вставки на 256 * 1024 пар чтения. Сначала он собирает
пары чтений с обоими концами, сопоставленными с одинарным качеством 20 или выше, а затем
вычисляет медианное значение (Q2), нижний и верхний квартили (Q1 и Q3). Он оценивает среднее и
отклонение распределения размеров пластин от пар, размеры пластин которых находятся в пределах
интервал [Q1-2 (Q3-Q1), Q3 + 2 (Q3-Q1)]. Максимальное расстояние x для пары, считающейся
правильно спаренный (флаг SAM 0x2) вычисляется путем решения уравнения Phi ((x-mu) / sigma) = x / L * p0,
где mu - среднее значение, сигма - стандартная ошибка распределения размеров пластин, L -
длина генома, p0 - априор аномальной пары, а Phi () - стандартная
кумулятивная функция распределения. Для отображения на карте короткая вставка Illumina читает человеку
генома, x находится на расстоянии 6-7 сигм от среднего. Квартили, среднее значение, дисперсия и x будут
распечатывается в стандартный вывод ошибок.
Память Требование
При использовании алгоритма bwtsw для индексации полного генома человека требуется 5 ГБ памяти.
последовательности. Для краткого чтения ALN команда использует ~ 3.2 ГБ памяти, а сампе команда использует
~ 5.4 ГБ.
Скорость
Индексирование последовательностей генома человека занимает 3 часа с использованием алгоритма bwtsw. Индексирование меньше
геномы с алгоритмами IS быстрее, но требует больше памяти.
Скорость выравнивания во многом определяется частотой ошибок в запросных последовательностях (r).
Во-первых, BWA работает намного быстрее для почти идеальных совпадений, чем для совпадений с множеством различий,
и он прекращает поиск совпадения с l + 2 разностями, если найдено совпадение с l-разницей. Этот
означает, что BWA будет очень медленным, если r высокое, потому что в этом случае BWA должен посещать попадания с
много отличий и искать эти хиты дорого. Во-вторых, расклад
стоящий за ним алгоритм делает скорость чувствительной к [k log (N) / m], где k - максимально допустимый
различий, N - размер базы данных и m - длина запроса. На практике мы выбираем k
относительно r и, следовательно, r является ведущим фактором. Я бы не рекомендовал использовать BWA для данных
с r> 0.02.
Сопряжение выполняется медленнее для более коротких чтений. Это в основном потому, что при более коротких чтениях больше
ложные совпадения и преобразование координат SA в координаты хромосомы очень затратны.
ШАНГИ IN БВА-0.6
Начиная с версии 0.6, BWA может работать с эталонным геномом размером более 4 ГБ.
Эта функция позволяет интегрировать геном с прямым и обратным дополнением в
один FM-индекс, который ускоряет как BWA-short, так и BWA-SW. В качестве компромисса BWA использует больше
память, потому что она должна хранить все позиции и ранги в 64-битных целых числах, вдвое больше
чем 32-битные целые числа, используемые в предыдущих версиях.
Последний BWA-SW также работает для чтения на парном конце длиннее 100 бит / с. По сравнению с BWA-
Короче говоря, BWA-SW имеет тенденцию быть более точным для уникальных считываний и более устойчивым к
относительные длинные INDEL и структурные варианты. Тем не менее, у BWA-short обычно больше
способность отличать оптимальное попадание от многих неоптимальных. Выбор отображения
алгоритм может зависеть от приложения.
Используйте bwa в Интернете с помощью сервисов onworks.net