Это команда bcftools, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
samtools - Утилиты для формата Sequence Alignment / Map (SAM)
bcftools - Утилиты для двоичного формата вызовов (BCF) и VCF
СИНТАКСИС
представление samtools -bt ref_list.txt -o aln.bam aln.sam.gz
samtools сортировка aln.bam aln.sorted
индекс samtools aln.sorted.bam
samtools idxstats aln.sorted.bam
samtools просмотр aln.sorted.bam chr2: 20,100,000-20,200,000
samtools объединить out.bam in1.bam in2.bam in3.bam
samtools faidx ref.fasta
samtools pigup -vcf ref.fasta aln.sorted.bam
samtools mpileup -C50 -gf ref.fasta -r chr3: 1,000-2,000 дюймов1.bam in2.bam
samtools tview aln.sorted.bam ref.fasta
индекс bcftools в .bcf
bcftools просмотреть in.bcf chr2: 100-200> out.vcf
Просмотр bcftools -Nvm0.99 in.bcf> out.vcf 2> out.afs
ОПИСАНИЕ
Samtools - это набор утилит, управляющих выравниванием в формате BAM. Он импортирует
из формата SAM (Sequence Alignment / Map) и экспорт в него, выполняет сортировку, объединение и
индексация и позволяет быстро извлекать чтения в любых регионах.
Samtools предназначен для работы с потоком. Считает входной файл `- 'стандартным
input (stdin) и выходной файл `- 'в качестве стандартного вывода (stdout). Несколько команд могут
таким образом можно комбинировать с конвейерами Unix. Samtools всегда выводит предупреждения и сообщения об ошибках в
стандартный вывод ошибок (stderr).
Samtools также может открывать файл BAM (не SAM) на удаленном FTP- или HTTP-сервере, если
Имя файла BAM начинается с ftp: // или http: //. Samtools проверяет текущую рабочую
каталог для индексного файла и загрузит индекс в случае его отсутствия. Samtools не делает
получить весь файл выравнивания, если этого не попросят.
САМОТУЛС КОМАНДЫ И ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
view просмотр samtools [-bchuHS] [-t in.refList] [-o output] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l библиотека] [-r группа чтения] [-R rgFile] | [регион1
[...]]
Извлеките / распечатайте все или частичные выравнивания в формате SAM или BAM. Если нет региона
указано, все выравнивания будут напечатаны; иначе только выравнивания
будут выведены перекрывающиеся указанные регионы. Выравнивание может быть дано
несколько раз, если он перекрывает несколько регионов. Регион может быть представлен,
например, в следующем формате: `chr2 '(весь chr2),` chr2: 1000000'
(регион, начинающийся с 1,000,000 бп) или `chr2: 1,000,000-2,000,000 '(регион между
1,000,000 2,000,000 1 и XNUMX XNUMX XNUMX б.п., включая конечные точки). Координата отсчитывается от XNUMX.
ОПЦИИ:
-b Вывод в формате BAM.
-f INT Выводить только выравнивания со всеми битами в INT, присутствующими в поле FLAG.
INT может быть шестнадцатеричным в формате / ^ 0x [0-9A-F] + / [0]
-F INT Пропустить выравнивание с битами, присутствующими в INT [0]
-h Включите заголовок в вывод.
-H Выводить только заголовок.
-l STR Выводить только чтения в библиотеке STR [null]
-o ФАЙЛОВ Выходной файл [stdout]
-q INT Пропустить выравнивания с MAPQ меньше INT [0]
-r STR Только чтение вывода в группе чтения STR [null]
-R ФАЙЛОВ Выходные чтения в группах чтения, перечисленных в ФАЙЛОВ [значение NULL]
-s FLOAT Доля шаблонов / пар для подвыборки; целая часть лечится
в качестве начального числа для генератора случайных чисел [-1]
-S Ввод в SAM. Если строки заголовка @SQ отсутствуют, `-t ' опция
требуется.
-c Вместо того, чтобы печатать выравнивания, просто подсчитайте их и распечатайте
общее число. Все параметры фильтра, например `-f ', `-F ' и `-q ' , Являются
учтено.
-t ФАЙЛОВ Этот файл разделен табуляцией. Каждая строка должна содержать название ссылки
и длина ссылки, по одной строке для каждой отдельной ссылки;
дополнительные поля игнорируются. Этот файл также определяет порядок
ссылочные последовательности в сортировке. Если вы запустите `samtools faidx ',
результирующий индексный файл .fai можно использовать как это
.
-u Вывести несжатый BAM. Эта опция экономит время, потраченное на
сжатие / распаковка и поэтому предпочтительнее, когда вывод
передан другой команде samtools.
TView самтулс твью [-p chr: pos] [-s STR] [-d дисплей] [ref.fasta]
Программа просмотра выравнивания текста (на основе библиотеки ncurses). В программе просмотра нажмите `? '
для получения справки и нажмите `g ', чтобы проверить начало выравнивания с области в формате
например chr10: 10,000,000 или = 10,000,000 при просмотре той же ссылки
последовательность.
Опции:
-d дисплей Вывести как (H) tml или (C) urses или (T) ext
-p chr: pos Перейти прямо к этой позиции
-s STR Отображать только чтения из этого образца или группы чтения
скопление Samtools mpileup [-EBugp] [-C capQcoef] [-r Редж] [-f ин.фа] [-l список] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] дюйм бам [in2.бам [...]]
Сгенерируйте BCF или pileup для одного или нескольких файлов BAM. Записи о выравнивании
сгруппированы по образцам идентификаторов в строках заголовка @RG. Если идентификаторы образцов
отсутствует, каждый входной файл рассматривается как один образец.
В формате pileup (без -uor-g), каждая линия представляет геномную позицию,
состоящий из имени хромосомы, координаты, справочной базы, считывания баз, считывания
качества и качества сопоставления карт. Информация о совпадении, несовпадении,
indel, strand, качество отображения, а также начало и конец чтения кодируются в
базовый столбец чтения. В этом столбце точка обозначает совпадение со ссылкой.
основание на прямой нити, запятая для совпадения на обратной нити, '>' или
'<' для ссылочного пропуска, 'ACGTN' для несоответствия в прямой цепи и
acgtn - несоответствие на обратной нити. Шаблон `\ + [0-9] + [ACGTNacgtn] + '
указывает на вставку между этой ссылочной позицией и следующей
исходное положение. Длина вставки задается целым числом в
шаблон, за которым следует вставленная последовательность. Аналогично узор
`- [0-9] + [ACGTNacgtn] + 'означает удаление из ссылки. Удаленный
базы будут представлены как `* 'в следующих строках. Также в базе чтения
В столбце символ `^ 'отмечает начало чтения. ASCII символа
следующий за `^ 'минус 33 дает качество отображения. Символ `$ 'отмечает конец
прочитанный сегмент.
вход Опции:
-6 Предположим, что качество находится в кодировке Illumina 1.3+. -A Не пропускать
аномальные пары чтения в вариантном вызове.
-B Отключить вероятностное выравнивание для вычисления базы
качество центровки (BAQ). BAQ - это вероятность чтения по шкале Phred.
база смещена. Применение этой опции значительно снижает
ложные SNP, вызванные несогласованностью.
-b ФАЙЛОВ Список входных файлов BAM, по одному файлу в строке [null]
-C INT Коэффициент снижения качества отображения для чтений, содержащих
чрезмерные несовпадения. Учитывая чтение с вероятностью q по шкале phred
генерируется из отображаемой позиции, новое качество отображения
о sqrt ((INT-q) / INT) * INT. Нулевое значение отключает это
функциональность; если включено, рекомендуемое значение для BWA - 50. [0]
-d INT На позиции читать максимально INT читает на вход BAM. [250]
-E Расширенный расчет BAQ. Эта опция помогает повысить чувствительность, особенно при
MNP, но это может немного повлиять на специфику.
-f ФАЙЛОВ Команда Faidx-индексированный справочный файл в формате FASTA. Файл может быть
необязательно сжатый разархивировать. [нулевой]
-l ФАЙЛОВ BED или файл списка позиций, содержащий список регионов или участков, где
pileup или BCF должны быть сгенерированы [null]
-q INT Минимальное качество сопоставления для используемой трассы [0]
-Q INT Минимальное качество основания для рассмотрения [13]
-r STR Создавать только pileup в регионе STR [все сайты]
Результат Опции:
-D Вывод на выборку глубины чтения
-g Вычислить вероятности генотипа и вывести их в двоичном формате вызова
(БКФ).
-S Выходное значение P-значение смещения цепи по шкале Phred
-u Похожий на что -g за исключением того, что на выходе получается несжатый BCF, который
предпочтительнее для трубопроводов.
Возможности для Генотип Вероятность Вычисление (для -g or -у):
-e INT Вероятность ошибки секвенирования при увеличении промежутка в масштабе Phred. Сокращение INT
приводит к более длинным инделкам. [20]
-h INT Коэффициент для моделирования ошибок гомополимеров. Учитывая l-долго
гомополимерный прогон, ошибка секвенирования меньше размера s моделируется
as INT*s/l. [100]
-I Не звоните в INDEL
-L INT Пропустите вызов INDEL, если средняя глубина выборки выше INT.
[250]
-o INT Вероятность ошибки при открытии пробелов в масштабе Phred. Сокращение INT лиды:
для дополнительных вызовов. [40]
-p Примените пороги -m и -F для каждого образца, чтобы повысить чувствительность
звонит. По умолчанию оба параметра применяются к показаниям, объединенным со всех
образцы.
-P STR Список платформ, разделенный запятыми (определяется @ RG-PL) из которого
получены кандидаты в индел. Рекомендуется собирать индель
кандидаты из технологий секвенирования, которые имеют низкую частоту ошибок в индексе
такие как ИЛЛЮМИНА. [все]
читатель samtools reheader
Заменить заголовок в дюйм бам с заголовком в in.header.sam. Эта команда
намного быстрее, чем замена заголовка преобразованием BAM-> SAM-> BAM.
кошка samtools cat [-h header.sam] [-o out.bam] [...]
Объедините BAM. Словарь последовательностей каждого входного BAM должен быть идентичным,
хотя эта команда не проверяет это. Эта команда использует аналогичный прием
читатель что обеспечивает быструю конкатенацию BAM.
sort samtools sort [-nof] [-m maxMem]
Сортировать выравнивания по крайним левым координатам. Файл .bam будет создан.
Эта команда также может создавать временные файлы .% d.bam когда весь
выравнивание не может быть помещено в память (управляется опцией -m).
ОПЦИИ:
-o Выведите окончательное выравнивание на стандартный вывод.
-n Сортировать по прочитанным именам, а не по хромосомным координатам
-f Используйте как полный выходной путь и не добавляйте .бам суффикс.
-m INT Примерно максимально необходимая память. [500000000]
слияние samtools merge [-nur1f] [-h inh.sam] [-R reg]
[...]
Объедините несколько отсортированных выравниваний. Справочные списки заголовков всех входных
Файлы BAM и заголовки @SQ инх.сам, если таковые имеются, все должны относиться к одному и тому же
набор эталонных последовательностей. Список ссылок заголовка и (если он не переопределен
-h) `@ 'заголовки in1.бам будет скопировано в аут.бам, и заголовки других
файлы будут проигнорированы.
ОПЦИИ:
-1 Используйте уровень сжатия zlib 1 для сжатия вывода
-f Принудительно перезаписать выходной файл, если он есть.
-h ФАЙЛОВ Используйте строки ФАЙЛОВ как заголовки `@ ', которые нужно скопировать в аут.бам, заменяя
любые строки заголовка, которые иначе были бы скопированы из in1.бам, (ФАЙЛОВ is
фактически в формате SAM, хотя любые записи о выравнивании, которые он может содержать, являются
игнорируется.)
-n Входные выравнивания сортируются по именам чтения, а не по хромосомам.
координаты
-R STR Объединить файлы в указанном регионе, обозначенном значком STR [значение NULL]
-r Прикрепите тег RG к каждой трассе. Значение тега выводится из файла
имена.
-u Несжатый выход BAM
индекс индекс samtools
Выравнивание с сортировкой по индексу для быстрого произвольного доступа. Индексный файл .bai будет
создано.
idxstats samtools idxstats
Получите и распечатайте статистику в индексном файле. Выходные данные разделены табуляцией
каждая строка, состоящая из имени ссылочной последовательности, длины последовательности, # отображенных чтений
и # несопоставленных чтений.
Faidx Samtools Faidx [регион1 [...]]
Индексируйте ссылочную последовательность в формате FASTA или извлеките подпоследовательность из проиндексированных
эталонная последовательность. Если регион не указан, Faidx проиндексирует файл и
Создайте .fai на диске. Если регионы указаны, подпоследовательности
будет извлечен и напечатан на стандартный вывод в формате FASTA. Входной файл может
быть сжатым в РАЗФ формат.
фиксированный товарищ samtools fixmate
Заполните координаты сопряжения, ISIZE и флаги сопряжения из отсортированного по имени
выравнивание.
rmdup samtools rmdup [-sS]
Удалите потенциальные дубликаты ПЦР: если несколько пар чтения имеют идентичные внешние
координаты, сохраните только пару с наивысшим качеством отображения. В паре-
конец режима, эта команда ТОЛЬКО работает с ориентацией FR и требует ISIZE
правильно поставил. Это не работает для непарных чтений (например, два конца сопоставлены с
разные хромосомы или сиротские чтения).
ОПЦИИ:
-s Удалите дубликаты для односторонних чтений. По умолчанию команда работает для
парный конец только для чтения.
-S Рассматривайте парные и односторонние чтения.
успокоенный Samtools успокоился [-EeubSr] [-C capQcoef]
Создайте тег MD. Если тег MD уже присутствует, эта команда выдаст
предупреждение, если сгенерированный тег MD отличается от существующего тега. Выход SAM
по умолчанию.
ОПЦИИ:
-A При совместном использовании с -r эта опция перезаписывает исходную базу
качество.
-e Преобразуйте базу чтения в =, если она идентична выровненной ссылке.
база. Вызывающая программа Indel в настоящий момент не поддерживает базы =.
-u Вывод несжатого BAM
-b Выходной сжатый BAM
-S Вход - SAM со строками заголовка.
-C INT Коэффициент, ограничивающий качество отображения плохо отображаемых чтений. Увидеть
наложение для подробностей. [0]
-r Вычислить тег BQ (без -A) или ограничить базовое качество с помощью BAQ (с -A).
-E Расширенный расчет BAQ. Эта опция торгует специфичностью для
чувствительность, хотя эффект незначительный.
мишень samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
ref]
Эта команда определяет целевые регионы, проверяя непрерывность чтения.
глубины, вычисляет гаплоидные согласованные последовательности целей и выводит SAM с
каждая последовательность соответствует цели. Когда вариант -f используется, BAQ будет
применяемый. Эта команда Важно предназначен для вырезания клонов фосмид из фосмид
секвенирование пула [Ref. Kitzman et al. (2010)].
фаза фаза samtools [-AF] [-k len] [префикс -b] [-q minLOD] [-Q minBaseQ]
Вызов и фаза гетерозиготных SNP. ОПЦИИ:
-A Падение читает с неоднозначной фазой.
-b STR Префикс вывода BAM. Когда используется эта опция, чтения фазы 0 будут
сохранено в файле STR.0.bam и фаза 1 читается в STR.1.bam. Фаза неизвестна
чтения будут случайным образом назначены одному из двух файлов. Химерик читает
с ошибками переключения будут сохранены в STR.chimeric.bam. [нулевой]
-F Не пытайтесь исправить химерные чтения.
-k INT Максимальная длина для локальной фазировки. [13]
-q INT Минимальный уровень детализации по шкале Phred для вызова гетерозиготы. [40]
-Q INT Минимальное базовое качество для использования в хет-звонках. [13]
БКФТУЛС КОМАНДЫ И ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
view bcftools view [-AbFGNQSucgv] [-D seqDict] [-l listLoci] [-s списокОбразец] [-i
разрывSNPratio] [-t мутрейт] [-p варТрес] [-m варТрес] [-P предшествующий] [-1 нГрупп1]
[-d минфрак] [-U nПермь] [-X пермьThres] [-T триоТип] in.bcf [область]
Преобразование между BCF и VCF, вызов вариантов кандидатов и оценка аллеля
частот.
Ввод, вывод Опции:
-A Сохраните все возможные альтернативные аллели на вариантных сайтах. По умолчанию,
команда просмотра отбрасывает маловероятные аллели.
-b Вывод в формате BCF. По умолчанию - VCF.
-D ФАЙЛОВ Словарь последовательностей (список имен хромосом) для преобразования VCF-> BCF
[значение NULL]
-F Укажите, что PL сгенерирован r921 или ранее (порядок другой).
-G Скрыть всю индивидуальную информацию о генотипе.
-l ФАЙЛОВ Список сайтов, с которых выводится информация [все сайты]
-N Пропускать сайты, где поле REF не A / C / G / T
-Q Вывести формат правдоподобия QCALL
-s ФАЙЛОВ Список образцов для использования. Первый столбец входных данных дает образец
имена, а второй дает плоидность, которая может быть только 1 или 2. Когда
2-й столбец отсутствует, плоидность выборки принята равной 2. В
вывод, порядок образцов будет таким же, как в ФАЙЛОВ.
[значение NULL]
-S Вводится VCF вместо BCF.
-u Несжатый вывод BCF (принудительно -b).
Консенсус / вариант призвание Опции:
-c Вызов вариантов с использованием байесовского вывода. Эта опция автоматически
вызывает опцию -e.
-d FLOAT После появления -v используется, пропустите локусы, где доля проб, покрытых
читает ниже FLOAT. [0]
-e Выполнять только вывод максимального правдоподобия, включая оценку сайта
частота аллелей, тестирование равновесия Харди-Вайнберга и тестирование
ассоциации с LRT.
-g Вызов генотипов для каждого образца на вариантных сайтах (принудительно -c)
-i FLOAT Отношение частоты мутаций INDEL к SNP [0.15]
-m FLOAT Новая модель для улучшенного мультиаллельного и редкого вызова. Другой
Аллель ALT принимается, если P (chi ^ 2) LRT превышает порог FLOAT.
Параметр кажется надежным, и фактическое значение обычно не соответствует действительности.
сильно влияют на результат; хорошее значение для использования - 0.99. Это
рекомендуемый метод вызова. [0]
-p FLOAT Сайт считается вариантом, если P (ref | D)
-P STR Частотный спектр предшествующего или исходного аллеля. Если STR может быть полный, условие2,
плоский или файл, состоящий из вывода ошибок из предыдущего варианта
вызов, беги.
-t FLOAT Масштабируемая скорость мутации для вызова варианта [0.001]
-T STR Включить вызов пары / тройки. Для звонка трио, опция -s Обычно
необходимо было применить для настройки членов трио и их упорядочивания.
В прилагаемом файле к опции -s, первый образец должен быть
ребенок, второй отец и третий мать. Действительный
значения STR "пара", "триоавто", "триокс" и "триоксы", где
пара вызывает различия между двумя входными сэмплами, а trioxd
(`trioxs ') указывает, что вход от Х-хромосомы не-PAR
регионы и ребенок женского пола (мужского пола). [нулевой]
-v Только сайты с вариантами вывода (принудительно -c)
контраст призвание и Фонды и ассоциации Тест Опции:
-1 INT Количество образцов группы-1. Эта опция используется для разделения
образцы на две группы для контрастного вызова SNP или теста ассоциации.
Когда используется эта опция, будет выведена следующая ИНФОРМАЦИЯ О VCF:
PC2, PCHI2 и QCHI2. [0]
-U INT Количество перестановок для ассоциативного теста (эффективно только с -1)
[0]
-X FLOAT Выполняйте перестановки только для P (chi ^ 2) -U)
[0.01]
индекс bcftools индекс in.bcf
Индексируйте отсортированный BCF для произвольного доступа.
кошка bcftools кошка in1.bcf [in2.bcf [...]]]
Объедините файлы BCF. Входные файлы должны быть отсортированы и иметь
идентичные образцы появляются в том же порядке.
SAM ФОРМАТ
Формат Sequence Alignment / Map (SAM) разделен табуляцией. Помимо строк заголовков, которые
начинаются с символа `@ ', каждая строка выравнивания состоит из:
┌────┬───────┬────────────────────────────────────── ───────────────────────
│Седло │ Поиск │ Описание │
├────┼───────┼────────────────────────────────────── ───────────────────────
│ 1 │ QNAME │ Шаблон запроса / ИМЯ пары │
│ 2 │ ФЛАГ │ побитовый ФЛАГ │
│ 3 │ RNAME │ Ссылочная последовательность NAME │
│ 4 │ POS │ Крайняя левая позиция на основе 1 / координата обрезанной последовательности │
│ 5 │ MAPQ │ Качество отображения (в масштабе Phred) │
│ 6 │ CIAGR │ расширенная строка CIGAR │
│ 7 │ MRNM │ Сопряжение Ссылочная последовательность NaMe (`= ', если то же, что и RNAME) │
│ 8 │ MPOS │ Mate POSistion на основе 1 │
│ 9 │ TLEN │ предполагаемая ДЛИНА шаблона (размер вставки) │
│10 │ SEQ │ запрос SEQuence на той же цепи, что и эталон │
│11 │ КАЧЕСТВО │ КАЧЕСТВО запроса (ASCII-33 дает базовое качество Phred) │
│12 + │ OPT │ переменная ДОПОЛНИТЕЛЬНЫЕ поля в формате TAG: VTYPE: VALUE │
└────┴───────┴─────────────────────────────────────── ───────────────────────
Каждый бит в поле FLAG определяется как:
┌───────┬─────┬───────────────────────────────────── ────────────────┐
│ Флаг │ Chr │ Описание │
├───────┼─────┼───────────────────────────────────── ───────────────┤
│0x0001 │ p │ чтение попарно в последовательности │
│0x0002 │ P │ чтение отображается в правильную пару │
│0x0004 │ u │ сама последовательность запроса не отображается │
│0x0008 │ U │ помощник не отображается │
│0x0010 │ r │ цепочка запроса (1 для обратного) │
│0x0020 │ R │ прядь ответной │
│0x0040 │ 1 │ чтение - первое чтение в паре │
│0x0080 │ 2 │ чтение - второе чтение в паре │
│0x0100 │ s │ расклад не первичный │
│0x0200 │ f при чтении не удается проверить качество платформы / поставщика │
│0x0400 │ d │ чтение - ПЦР или оптический дубликат │
└───────┴─────┴────────────────────────────────────── ───────────────┘
где второй столбец дает строковое представление поля FLAG.
VCF ФОРМАТ
Variant Call Format (VCF) - это формат с разделителями TAB, в котором каждая строка данных состоит из
следующие поля:
┌────┬────────┬───────────────────────────────────── ────────────────────────────
│Седло │ Поиск │ Описание │
├────┼────────┼───────────────────────────────────── ────────────────────────────
│ 1 │ ХРОМ │ Имя ХРОМосомы │
│ 2 │ POS │ крайняя левая позиция варианта │
│ 3 │ ID │ уникальный идентификатор варианта
│ 4 │ REF │ аллель REFerence │
│ 5 │ ALT │ аллель (ы) ALTernate, разделенные запятой │
│ 6 │ КАЧЕСТВО │ вариант / ссылка КАЧЕСТВО │
│ 7 │ ФИЛЬТР │ Фильтры применены │
│ 8 │ ИНФОРМАЦИЯ │ ИНФОРМАЦИЯ, относящаяся к варианту, разделенная точкой с запятой │
│ 9 │ ФОРМАТ │ ФОРМАТ полей генотипа, разделенных двоеточием (необязательно) │
│10 + │ ОБРАЗЕЦ │ Генотипы ОБРАЗЦА и информация для каждого образца (необязательно) │
└────┴────────┴───────────────────────────────────── ────────────────────────────
Следующая таблица дает ИНФОРМАЦИЯ теги, используемые samtools и bcftools.
┌──────┬───────────┬──────────────────────────────── ───────────────────────────────────────────────────── ─────────────────────
│ Тег │ Формат │ Описание │
├──────┼───────────┼─────────────────────────────── ───────────────────────────────────────────────────── ─────────────────────
└──────┴───────────┴──────────────────────────────── ───────────────────────────────────────────────────── ─────────────────────
ПРИМЕРЫ
o Импортировать SAM в BAM, когда @SQ в заголовке присутствуют строки:
samtools view -bS aln.sam> aln.bam
If @SQ строки отсутствуют:
Samtools faidx ref.fa
просмотр samtools -bt ref.fa.fai aln.sam> aln.bam
в котором ref.fa.fai генерируется автоматически Faidx команда.
o Прикрепите RG тег при объединении отсортированных выравниваний:
perl -e 'печать
"@RG \ tID: ga \ tSM: hs \ tLB: ga \ tPL: Illumina \ n @ RG \ tID: 454 \ tSM: hs \ tLB: 454 \ tPL: 454 \ n" '> rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam
Значение в RG Тег определяется именем файла, из которого происходит чтение. В этом
например, в объединенный.бам, читает из га.бам будет прикреплен RG: Z: ga, а читает из
454.бам будет прикреплен RG: Z: 454.
o Назовите SNP и короткие INDEL для одного диплоида:
samtools mpileup -ugf ref.fa aln.bam | просмотр bcftools -bvcg -> var.raw.bcf
bcftools просмотреть var.raw.bcf | vcfutils.pl varFilter -D 100> var.flt.vcf
Команда -D опция varFilter контролирует максимальную глубину чтения, которая должна быть настроена на
примерно вдвое больше средней глубины чтения. Можно подумать о добавлении -С50 в скопление если отображение
качество переоценивается для считываний, содержащих чрезмерное количество несовпадений. Применяя эту опцию
обычно помогает BWA-короткий но не могут другие картографы.
o Создайте согласованную последовательность для одного диплоида:
samtools mpileup -uf ref.fa aln.bam | bcftools view -cg - | vcfutils.pl vcf2fq>
cns.fq
o Вызов соматических мутаций из пары образцов:
samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -> var.bcf
В выходном поле INFO, CLR дает соотношение Phred-log между вероятностью
обработка двух образцов независимо, и вероятность того, что генотип будет
быть идентичным. Этот CLR фактически является шкалой, измеряющей уверенность в соматическом
звонки. Чем выше, тем лучше.
o Call de novo и соматические мутации из семейного трио:
samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt ->
var.bcf
Файл образцы.txt должен состоять из трех строк, определяющих член и порядок
образцы (в порядке ребенок-отец-мать). Сходным образом, CLR дает Phred-журнал
отношение правдоподобия с ограничением трио и без него. ВСТ показывает наиболее вероятный
конфигурация генотипа без ограничения трио, и CGT дает наиболее вероятный
конфигурация генотипа, удовлетворяющая ограничению трио.
o Человек первой фазы:
samtools quietd -AEur aln.bam ref.fa | samtools префикс фазы -b -> phase.out
Команда успокоенный команда используется для уменьшения числа ложных гетерозигот вокруг INDEL.
o Позвоните в SNP и короткие ссылки для нескольких диплоидов:
samtools mpileup -P ILLUMINA -ugf ref.fa * .bam | bcftools просмотр -bcvg -> var.raw.bcf
bcftools просмотреть var.raw.bcf | vcfutils.pl varFilter -D 2000> var.flt.vcf
Лица идентифицированы из SM теги в @РГ строки заголовка. Частные лица могут быть
объединены в один файл выравнивания; одно лицо также может быть разделено на несколько файлов.
Команда -P опция указывает, что кандидаты в индел должны собираться только из групп чтения
с @ RG-PL тег установлен в ИЛЛЮМИНА. Сбор кандидатов на indel из упорядоченных чтений
с помощью технологии, склонной к indel, может повлиять на производительность вызова indel.
Обратите внимание, что есть новая модель вызова, которая может быть вызвана
Просмотр bcftools -m0.99 ...
который устраняет некоторые серьезные ограничения метода по умолчанию.
Для фильтрации наилучшие результаты кажутся достижимыми, если сначала применить СнпГап фильтр и
затем применив подход машинного обучения
vcf-annotate -f SnpGap = n
vcf фильтр ...
Оба можно найти в vcftools и htslib пакет (ссылки ниже).
o Получите частотный спектр аллелей (AFS) в списке сайтов от нескольких лиц:
samtools mpileup -Igf ref.fa * .bam> all.bcf
bcftools просмотр -bl sites.list all.bcf> sites.bcf
bcftools view -cGP cond2 sites.bcf> / dev / null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf> / dev / null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf> / dev / null 2> sites.3.afs
......
в котором сайты.список содержит список сайтов, каждая строка которого состоит из ссылки
название и позиция последовательности. Следующий bcftools Команды оценивают AFS по EM.
o Сбросить примененное выравнивание BAQ для других вызывающих SNP:
samtools quietd -bAr aln.bam> aln.baq.bam
Он добавляет и исправляет NM и MD теги одновременно. В успокоенный команда также приходит
с -C вариант, такой же, как и в наложение и скопление. Подайте заявку, если это поможет.
ОГРАНИЧЕНИЯ
o невыровненные слова, используемые в bam_import.c, bam_endian.h, bam.c и bam_aux.c.
o Samtools paired-end rmdup не работает для непарных чтений (например
сопоставлены с разными хромосомами). Если это вызывает беспокойство, используйте Picard's
MarkDuplicate, который правильно обрабатывает эти случаи, хотя и немного медленнее.
Используйте bcftools онлайн с помощью сервисов onworks.net