Это команда cutadapt, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
cutadapt - страница руководства для cutadapt 1.8.3
ОПИСАНИЕ
cutadapt версия 1.8.3 Авторские права © Марсель Мартин, 2010-2015 гг.[электронная почта защищена]>
cutadapt удаляет последовательности адаптеров из операций чтения с высокой пропускной способностью.
Применение:
вырезать -a АДАПТЕР [параметры] [-o output.fastq] input.fastq
Что касается парный конец гласит:
вырезать -a ADAPT1 -A ADAPT2 [параметры] -o out1.fastq -p out2.fastq вход1.fastq
in2.fastq
Замените «АДАПТЕР» фактической последовательностью вашего 3-футового адаптера. Подстановочные знаки IUPAC
поддерживаются. Обратное дополнение * не * автоматически ищется. Все читает из
input.fastq будет записан в output.fastq с удаленной последовательностью адаптера. Адаптер
сопоставление устойчиво к ошибкам. Можно указать несколько последовательностей адаптеров (используйте далее -a
options), но будет удален только наиболее подходящий адаптер.
Ввод также может быть в формате FASTA. Сжатый ввод и вывод поддерживается и
определяется автоматически по имени файла (.gz, .xz, .bz2). Используйте имя файла '-' для стандартного
ввод, вывод. Без -o вариант, вывод отправляется на стандартный вывод.
Некоторые другими доступен функции составляют:
* Различные другие типы адаптеров (адаптеры 5 ', "смешанные" адаптеры 5' / 3 'и т. Д.) *
Обрезка фиксированного количества оснований * Качественная обрезка * Считывание цветового пространства обрезки *
Фильтрация чтений по различным критериям
Используйте "cutadapt" --Помогите", чтобы увидеть все параметры командной строки. См.
http://cutadapt.readthedocs.org/ для полной документации.
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
--версия
показать номер версии программы и выйти
-h, --Помогите
показать это справочное сообщение и выйти
-f ФОРМАТ, --формат=ФОРМАТ
Формат входного файла; может быть fasta, fastq или sra-fastq. Игнорируется, когда
чтение файлов csfasta / qual (по умолчанию: автоматическое определение по расширению имени файла).
Параметры, влияющие на способ поиска адаптеров:
Каждый из следующих трех параметров (-a, -b, -g) можно использовать несколько раз и
в любой комбинации для поиска всего набора адаптеров, возможно, различных
типы. При каждом считывании отсекается только наиболее подходящий адаптер (но см.
- раз вариант). Вместо того, чтобы давать адаптер напрямую, вы также можете написать
file: FILE, и последовательности адаптеров будут считаны из данного ФАЙЛА (который должен быть
в формате FASTA).
-a ПЕРЕХОДНИК, --адаптер=Адаптер
Последовательность адаптера, который был лигирован к 3'-концу. Сам адаптер и
все последующее обрезается. Если последовательность адаптера заканчивается символом '$'
символ, адаптер привязывается к концу чтения и обнаруживается, только если это
суффикс прочитанного.
-g ПЕРЕХОДНИК, --передний=Адаптер
Последовательность адаптера, который был лигирован к 5'-концу. Если последовательность адаптера
начинается с символа '^', адаптер закреплен. Закрепленный адаптер должен
целиком появляются в конце чтения на 5 '(это префикс чтения). А
незакрепленный адаптер может частично выступать на 5-дюймовом конце или внутри
читать. Если он обнаружен при чтении, последовательность, предшествующая адаптеру, также
обрезаны. Во всех случаях обрезан сам переходник.
-b ПЕРЕХОДНИК, --в любом месте=Адаптер
Последовательность адаптера, который был лигирован с 5 'или 3' концом. Если адаптер
найденный в пределах считываемого или перекрывающего 3 'конец считывания, поведение является
то же, что и для -a вариант. Если адаптер перекрывает конец 5 футов (начало
read), начальная часть чтения, соответствующая адаптеру, обрезается, но
все последующее сохраняется.
-e ОШИБКА_RATE, --частота ошибок=ОШИБКА_RATE
Максимально допустимая частота ошибок (количество ошибок, деленное на длину сопоставления)
регион) (по умолчанию: 0.1)
--без вставок
Не допускайте отступов в выравнивании (допускайте только несовпадения). Только в настоящее время
поддерживается для закрепленных адаптеров. (по умолчанию: разрешены несоответствия и отступы)
-n СЧИТАТЬ, - раз=СЧИТАТЬ
Попробуйте удалить адаптеры не более COUNT раз. Полезно, когда добавляется адаптер
несколько раз (по умолчанию: 1).
-O ДЛИНА, --перекрывать=ДЛИНА
Минимальная длина внахлест. Если перекрытие между считываемым и адаптером короче
чем LENGTH, чтение не изменяется. Это снижает нет. баз чисто обрезано
из-за коротких случайных совпадений адаптеров (по умолчанию: 3).
--match-read-wildcards
Разрешить использование подстановочных знаков IUPAC при чтении (по умолчанию: False).
-N, --no-match-adapter-wildcards
Не интерпретируйте подстановочные знаки IUPAC в адаптерах.
Варианты фильтрации обработанных чтений:
--discard-обрезанный, --отказаться
Отбросить чтения, содержащие адаптер, вместо их обрезки. Также используйте -O in
чтобы не выбрасывать слишком много случайно совпадающих чтений!
--discard-необрезанный, --только-обрезанный
Отбросить чтения, не содержащие адаптер.
-m ДЛИНА, - минимальная длина=ДЛИНА
Отбросить обрезанные чтения, длина которых меньше LENGTH. Даже слишком короткие чтения
перед снятием адаптера также выбрасываются. В цветовом пространстве начальный праймер не
подсчитано (по умолчанию: 0).
-M ДЛИНА, --максимальная длина=ДЛИНА
Отбросить обрезанные чтения, длина которых превышает LENGTH. Даже слишком длинные чтения
перед снятием адаптера также выбрасываются. В цветовом пространстве начальный праймер не
подсчитано (по умолчанию: без ограничений).
- без обрезки
Сопоставлять и перенаправлять чтения в output / unrimmed-output как обычно, но не удалять
адаптеры.
--max-n=ДЛИНА
Максимально допустимая доля N при чтении. Число <1 будет рассматриваться как
пропорция, в то время как число> 1 будет рассматриваться как максимальное количество N
содержатся.
- маска-переходник
Замаскируйте адаптеры символами 'N' вместо их обрезки.
Параметры, влияющие на то, что будет выводиться и куда:
--тихий
Не печатайте отчет в конце.
-o ФАЙЛ, --выход=ФАЙЛОВ
Записать измененные чтения в ФАЙЛ. Формат FASTQ или FASTA выбирается в зависимости от ввода.
Сводный отчет отправляется на стандартный вывод. Используйте '{name}' в ФАЙЛЕ для демультиплексирования
читает в несколько файлов. (по умолчанию: обрезанные чтения записываются в стандартный вывод)
--info-файл=ФАЙЛОВ
Запишите информацию о каждом чтении и совпадении его адаптера в ФАЙЛ. Увидеть
документация по формату файла.
-r ФАЙЛ, --rest-файл=ФАЙЛОВ
Когда адаптер соответствует в середине чтения, запишите остальное (после
адаптер) в ФАЙЛ.
--wildcard-файл=ФАЙЛОВ
Если у адаптера есть подстановочные знаки ('N'), запишите базы адаптера, соответствующие подстановочному знаку.
позиции в ФАЙЛ. Когда в выравнивании есть инделки, это часто не выполняется.
точный.
--слишком короткий вывод=ФАЙЛОВ
Запись слишком коротких чтений (в соответствии с длиной, указанной -m) в ФАЙЛ.
(по умолчанию: сбросить чтения)
--слишком длинный вывод=ФАЙЛОВ
Запись слишком длинных операций чтения (в соответствии с длиной, указанной -M) в ФАЙЛ.
(по умолчанию: сбросить чтения)
--необрезанный-выход=ФАЙЛОВ
Записать в ФАЙЛ операции чтения, не содержащие адаптер. (по умолчанию: вывод в тот же файл
как обрезано читает)
Дополнительные изменения в чтениях:
-u ДЛИНА, --резать=ДЛИНА
Удаляйте базы ДЛИНА в начале или в конце каждого чтения. Если ДЛИНА положительна,
базы удаляются с начала каждого чтения. Если ДЛИНА отрицательна,
базы удаляются с конца каждого чтения. Этот параметр можно указать дважды, если
ДЛИНЫ имеют разные знаки.
-q [5'CUTOFF,] 3'CUTOFF, - качество-отсечка=[5'ОБРЕЗАТЬ,] 3' ВЫРЕЗАТЬ
Перед снятием адаптера обрежьте низкокачественные основания с концов считывателей 5 'и / или 3'. Если
дается одно значение, обрезается только 3 'конец. Если две отсечки, разделенные запятыми,
При этом 5-футовый конец обрезается первой обрезкой, 3-футовый конец - второй. В
алгоритм такой же, как у BWA (см. документацию). (по умолчанию: нет
обрезка)
- основа качества=QUALITY_BASE
Предположим, что значения качества закодированы как ascii (качество + QUALITY_BASE). В
default (33) обычно является правильным, за исключением операций чтения, производимых некоторыми версиями
Illumina pipeline, где это должно быть установлено на 64. (по умолчанию: 33)
--trim-н
Обрежьте N на концах чтения.
-x ПРИСТАВКА, --приставка=ПРЕФИКС
Добавьте этот префикс, чтобы читать имена
-y СУФФИКС, --суффикс=СУФФИКС
Добавьте этот суффикс, чтобы читать имена
--strip-суффикс=STRIP_SUFFIX
Удалите этот суффикс из имен чтения, если он присутствует. Можно давать несколько раз.
-c, --цветовое пространство
Режим цветового пространства: также обрежьте цвет рядом с найденным адаптером.
-d, - двойное кодирование
В цветовом пространстве дважды кодируйте цвета (сопоставьте 0,1,2,3,4 с A, C, G, T, N).
-t, - трим-праймер
Находясь в цветовом пространстве, обрежьте основу грунтовки и первый цвет (который является переходным
к первому нуклеотиду)
--strip-f3
Для цветового пространства: уберите суффикс _F3 читаемых имен
--мак, --бва
Вывод в цветовом пространстве, совместимый с MAQ и BWA. Это позволяет -c, -d, -t, --strip-f3 и
-y '/ 1'.
- длина-тег=TAG
Найдите TAG с последующим десятичным числом в поле описания прочитанного.
Замените десятичное число на правильную длину обрезанного считывания. Для
например, используйте - длина-тег 'length =', чтобы исправить поля, такие как 'length = 123'.
--без нулевой кепки
Не изменяйте отрицательные значения качества на ноль. Значения качества цветового пространства -1
будет отображаться как пробелы в выходном файле FASTQ. Поскольку у многих инструментов есть проблемы
при этом отрицательные качества преобразуются в ноль при обрезке данных цветового пространства.
Используйте этот вариант, чтобы сохранить отрицательные качества.
-z, - нулевая крышка
Измените отрицательные значения качества на ноль. Это включено по умолчанию, когда
-c/ - также включено цветовое пространство. Используйте вышеуказанный параметр, чтобы отключить его.
Парные варианты:
" -AПараметры / -G / -B / -U работают так же, как и их -a/ -b / -g / -u аналоги.
-A Адаптер
3 'адаптер снимается со второго считывания в паре.
-G Адаптер
5 'адаптер снимается со второго считывания в паре.
-B Адаптер
Адаптер 5 '/ 3 должен быть удален из второго чтения в паре.
-U ДЛИНА
Удаляйте базы ДЛИНА в начале или в конце каждого чтения (см. --резать).
-p ФАЙЛ, - парный выход=ФАЙЛОВ
Записать второе чтение в паре в ФАЙЛ.
--untrimmed-парный выход=ФАЙЛОВ
Запишите второе чтение в паре в этот ФАЙЛ, если в первом не было найдено ни одного адаптера.
читать. Используйте эту опцию вместе с --необрезанный-выход при обрезке пары
читает. (По умолчанию: вывод в тот же файл, что и при усеченном чтении.)
Используйте cutadapt онлайн с помощью сервисов onworks.net