англійськафранцузькаіспанська

Значок OnWorks

pbbarcode - онлайн у хмарі

Запустіть pbbarcode у постачальнику безкоштовного хостингу OnWorks через Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

Це команда pbbarcode, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

ПРОГРАМА:

ІМ'Я


pbbarcode - анотує зчитування послідовності PacBio інформацією про штрих-код

ОПИС


Команда pbbarcode Пакет надає утиліти для анотування окремих ZMW безпосередньо з a
bas.h5, випромінюючи файли fast[a|q] для кожного штрих-коду, вирівнювання етикеток, що зберігаються в
cmp.h5 та виклик консенсусу щодо невеликих ампліконів (потрібно pbdagcon(1))

На даний момент штрих-коди можна оцінити двома різними способами: симетричний та парний.
Симетричний режим підтримує дизайн штрих-коду з двома однаковими штрих-кодами з обох боків a
SMRTbell, наприклад, для штрих-кодів (A, B), молекули позначаються як A--A або B--B. The парний
Режим підтримує проекти з двома різними штрих-кодами на кожній стороні молекули, але ні
штрих-код з'являється без свого партнера. Мінімальний приклад наведено з наступним
штрих-коди: (ALleft, ARight, BLeft, BRight), де перевіряються такі набори штрих-кодів:
AЛіворуч--AПраворуч, BЛіворуч--BRПраворуч.

Важливо підкреслити, що файл штрих-коду FASTA визначає список доступних
штрих-коди для оцінки. Залежно від режиму оцінки штрих-коди групуються разом
різні шляхи. Наприклад, в симетричний case, номер можливого штрих-коду
Результати – це просто кількість штрих-кодів, які надаються підпрограмі в FASTA
файл (про використання див. нижче) плюс додатковий NULL штрих-код, що вказує на відсутність штрих-коду
можна оцінити (позначається: '--'). У фіналі використовуються такі мітки (A--A).
виходи. В парний в режимі, кількість можливих результатів штрих-коду вдвічі менша
послідовностей у файлі FASTA плюс NULL штрих-код. The NULL штрих-код вказує на це
не було зроблено жодної спроби оцінити молекулу або вона була відфільтрована за критеріями користувача.
Більшість випадків, коли молекула не оцінена, пов’язана з неспостереженням
адаптери. Якщо користувач виконав запуск "гарячого старту", він може спробувати "--scoreFirst"
параметр, щоб спробувати позначити штрих-код першого адаптера. Це підвищує врожайність
процедура маркування за рахунок деяких, ймовірно, помилкових результатів.

Програмне забезпечення реалізовано як стандартний пакет Python. Штрих-коди маркуються відповідно
до такої логіки високого рівня. Для кожної молекули знайдено всі адаптери. Для кожного
адаптер, ми вирівнюємо (використовуючи стандартне вирівнювання Сміта-Уоттермана) кожен штрих-код і його реверс
доповнення до флангової послідовності адаптера. Якщо є дві повні фланкуючі послідовності
доступна, ми ділимо на 2, інакше 1, якщо була доступна лише одна фланкуюча послідовність (середня
оцінка на адаптері). Це дозволяє оцінкам адаптерів бути на одній шкалі (химера
виявлення). Залежно від режим, потім ми визначаємо, які штрих-код(и) є максимальними
оцінка. Ми зберігаємо два штрих-коди з максимальною оцінкою, суму їх балів вирівнювання
через адаптери. Середня оцінка штрих-коду може бути дана приблизно наступним чином:
загальний бал/кількість адаптерів. На даний момент параметри вирівнювання фіксуються на:

┌───────────┬───────┐
│тип │ оцінка │
├───────────┼────────┤
│вставка │ -1 │
├───────────┼────────┤
│видалення │ -1 │
├───────────┼────────┤
│невідповідність │ -2 │
├───────────┼────────┤
│матч │ 2 │
└───────────┴───────┘

вхід та вихід
labelZmws
Використання: pbbarcode labelZmws [-год] [--outDir OUTDIR] [--outFofn OUTFOFN]
[--adapterSidePad ADAPTERSIDEPAD] [--insertSidePad INSERTSIDEPAD] [--scoreMode
{симетричні,парні}] [--maxAdapters MAXADAPTERS] [--scoreFirst]
[--startTimeCutoff STARTTIMECUTOFF] [--nZmws NZMWS] [--nProcs NPROCS]
[--saveExtendedInfo] barcode.fasta input.fofn

Створює файл штрих-коду.h5 з базових файлів h5.

позиційний аргументи:
barcode.fasta Вхідний штрих-код fasta файл input.fofn База введення
fofn

необов'язковий аргументи:

-h, --допомога
показати це повідомлення довідки та вийти

--outDir OUTDIR
Куди записати щойно створені файли barcode.h5. (за замовчуванням:
/home/UNIXHOME/jbullard/projects/software/bioinformatics/tools/pbbarcode/doc)

--outFofn OUTFOFN
Записати в outFofn (за замовчуванням: barcode.fofn)

--adapterSidePad ПЕРЕХОДНИК
Накладка з основою перехідника SidePad (за замовчуванням: 4)

--insertSidePad ВСТАВКА
Накладка з основами insertSidePad (за замовчуванням: 4)

--ScoreMode {симетричний, парний}
Режим, у якому мають бути оцінені штрих-коди. (за замовчуванням: симетричний)

--maxAdapters МАКСАДАПТЕРИ
Набрати лише перші максимальні адаптери (за замовчуванням: 20)

--scoreFirst
Чи спробувати забити крайній лівий штрих-код у трасі. (за замовчуванням: False)

--startTimeCutoff STARTTIMECUTOFF
Зчитування має початися перед цим значенням, щоб бути включено, коли
scoreFirst встановлено. (за замовчуванням: 10.0)

--nZmws NZMWS
Використовуйте перші n ZMW для тестування (за замовчуванням: -1)

--nProcs NPROCS
Скільки процесів використовувати (за замовчуванням: 8)

--saveExtendedInfo
Чи зберігати розширену інформацію у файлах barcode.h5; це
інформація корисна для налагодження та виявлення химери (за замовчуванням:
Помилковий)

Команда labelZmws команда приймає input.fofn, що представляє набір файлів bas.h5 для роботи
на. Крім того, він приймає файл barcode.fasta. В залежності від scoreMode, файл FASTA
будуть оброблятися різними способами. Зокрема, в парний режим, кожен два послідовні
штрих-коди у файлі вважаються набором.

параметри, адаптер SidePad та insertSidePad показує, скільки баз має бути
розглядаються з кожного боку передбачуваного штрих-коду. Ці параметри обмежені такими
що: |адаптерSidePad| + |insertSidePad| + |штрих-код| < 65.

Користувачі мають можливість вказати різне місце виводу для різних виходів.
Зокрема, для кожного файлу bas.h5 у input.fofn є файл bc.h5 (штрих-код hdf5).
згенеровано. Ці файли перераховані у файлі outFofn який зазвичай просто називається
штрих-код.fofn. Нижче наведено опис файлу штрих-коду hdf5.

labelAlignments
Використання: pbbarcode labelAlignments [-год]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] barcode.fofn aligned_reads.cmp.h5

Додає інформацію про вирівнювання штрих-коду до файлу cmp.h5 з попереднього виклику до
"labelZmws".

позиційний аргументи:
barcode.fofn вхідний файл штрих-коду fofn aligned_reads.cmp.h5 файл cmp.h5
щоб додати етикетки зі штрих-кодом

необов'язковий аргументи:

-h, --допомога
показати це повідомлення довідки та вийти

--minAvgBarcodeScore MINAVGBBARCODESCORE
Фільтр ZMW: виключіть ZMW, якщо середня оцінка штрих-коду нижча за це значення
(за замовчуванням: 0.0)

--minNumШтрих-кодів MINNUMШТРИХКОДІВ
Фільтр ZMW: виключити ZMW, якщо кількість спостережуваних штрих-кодів менше цієї
значення (за замовчуванням: 1)

--minScoreRatio МІНСКОРЕРАЦІЯ
Фільтр ZMW: виключає ZMW, чия найкраща оцінка поділена на 2-й найкращий бал
менше цього співвідношення (за замовчуванням: 1.0)

Команда labelAlignments команда приймає як вхідний код штрих-код.fofn, обчислений з виклику до
labelZMWs і файл cmp.h5, куди записується інформація про штрих-код. Дивіться нижче для а
опис доповнень файлу cmp.h5.

emitFastqs
Використання: pbbarcode emitFastqs [-год] [--outDir output.dir] [--субхліби]
[--unlabeledZmws] [--trim TRIM] [--fasta] [--minMaxInsertLength
MINMAXINSERTLENGTH] [--hqStartTime HQSTARTTIME] [--minReadScore MINREADSCORE]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] input.fofn barcode.fofn

Бере bas.h5 fofn і barcode.h5 fofn і створює файл fast[a|q] для кожного
штрих-код.

позиційний аргументи:
input.fofn база введення або файл CCS fofn barcode.fofn input
barcode.h5 файл fofn

необов'язковий аргументи:

-h, --допомога
показати це повідомлення довідки та вийти

--outDir вихід.реж вихід каталог до запис fastq файли (за замовчуванням: / home /
UNIXHOME/jbullard/projects/software/bioinformatics/too ls/pbbarcode/doc)

--підхліби
чи створювати файли fastq для підчитань; за замовчуванням використовується файл
CCS читає. Цей параметр застосовується лише тоді, коли input.fofn має як консенсус, так і
необроблені читання, інакше буде повернуто тип читання з input.fofn.
(за замовчуванням: False)

--unlabeledZmws
чи випускати файл fastq для немаркованих ZMW. Це ZMW
де адаптери зазвичай не зустрічаються (за замовчуванням: False)

-- обрізати TRIM
обрізати штрих-коди та будь-яку зайву постійну послідовність (за замовчуванням: 20)

--фаста
чи повинні створені файли бути файлами FASTA, а не FASTQ
(за замовчуванням: False)

--minMaxInsertLength MINMAXINSERTLENGTH
Фільтр ZMW: виключити ZMW, якщо найдовша підчисло менше цієї кількості
(за замовчуванням: 0)

--hqЧас початку HQSTARTTIME
ZMW Filter: виключити ZMW, якщо час початку регіону HQ перевищує це значення
(секунди) (за замовчуванням: inf)

--minReadScore MINREADSCORE
Фільтр ZMW: виключити ZMW, якщо readScore менший за це значення (за замовчуванням: 0)

--minAvgBarcodeScore MINAVGBBARCODESCORE
Фільтр ZMW: виключіть ZMW, якщо середня оцінка штрих-коду нижча за це значення
(за замовчуванням: 0.0)

--minNumШтрих-кодів MINNUMШТРИХКОДІВ
Фільтр ZMW: виключити ZMW, якщо кількість спостережуваних штрих-кодів менше цієї
значення (за замовчуванням: 1)

--minScoreRatio МІНСКОРЕРАЦІЯ
Фільтр ZMW: виключає ZMW, чия найкраща оцінка поділена на 2-й найкращий бал
менше цього співвідношення (за замовчуванням: 1.0)

Команда emitFastqs команда приймає як вхідні дані input.fofn для файлів bas.h5, а також a
barcode.fofn із виклику labelZmws. Додатковий параметр outDir диктує, де
файли будуть записані. Для кожного виявленого штрих-коду буде створено файл fast[a|q].
всі зчитування для цього штрих-коду. The оздоблення Параметр визначає, скільки потрібно прочитати
бути обрізаним. Параметр за замовчуванням для оздоблення - це довжина штрих-коду (яка
зберігається у файлах штрих-коду hdf5). На даний момент всі штрих-коди у файлі штрих-коду FASTA
має бути однакової довжини, тому підтримується лише постійне значення обрізки. На практиці,
можна агресивно обрізати, щоб гарантувати, що зайві основи не залишаються на кінцях
читає. Нарешті, підчитання Параметр визначає, чи слід виконувати підчитання чи CCS
повертається, за замовчуванням є відповідні читання відповідно до типу вхідного файлу,
CCS або підчитання. Цей параметр перевіряється, лише якщо input.fofn містить обидва
Дані CCS і підпрочитані, якщо input.fofn містить лише дані підчитання або дані CCS, то це так
повертається незалежно від стану підчитання і видається попередження.

консенсус
Використання: pbbarcode консенсус [-год] [--підвибірка ПІДЗРАК] [--nZmws NZMWS]
[--outDir OUTDIR] [--keepTmpDir] [--ccsFofn CCSFOFN] [--nProcs NPROCS]
[--noQuiver] [--minMaxInsertLength MINMAXINSERTLENGTH] [--hqStartTime
HQSTARTTIME] [--minReadScore MINREADSCORE] [--minAvgBarcodeScore
MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES] [--minScoreRatio
MINSCORERATIO] [--штрих-код Штрих-код [ШТРИХ-КОД ...]] input.fofn barcode.fofn

Обчисліть консенсусні послідовності для кожного штрих-коду.

позиційний аргументи:
input.fofn input bas.h5 fofn файл штрих-код.fofn input bc.h5
fofn файл

необов'язковий аргументи:

-h, --допомога
показати це повідомлення довідки та вийти

--підвибірка ПІДЗРАК
Підвибірка ZMW (за замовчуванням: 1)

--nZmws NZMWS
Візьміть n ZMW (за замовчуванням: -1)

--outDir OUTDIR
Використовуйте цей каталог для виведення результатів (за замовчуванням: .)

--keepTmpDir --ccsFofn CCSFOFN Отримати дані CCS від ccsFofn замість
input.fofn
(за замовчуванням: )

--nProcs NPROCS
Використовуйте nProcs для виконання. (за замовчуванням: 16)

--noQuiver --minMaxInsertLength MINMAXINSERTLENGTH
Фільтр ZMW: виключити ZMW, якщо найдовша підчисло менше цієї кількості
(за замовчуванням: 0)

--hqЧас початку HQSTARTTIME
ZMW Filter: виключити ZMW, якщо час початку регіону HQ перевищує це значення
(секунди) (за замовчуванням: inf)

--minReadScore MINREADSCORE
Фільтр ZMW: виключити ZMW, якщо readScore менший за це значення (за замовчуванням: 0)

--minAvgBarcodeScore MINAVGBBARCODESCORE
Фільтр ZMW: виключіть ZMW, якщо середня оцінка штрих-коду нижча за це значення
(за замовчуванням: 0.0)

--minNumШтрих-кодів MINNUMШТРИХКОДІВ
Фільтр ZMW: виключити ZMW, якщо кількість спостережуваних штрих-кодів менше цієї
значення (за замовчуванням: 1)

--minScoreRatio МІНСКОРЕРАЦІЯ
Фільтр ZMW: виключає ZMW, чия найкраща оцінка поділена на 2-й найкращий бал
менше цього співвідношення (за замовчуванням: 1.0)

-- штрих-код ШАРКОД [ШТРИХ-КОД ...]
Використовуйте це, щоб отримати консенсус лише для одного штрих-коду. (за замовчуванням: немає)

Команда emitFastqs команда приймає як вхідні дані input.fofn для файлів bas.h5, а також a
barcode.fofn із виклику labelZmws. Результати є файлом FASTA із записом для кожного
штрих-код, що містить консенсусну послідовність амплікона. Цей режим використовує сагайдак та pbdagcon
обчислити консенсус.

У випадках, коли амплікон менше 2.5 тис. баз, використання даних CCS є досить корисним. The
--ccsFofn дозволяє безпосередньо передавати файли ccs. У багатьох випадках як CCS, так і необроблений
базові виклики знаходяться в одному файлі, тому ви можете перевірити, передавши той самий параметр
input.fofn як до ccsFofn.

Залежності
Пакет pbbarcode залежить від стандартної установки pbcore (‐
https://github.com/PacificBiosciences/pbcore). Якщо хтось бажає використати консенсус інструмент,
pbdagcon потрібно встановити (https://github.com/PacificBiosciences/pbdagcon).

Штрих-код HDF5 Файл
Файл штрих-коду hdf5, до н.е.h5, являє собою просте сховище даних для викликів штрих-кодів та їх
бали за кожну ZMW. Як правило, користувач не повинен взаємодіяти з файлами hdf5 зі штрих-кодом, але може
використовувати результати, збережені в отриманому файлі cmp.h5 або у файлах fast[a|q]. Штрих-код
hdf5 файл містить таку структуру:

/BarcodeCalls/best - (nZMWs, 6)[32-bit integer] набір даних з такими стовпцями:
holeNumber,nAdapters,barcodeIdx1,barcodeScore1,barcodeIdx2,barcodeScore2

Крім того, кращий набір даних має такі атрибути:

┌────────────┬──────────────────────────────────── ──────────────────────────────┐
│назва фільму │ m120408_042614_richard_c100309392550000001523011508061222_s1_p0 │
├────────────┼──────────────────────────────────── ──────────────────────────────┤
│імена стовпців │ holeNumber,nAdapters,barcodeIdx1,barcodeScore1,barcodeIdx2, │
│ │ штрих-кодОцінка2 │
└────────────┴──────────────────────────────────── ──────────────────────────────┘

│Режим оцінки │ [симетричний|парний] │
├────────────┼──────────────────────────────────── ──────────────────────────────┤
│штрих-коди │ 'bc_1', 'bc_2', ...., 'bc_N' │
└────────────┴──────────────────────────────────── ──────────────────────────────┘

Два стовпці barcodeIdx1 і barcodeIdx2 є індексами штрих-коди атрибут. Файл
scoreMode це режим оцінки, який використовується для вирівнювання штрих-кодів. The штрих-коди атрибут відповідає
назви послідовності barcode.fasta.

Крім того, за деяких обставин корисно зберегти всю історію
оцінка, тобто кожен штрих-код, отриманий для кожного адаптера в усіх ZMW. Щоб зберегти це
інформації, необхідно зателефонувати:
pbbarcode labelZmws --saveExtendedInfo ...

У цьому режимі отриманий файл HDF5 матиме додатковий набір даних під файлом
Група BarcodeCalls з назвою: всі. Цей набір даних має такий формат:

/BarcodeCalls/all - (nbarcodes * nadapters[zmw_i], 4) forall i in 1 ... nZMWs
`номер отвору, adapterIdx, штрих-кодIdx, рахунок`

Команда adapterIdx - індекс адаптера вздовж молекули, тобто adapterIdx 1 - це
перший забитий адаптер.

Додатки до порівняти HDF5 (cmp.h5) Файл
На додаток до файлу штрих-коду hdf5, виклик до labelAlignments буде анотувати cmp.h5
файл. Ця анотація зберігається у форматі файлу cmp.h5.
Зокрема, нова група:
/Інформація про штрих-код/
Ідентифікатор (nBarcodeLabels + 1, 1) [32-розрядне ціле число]
Ім'я (nBarcodeLabels + 1, 1)[рядок змінної довжини]

На додаток до групи /BarcodeInfo/, ключовий набір даних, який призначає вирівнювання
штрих-код знаходиться за адресою:

/AlnInfo/Barcode (nAlignments, 3)[32-бітове ціле число] з такими стовпцями:
index,count,bestIndex,bestScore,secondBestIndex,secondBestScore

Тут індекс відноситься до індексу в ІМ'Я вектор, оцінка відповідає сумі
оцінки для штрих-кодів, і, нарешті, count відноситься до кількості адаптерів, знайдених у
молекули.

грудня 2015 ШТРИХ-КОД PBB(1)

Використовуйте pbbarcode онлайн за допомогою служб onworks.net


Безкоштовні сервери та робочі станції

Завантажте програми для Windows і Linux

Команди Linux

Ad