Це команда ipdSummary, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS.
ПРОГРАМА:
ІМ'Я
ipdSummary - Виявлення модифікацій основ ДНК за кінетичними сигнатурами.
ОПИС
kineticsTool завантажує IPD, що спостерігаються в кожній позиції в геномі, і порівнює ці IPD
до очікуваного значення для немодифікованої ДНК і виводить результат цього статистичного тесту.
Очікуване значення IPD для немодифікованої ДНК може виходити з одного in-silico контроль або
посилюється контроль. Управління in silico навчається PacBio і постачається разом із ним
пакет. Він передбачає прогнозування IPD, використовуючи контекст локальної послідовності навколо поточного
позицію. Ампліфікований контрольний набір даних генерується шляхом секвенування немодифікованої ДНК за допомогою
у тій же послідовності, що й досліджуваний зразок. Посилений контрольний зразок зазвичай створюється за допомогою
повногеномна ампліфікація вихідного зразка.
Модифікація Виявлення
Основний режим kineticsTools робить незалежне порівняння IPD в кожній позиції на
геном, для кожного ланцюга, і видає різні статистичні дані в CSV і GFF (після застосування
фільтр значимості).
Поправки Ідентифікація
кінетикаІнструменти Також має a Модифікація Ідентифікація режим Що може декодувати багатосайтовий IPD
'відбитки пальців' в a знижений комплект of дзвінки of конкретний модифікації. Цей довідник - особливість має
після переваги:
· Можна виділити різні модифікації, що відбуваються на одній основі (для
приклад m5C і m4C)
· Сигнал від однієї модифікації об'єднується в одну статистику, покращуючи
чутливість, видалення зайвих піків і правильне центрування виклику
ВАРІАНТИ
Будь ласка, зателефонуйте до цієї програми --допомога щоб переглянути доступні параметри.
АЛГОРИТМ
Синтетичний Контроль
Дослідження взаємозв'язку між IPD та контекстом послідовності показують, що більшість з
варіації середнього IPD в геномі можна передбачити з контексту послідовності з 12 основ
оточує активний центр ДНК-полімерази. Межі відповідного контексту
Вікно відповідає вікну ДНК, що контактує з полімеразою, як показано в
Кристалічні структури ДНК/полімерази. Щоб спростити процес пошуку модифікацій ДНК
з даними PacBio інструмент містить попередньо навчену таблицю пошуку, що відображає 12-мерну ДНК
послідовності означають IPD, що спостерігаються в хімії C2.
фільтрація та зачистка
kineticsTools використовує Mapping QV, створений BLASR і збережений у файлі cmp.h5, щоб
ігнорувати читання, які не впевнено відображаються. За замовчуванням мінімальний необхідний відображення QV
10, що означає, що BLASR має 90\% впевненість у тому, що читання правильно відображено. Тому що
діапазон довжин зчитування, властивий даним PacBioЦе можна змінити за допомогою
аргумент командного рядка --mapQvThreshold або через діалогове вікно конфігурації SMRTPortal для
Виявлення модифікації.
Існує кілька функцій даних PacBio, які потребують особливої уваги для досягнення
хороша продуктивність виявлення модифікацій. kineticsTools перевіряє вирівнювання між
спостережувані підстави та еталонна послідовність -- для того, щоб вимірювання IPD було
включена в аналіз, послідовність зчитування PacBio повинна відповідати контрольній послідовності для k
навколо спорідненої основи. У поточному модулі k = 1 Розподіл IPD в деякому локусі бути
розглядається як суміш між «звичайним» процесом включення IPD, який є чутливим
до контексту локальної послідовності та модифікацій ДНК, а також до забруднювального процесу «паузи».
IPD, які мають набагато більшу тривалість (у середньому >10 разів довше, ніж зазвичай), але трапляються рідко
(~1% ІПД). Примітка: наше поточне розуміння полягає в тому, що паузи не є корисними
інформацію про стан метилювання ДНК, проте аналіз може бути більш ретельний
гарантовано. Також зауважте, що модифікації, які різко збільшують приблизно на 1%.
спостережувані IPD генеруються подіями паузи. На глобальному 99-му заліку спостережувані ІЛС
процентиль мотивується теорією на основі надійної перевірки гіпотез. Деякі контексти послідовності
може мати, природно, довші IPD, щоб уникнути обмеження занадто великої кількості даних у цих контекстах, обмеження
поріг коригується відповідно до контексту таким чином: capThreshold = max(global99,
5*modelPrediction, процентиль (ipdObservations, 75))
Статистичний Тестування
Ми перевіряємо гіпотезу про те, що IPD, що спостерігаються в певному локусі у вибірці, мають a
довші, ніж ІПД, що спостерігаються в тому самому локусі в немодифікованій ДНК. Якщо ми створили
набір даних Whole Genome Amplified, який видаляє модифікації ДНК, ми використовуємо випадок-контроль,
двовибірковий t-критерій. Цей інструмент також надає попередньо відкалібровану модель «синтетичного контролю».
який прогнозує незмінений IPD, враховуючи контекст послідовності 12 основ. У синтетичному
У контрольному випадку ми використовуємо t-критерій однієї вибірки з коригуванням для врахування помилки в
синтетична модель керування.
ВХОДИ
aligned_reads.cmp.h5
Стандартний файл cmp.h5 містить вирівнювання, а інформація IPD надає кінетичні дані
використовується для визначення модифікації. Стандартний файл cmp.h5 для завдань SMRTportal
data/aligned_read.cmp.h5.
Посилання Послідовність
Інструмент вимагає опорної послідовності, яка використовується для виконання вирівнювання. Наразі це необхідно
надаватися через шлях до запису репозиторію посилань SMRTportal.
ВИХІДИ
Інструмент виявлення модифікацій надає результати в різних форматах
поглиблений статистичний аналіз, швидкі довідки та споживання за допомогою інструментів візуалізації
наприклад PacBio SMRTView. Результати, як правило, індексуються за позицією відліку та
еталонне пасмо. У всіх випадках значення пасма відноситься до пасма, що несе
модифікація зразка ДНК. Пам'ятайте, що кінетичний ефект модифікації є
спостерігається в послідовностях зчитування, що вирівнюються до протилежного ланцюга. Отже, читання вирівнюється за
Позитивний ланцюг несуть інформацію про модифікацію негативного ланцюга і пороку
навпаки, але в цьому наборі інструментів ми завжди повідомляємо про те, що містить передбачуваний
модифікації.
modifications.csv
Файл modifications.csv містить один рядок для кожної пари (посилання, ланцюг).
які з’явилися в наборі даних із покриттям принаймні x. x за замовчуванням дорівнює 3, але є
можна налаштувати за допомогою прапора '--minCoverage' для ipdSummary.py. Індекс опорної позиції є
На основі 1 для сумісності з файлом gff середовище R.
Вихід стовпців
in-silico контроль режим
┌────────────────┬──────────────────────────────── ──┐
│Колонка │ Опис │
├────────────────┼──────────────────────────────── ──┤
│refId │ ідентифікатор опорної послідовності цього │
│ │ спостереження │
├────────────────┼──────────────────────────────── ──┤
│tpl │ Позиція шаблону на основі 1 │
├────────────────┼──────────────────────────────── ──┤
│ланцюг │ нативний зразок ланцюга, де │
│ │ кінетика була згенерована. '0' є │
│ │ пасмо оригіналу │
│ │ FASTA, '1' є протилежним ланцюгом │
│ │ від FASTA │
├────────────────┼──────────────────────────────── ──┤
│основа │ споріднена основа при цьому │
│ │ положення в довідковому │
├────────────────┼──────────────────────────────── ──┤
│score │ Phred-перетворене pзначення, що a │
│ │ кінетичне відхилення існує при цьому │
│ │ положення │
└────────────────┴──────────────────────────────── ──┘
│tMean │ обмежене середнє нормалізованих IPD │
│ │ спостерігається в цьому положенні │
├────────────────┼──────────────────────────────── ──┤
│tErr │ обмежена стандартною помилкою │
│ │ нормалізовані IPD, що спостерігаються при цьому │
│ │ положення (стандартне відхилення / │
│ │ sqrt (покриття) │
├────────────────┼──────────────────────────────── ──┤
│modelPrediction │ нормалізоване середнє IPD, передбачене │
│ │ синтетична модель керування для │
│ │ контекст цієї послідовності │
├────────────────┼──────────────────────────────── ──┤
│ipdRatio │ tMean / Model Prediction │
├────────────────┼──────────────────────────────── ──┤
│покриття │ кількість дійсних IPD на цьому │
│ │ положення (див. розділ Фільтрування │
│ │ детальніше) │
├────────────────┼──────────────────────────────── ──┤
│frac │ оцінка частки │
│ │ молекули, які несуть │
│ │ модифікація │
├────────────────┼──────────────────────────────── ──┤
│fracLow │ 2.5% довірча межа ГРП │
│ │ оцінка │
├────────────────┼──────────────────────────────── ──┤
│fracUpp │ 97.5% межа довіри ГРП │
│ │ оцінка │
└────────────────┴──────────────────────────────── ──┘
кейс-контроль режим
┌────────────────┬──────────────────────────────── ──┐
│Колонка │ Опис │
├────────────────┼──────────────────────────────── ──┤
│refId │ ідентифікатор опорної послідовності цього │
│ │ спостереження │
├────────────────┼──────────────────────────────── ──┤
│tpl │ Позиція шаблону на основі 1 │
├────────────────┼──────────────────────────────── ──┤
│ланцюг │ нативний зразок ланцюга, де │
│ │ кінетика була згенерована. '0' є │
│ │ пасмо оригіналу │
│ │ FASTA, '1' є протилежним ланцюгом │
│ │ від FASTA │
├────────────────┼──────────────────────────────── ──┤
│основа │ споріднена основа при цьому │
│ │ положення в довідковому │
├────────────────┼──────────────────────────────── ──┤
│score │ Phred-перетворене pзначення, що a │
│ │ кінетичне відхилення існує при цьому │
│ │ положення │
├────────────────┼──────────────────────────────── ──┤
│caseMean │ середнє нормалізованих випадків IPD │
│ │ спостерігається в цьому положенні │
├────────────────┼──────────────────────────────── ──┤
│controlMean │ середнє нормалізованих контрольних IPD │
│ │ спостерігається в цьому положенні │
├────────────────┼──────────────────────────────── ──┤
│caseStd │ стандартне відхилення випадкових IPD │
│ │ спостерігається в цьому положенні │
├────────────────┼──────────────────────────────── ──┤
│controlStd │ стандартне відхилення контролю │
│ │ ІПД, що спостерігаються в цьому положенні │
└────────────────┴──────────────────────────────── ──┘
│ipdRatio │ tMean / Model Prediction │
├────────────────┼──────────────────────────────── ──┤
│testStatistic │ t-критерій статистики │
├────────────────┼──────────────────────────────── ──┤
│охоплення │ середнє випадку і контролю │
│ │ покриття │
├────────────────┼──────────────────────────────── ──┤
│controlCoverage │ кількість дійсних контрольних IPD на │
│ │ це положення (див. Фільтрування │
│ │ розділ для деталей) │
├────────────────┼──────────────────────────────── ──┤
│CaseCoverage │ кількість дійсних IPD випадків у цьому │
│ │ положення (див. розділ Фільтрування │
│ │ детальніше) │
└────────────────┴──────────────────────────────── ──┘
modifications.gff
Modifications.gff відповідає специфікації GFF версії 3 (‐
http://www.sequenceontology.org/gff3.shtml). Кожна позиція шаблону/пара пасмо якого
p-value перевищує поріг pvalue відображається у вигляді рядка. Позиція шаблону заснована на 1,
відповідно до специфікації GFF. Стовпчик ланцюга відноситься до ланцюга, що несе виявлене
модифікації, яка є протилежною ланцюгом від тих, що використовуються для виявлення модифікації. The
Стовпець довіри GFF – це перетворене Phred pзначення виявлення.
Примітка: on геном браузер сумісність
Файл modifications.gff не працюватиме безпосередньо з більшістю браузерів геному. Ти будеш
імовірно, потрібно зробити копію файлу GFF та перетворити стовпці _seqid_ із
загальні імена 'ref0000x', згенеровані PacBio, до заголовків FASTA, присутніх в оригіналі
посилання на файл FASTA. Таблиця відображення записана в заголовку файлу modifications.gff
файл у #sequence-header теги. Ця проблема буде вирішена у випуску 1.4
кінетикаІнструменти.
Стовпець допоміжних даних файлу GFF містить інші статистичні дані, які можуть бути корисними
аналіз або фільтрація нижче за течією. Зокрема, рівень охоплення читань, які звикли
здійснити дзвінок і контекст послідовності +/- 20 bp, що оточує сайт.
┌───────────┬───────────────────────────────────┐
│Колонка │ Опис │
├────────────┼───────────────────────────────────┤
│seqid │ Fasta contig назва │
├────────────┼───────────────────────────────────┤
│джерело │ Назва інструмента -- 'kinModCall' │
├────────────┼───────────────────────────────────┤
│тип │ Тип модифікації -- в │
│ │ режим ідентифікації це буде │
│ │ m6A, m4C або m5C для ідентифікованих │
│ │ бази, або загальний тег │
│ │ 'modified_base', якщо кінетичний │
│ │ виявлено подію, яка не │
│ │ відповідати відомої модифікації │
│ │ підпис │
├────────────┼───────────────────────────────────┤
│початок │ Позиція зміни на контигу │
├────────────┼───────────────────────────────────┤
│кінець │ Позиція зміни на контигу │
├────────────┼───────────────────────────────────┤
│оцінка │ Phred перетворено p-значення │
│ │ виявлення - це │
│ │ p-значення для виявлення одного сайту │
├────────────┼───────────────────────────────────┤
│нитка │ Зразок пасма, що містить │
│ │ модифікація │
└───────────┴───────────────────────────────────┘
│фаза │ Не застосовується │
├────────────┼───────────────────────────────────┤
│атрибути │ Додаткові поля, що стосуються бази │
│ │ модифікації. IPDRatio традиційний │
│ │ IPDRratio, контекст – це │
│ │ опорна послідовність -20bp до │
│ │ +20bp навколо модифікації, │
│ │, а рівень покриття – це число │
│ │ спостережень IPD, використаних після │
│ │ Відображення QV фільтрації та │
│ │ точність фільтрації. Якщо рядок │
│ │ випливає з ідентифікованого │
│ │ модифікації ми також включаємо │
│ │ ідентифікаційний тег Qv із │
│ │ з модифікації │
│ │ процедура ідентифікації. │
│ │ ідентифікація Qv є │
│ │ phred-перетворена ймовірність │
│ │ неправильна ідентифікація, для │
│ │ основи, які були ідентифіковані як │
│ │, що мають певний │
│ │ модифікація. frac, fracLow, │
│ │ fracUp є розрахунковими │
│ │ частка молекул, що несуть │
│ │ модифікація, а 5% │
│ │ довірчі інтервали │
│ │ оцінка. Метилований │
│ │ оцінка частки є │
│ │ функція бета-рівня, і повинна │
│ │ використовуватися лише для дослідницьких │
│ │ цілі. │
└───────────┴───────────────────────────────────┘
motivs.gff
Якщо запустити інструмент Motif Finder, він згенерує motifs.gff, який є повторно обробленою версією
з modifications.gff з наступними змінами. Якщо виявлена модифікація відбувається на a
мотив, виявлений шукачем мотивів, модифікація анотується даними мотиву. An
додається атрибут 'motif', що містить рядок мотиву, і атрибут 'id'
містить ідентифікатор мотиву, який є рядком мотиву для непарних мотивів або
'motifString1/motifString2' для парних мотивів. Якщо в геномі існує екземпляр мотиву,
але не було виявлено в modifications.gff, до motifs.gff додано запис, що вказує на
наявність цього мотиву та кінетики, які спостерігалися на цьому місці.
motiv_summary.csv
Якщо запущено інструмент Motif Finder, генерується motif_summary.csv, підсумовуючи змінені
мотиви, виявлені інструментом. CSV містить один рядок для кожного виявленого мотиву з
наступні стовпці
┌───────────────────┬───────────────────────────── ─────┐
│Колонка │ Опис │
├───────────────────┼───────────────────────────── ─────┤
│motifString │ Виявлена послідовність мотивів │
├───────────────────┼───────────────────────────── ─────┤
│centerPos │ Позиція в мотиві │
│ │ модифікація (на основі 0) │
├───────────────────┼───────────────────────────── ─────┤
│дріб │ Частка екземплярів цього │
│ │ мотив з модифікацією QV над │
│ │ поріг QV │
├───────────────────┼───────────────────────────── ─────┤
│nВиявлено │ Кількість випадків цього │
│ │ мотив з верхнім порогом │
└───────────────────┴───────────────────────────── ─────┘
│nГеном │ Кількість екземплярів цього │
│ │ мотив у еталонній послідовності │
├───────────────────┼───────────────────────────── ─────┤
│groupTag │ Нитка, що ідентифікує мотив │
│ │ групування. Для парних мотивів це │
│ │ є │
│ │ " / ", │
│ │ Для непарних мотивів це дорівнює │
│ │ мотивРядок │
├───────────────────┼───────────────────────────── ─────┤
│partnerMotifString │ motifНитка парного мотиву │
│ │ (мотив з │
│ │ зворотно-комплементарний │
│ │ мотивРядок) │
├───────────────────┼───────────────────────────── ─────┤
│meanScore │ Середня модифікація Qv виявленого │
│ │ екземпляри │
├───────────────────┼───────────────────────────── ─────┤
│meanIpdRatio │ Середнє співвідношення IPD виявлених │
│ │ екземпляри │
├───────────────────┼───────────────────────────── ─────┤
│середнє покриття │середнє охоплення виявлених │
│ │ екземпляри │
├───────────────────┼───────────────────────────── ─────┤
│objectiveScore │ Об'єктивна оцінка цього мотиву в │
│ │ алгоритм пошуку мотивів │
└───────────────────┴───────────────────────────── ─────┘
Використовуйте ipdSummary онлайн за допомогою служб onworks.net