Це командна медуза, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
Jellyfish — це програмне забезпечення для підрахунку k-мерів у послідовностях ДНК.
СИНТАКСИС
кількість медуз [-oпрефікс] [-mmerlength] [-tтеми] [-sхеш-розмір] [-- обидва пасма] фаста
[фаста ... ]
медузи злиття хеш1 хеш2 ...
звалище медуз мішанина
статистика медуз мішанина
медуза histo [-hвисока] [-lнизький] [-iприріст] мішанина
запит медузи мішанина
медуза цит
Плюс еквівалентна версія для режиму Quake: qhisto, qdump і qmerge.
ОПИС
Jellyfish — це лічильник k-mer, заснований на реалізації багатопотокової хеш-таблиці.
ПІДРАХУВАННЯ І ОБЛИВАННЯ
Щоб підрахувати k-mers, використовуйте таку команду:
кількість медуз -m 22 -o вихід -c 3 -s 10000000 -t 32 вхід.fasta
Це зарахує 22-мери в input.fasta з 32 потоками. Поле лічильника в
хеш використовує лише 3 біти, а хеш має щонайменше 10 мільйонів записів.
Вихідні файли будуть називатися output_0, output_1 тощо (префікс вказується за допомогою
-o перемикач). Якщо хеш досить великий (вказаний в -s перемикач), щоб відповідати всім
k-mers, буде лише один вихідний файл з іменем output_0. Якщо хеш заповнився раніше
всі mers були прочитані, хеш скидається на диск, обнуляється і зчитується в mer
резюме. На дисках буде представлено кілька проміжних файлів під назвою output_0,
вихід_1 тощо.
Щоб отримати правильні результати від інших підкоманд (таких як histo, stats тощо),
кілька вихідних файлів, якщо такі є, потрібно об’єднати в один за допомогою команди злиття. Для
приклад з такою командою:
медуза злиття -o output.jf output\_*
Якщо ви отримаєте багато проміжних вихідних файлів (скажімо, сотні), розмір хеш-таблиці
занадто малий. Повторний запуск медузи з більшим розміром (опція -s), ймовірно, швидше, ніж
об'єднання всіх проміжних файлів.
Орієнтація
Коли орієнтація послідовностей у вхідному файлі fasta невідома, наприклад, in
секвенування читає, використовуючи -- обидва пасма (-C) має найбільший сенс.
Для будь-якого k-mer m його канонічне представлення є самим m або його зворотним доповненням,
що стане першим лексикографічно. З опцією -C, тільки канонічний
представлення mers зберігаються в хеші, а значення count є числом
поява як mer, так і його зворотного доповнення.
ВИБІР THE ХАШ SIZE
Для досягнення найкращої продуктивності слід записати мінімальну кількість проміжних файлів
на диск. Отже, параметр -s слід вибрати так, щоб умістити якомога більше k-мерів (в ідеалі
всі) і все ще вписуються в пам'ять.
Розглянемо приклади: підрахунок мерів у зчитуваннях секвенування та в готовому геномі.
По-перше, припустимо, що ми підраховуємо k-мерів у коротких читаннях: є n читань і є
в середньому 1 помилка на читання, де кожна помилка генерує k унікальних mer. Якщо геном
розмір G, розмір хешу (опція -s), щоб відповідати всім k-мерам одночасно, оцінюється в: $(G
+ k*n)/0.8$. Ділення на 0.8 компенсує максимальне використання приблизно 80%$
хеш-таблиці.
З іншого боку, при підрахунку k-мерів у зібраній послідовності довжиною G, установка -s
до G підходить.
Для зручності Jellyfish розуміє суфікси ISO для розміру хешу.
Отже, «-s 10M» означає 10 мільйонів записів, а «-s 50G» означає 50 мільярдів записів.
Фактичне використання пам'яті хеш-таблиці можна обчислити наступним чином. Фактичний розмір
хеш буде округлено до наступного ступеня 2: s=2^l. Параметр r такий, що
максимальне значення повторного зондування (-p) плюс один менше 2^r. Потім використання пам’яті на запис
в хеші (у бітах, а не байтах) 2k-l+r+1. Загальне використання пам’яті хеш-таблиці в
байт: 2^l*(2k-l+r+1)/8.
ВИБІР THE ПІДРАХУВАННЯ область SIZE
Щоб заощадити місце, хеш-таблиця підтримує лічильник змінної довжини, тобто K-mer
лише кілька разів використовуватиме невеликий лічильник, k-mer, що зустрічається багато разів, буде використовуватися багаторазово
записи в хеші.
Важливо: розмір поля вирахування НЕ змінює результат, він впливає лише на
обсяг використовуваної пам'яті. Зокрема, в хеші немає максимального значення. Навіть якщо
поле підрахунку використовує 5 біт, k-mer, що зустрічається 2 мільйони разів, матиме значення, яке повідомляється
2 мільйони (тобто не обмежено 2^5).
Команда -c вкажіть довжину (у бітах) поля підрахунку. Компроміс полягає в наступному: a
низьке значення заощадить місце на запис у хеші, але потенційно може збільшити кількість
використані записи, отже, можливо, потрібен більший хеш.
На практиці використовуйте значення for -c так що більшості з вас, к-мерів, потрібно лише 1 запис. Для
Наприклад, для підрахунку k-мерів у геномі, де більша частина послідовності є унікальною, використовуйте -c1 or
-c2. Для послідовного читання використовуйте значення для -c достатньо великий, щоб рахувати вдвічі більше
покриття. Наприклад, якщо охоплення становить 10X, виберіть довжину лічильника 5 (-c5) як $2^5
> 20 доларів.
ПІДКОМАНДІ І ВАРІАНТИ
COUNT
Використання: кількість медуз [параметри] file:path+
Підрахуйте k-mers або qmers у файлах fasta або fastq
Параметри (значення за замовчуванням в (), *обов’язково):
-m, --мер-лен=uint32
* Довжина мер
-s, --розмір=uint64
* Розмір хеша
-t, --нитки=uint32
Кількість ниток (1)
-o, - вихід=рядок
Вихідний префікс (mer_counts)
-c, --контр-лен= Довжина
у бітах Довжина поля підрахунку (7)
--out-counter-len= Довжина
у байтах Довжина поля лічильника на виході (4)
-C,-- обидва пасма
Підрахувати обидва ланцюга, канонічне представлення (неправда)
-p, -- повторні зонди=uint32
Максимальна кількість повторних зонд (62)
-r,-сирий
Написати необроблену базу даних (неправда)
-q,--трус
Режим сумісності Quake (неправда)
--якість-початок=uint32
Запуск ASCII для значень якості (64)
--мінімальна якість=uint32
Мінімальна якість. База з меншою якістю стає N (0)
-L, --менша кількість=uint64
Не виводьте k-mer із count < нижчим числом
-U, --верхня кількість=uint64
Не виводьте k-mer із count > upper-count
--матриця=Матриця
файл Хеш-функція двійкова матриця
-- терміни=Терміни
файл Друк інформації про час
--статистика=Статистика
файл Друк статистики
--використання
Використання
-h,--допомога
Це повідомлення
--повна допомога
Детальна допомога
-V,-- версія
версія
СТАТИСТИКА
Використання: статистика медузи [параметри] db:path
Статистика
Покажіть деякі статистичні дані про k-mer у хеші:
Унікальний: кількість k-мерів, які зустрічаються лише один раз. Відмінні: кількість k-мерів, не враховуючи
множинність. Усього: кількість k-мерів, включаючи кратність. Max_count: максимальна кількість
виникнення k-mer.
Параметри (значення за замовчуванням в (), *обов’язково):
-L, --менша кількість=uint64
Не враховуйте k-mer з count < меншим числом
-U, --верхня кількість=uint64
Не розглядайте k-mer з count > upper-count
-v,-багатослівний
Багатослівний (неправда)
-o, - вихід=рядок
Вихідний файл
--використання
Використання
-h,--допомога
Це повідомлення
--повна допомога
Детальна допомога
-V,-- версія
версія
ІСТО
Використання: медуза histo [параметри] db:path
Створіть гістограму випадків k-mer
Створіть гістограму з кількістю k-мерів із заданим числом. У відрі є "i".
підрахував k-мерів, кількість яких 'c' задовольняє 'low+i*inc <= c < low+(i+1)*inc'.
Відсіки у вихідних даних позначаються нижньою кінцевою точкою (low+i*inc).
Останнє відро у вихідних даних веде себе як сповіщення: воно підраховує всі k-mers з підрахунком
більше або дорівнює нижній кінцевій точці цього сегмента.
Параметри (значення за замовчуванням в (), *обов’язково):
-l, --низький=uint64
Низьке значення гістограми (1)
-h, --високий=uint64
Високе значення гістограми (10000)
-i, --приріст=uint64
Значення збільшення для відер (1)
-t, --нитки=uint32
Кількість ниток (1)
-f,--повний
Повна історія. Не пропускайте рахунок 0. (Неправда)
-o, - вихід=рядок
Вихідний файл
-v,-багатослівний
Вихідна інформація (неправда)
--використання
Використання
--допомога
Це повідомлення
--повна допомога
Детальна допомога
-V,-- версія
версія
DUMP
Використання: дамп медузи [параметри] db:path
Скидайте кількість k-mer
За замовчуванням, дамп у форматі fasta, де заголовок - це кількість, а послідовність - це
послідовність k-mer. Формат стовпця – це вихідний результат із 2 стовпців: кількість k-mer.
Параметри (значення за замовчуванням в (), *обов’язково):
-c,--стовпчик
Формат стовпця (false)
-t,--вкладка
Роздільник табуляції (false)
-L, --менша кількість=uint64
Не виводьте k-mer із count < нижчим числом
-U, --верхня кількість=uint64
Не виводьте k-mer із count > upper-count
-o, - вихід=рядок
Вихідний файл
--використання
Використання
-h,--допомога
Це повідомлення
-V,-- версія
версія
ВЕЛИКИЙ
Використання: медузи злиття [параметри] input:string+
Об’єднати бази даних медуз
Параметри (значення за замовчуванням в (), *обов’язково):
-s, --розмір буфера=Буфер
довжина Довжина в байтах вхідного буфера (10000000)
-o, - вихід=рядок
Вихідний файл (mer_counts_merged.jf)
--out-counter-len=uint32
Довжина (у байтах) поля підрахунку у виводі (4)
--out-buffer-size=uint64
Розмір вихідного буфера на потік (10000000)
-v,-багатослівний
Бути багатослівним (неправда)
--використання
Використання
-h,--допомога
Це повідомлення
-V,-- версія
версія
QUERY
Використання: запит медузи [параметри] db:path
Запит із компактної бази даних
Запит на хеш. Він зчитує k-mers зі стандартного введення і записує підрахунки на стандартному
вихід.
Параметри (значення за замовчуванням в (), *обов’язково):
-C,-- обидва пасма
Обидва пасма (помилкові)
-c,--карі-біт
Поле значення як інформація про біт Cary (false)
-i, --вхід=файл
Вхідний файл
-o, - вихід=файл
Вихідний файл
--використання
Використання
-h,--допомога
Це повідомлення
-V,-- версія
версія
QHISTO
Використання: медуза qhisto [параметри] db:string
Створіть гістограму випадків k-mer
Параметри (значення за замовчуванням в (), *обов’язково):
-l, --низький= подвійний
Низьке значення гістограми (0.0)
-h, --високий= подвійний
Високе значення гістограми (10000.0)
-i, --приріст= подвійний
Значення збільшення для відер (1.0)
-f,--повний
Повна історія. Не пропускайте рахунок 0. (Неправда)
--використання
Використання
--допомога
Це повідомлення
-V,-- версія
версія
QDUMP
Використання: jellyfish qdump [параметри] db:path
Дамп k-mer з бази даних qmer
За замовчуванням, дамп у форматі fasta, де заголовок - це кількість, а послідовність - це
послідовність k-mer. Формат стовпця – це вихідний результат із 2 стовпців: кількість k-mer.
Параметри (значення за замовчуванням в (), *обов’язково):
-c,--стовпчик
Формат стовпця (false)
-t,--вкладка
Роздільник табуляції (false)
-L, --менша кількість= подвійний
Не виводьте k-mer із count < нижчим числом
-U, --верхня кількість= подвійний
Не виводьте k-mer із count > upper-count
-v,-багатослівний
Бути багатослівним (неправда)
-o, - вихід=рядок
Вихідний файл
--використання
Використання
-h,--допомога
Це повідомлення
-V,-- версія
версія
QMERGE
Використання: медузи злиття [параметри] db:string+
Об’єднати бази даних землетрусів
Параметри (значення за замовчуванням в (), *обов’язково):
-s, --розмір=uint64
* Розмір об’єднаної хеш-таблиці
-m, --мер-лен=uint32
*Мер довжина
-o, - вихід=рядок
Вихідний файл (merged.jf)
-p, -- повторні зонди=uint32
Максимальна кількість повторних зонд (62)
--використання
Використання
-h,--допомога
Це повідомлення
--повна допомога
Детальна допомога
-V,-- версія
версія
ЦИТОВАНО
Використання: медуза цитувати [опції]
Як цитувати стаття Медузи
Цитування паперу
Параметри (значення за замовчуванням в (), *обов’язково):
-b,--бібтекс
Формат Bibtex (false)
-o, - вихід=рядок
Вихідний файл
--використання
Використання
-h,--допомога
Це повідомлення
-V,-- версія
версія
Версія
Версія: 1.1.4 від 2010/10/1
Використовуйте медузи онлайн за допомогою служб onworks.net