медуза - онлайн в хмарі

Запустіть jellyfish у постачальника безкоштовного хостингу OnWorks через Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

Це командна медуза, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS

Запустити в Ubuntu Запустіть у Fedora Запустити в Windows Sim Запустіть в MACOS Sim

ПРОГРАМА:

ІМ'Я

Jellyfish — це програмне забезпечення для підрахунку k-мерів у послідовностях ДНК.

СИНТАКСИС

кількість медуз [-oпрефікс] [-mmerlength] [-tтеми] [-sхеш-розмір] [-- обидва пасма] фаста
[фаста ... ]
медузи злиття хеш1 хеш2 ...
звалище медуз мішанина
статистика медуз мішанина
медуза histo [-hвисока] [-lнизький] [-iприріст] мішанина
запит медузи мішанина
медуза цит

Плюс еквівалентна версія для режиму Quake: qhisto, qdump і qmerge.

ОПИС

Jellyfish — це лічильник k-mer, заснований на реалізації багатопотокової хеш-таблиці.

ПІДРАХУВАННЯ І ОБЛИВАННЯ
Щоб підрахувати k-mers, використовуйте таку команду:

кількість медуз -m 22 -o вихід -c 3 -s 10000000 -t 32 вхід.fasta

Це зарахує 22-мери в input.fasta з 32 потоками. Поле лічильника в
хеш використовує лише 3 біти, а хеш має щонайменше 10 мільйонів записів.

Вихідні файли будуть називатися output_0, output_1 тощо (префікс вказується за допомогою
-o перемикач). Якщо хеш досить великий (вказаний в -s перемикач), щоб відповідати всім
k-mers, буде лише один вихідний файл з іменем output_0. Якщо хеш заповнився раніше
всі mers були прочитані, хеш скидається на диск, обнуляється і зчитується в mer
резюме. На дисках буде представлено кілька проміжних файлів під назвою output_0,
вихід_1 тощо.

Щоб отримати правильні результати від інших підкоманд (таких як histo, stats тощо),
кілька вихідних файлів, якщо такі є, потрібно об’єднати в один за допомогою команди злиття. Для
приклад з такою командою:

медуза злиття -o output.jf output\_*

Якщо ви отримаєте багато проміжних вихідних файлів (скажімо, сотні), розмір хеш-таблиці
занадто малий. Повторний запуск медузи з більшим розміром (опція -s), ймовірно, швидше, ніж
об'єднання всіх проміжних файлів.

Орієнтація
Коли орієнтація послідовностей у вхідному файлі fasta невідома, наприклад, in
секвенування читає, використовуючи -- обидва пасма (-C) має найбільший сенс.

Для будь-якого k-mer m його канонічне представлення є самим m або його зворотним доповненням,
що стане першим лексикографічно. З опцією -C, тільки канонічний
представлення mers зберігаються в хеші, а значення count є числом
поява як mer, так і його зворотного доповнення.

ВИБІР THE ХАШ SIZE
Для досягнення найкращої продуктивності слід записати мінімальну кількість проміжних файлів
на диск. Отже, параметр -s слід вибрати так, щоб умістити якомога більше k-мерів (в ідеалі
всі) і все ще вписуються в пам'ять.

Розглянемо приклади: підрахунок мерів у зчитуваннях секвенування та в готовому геномі.

По-перше, припустимо, що ми підраховуємо k-мерів у коротких читаннях: є n читань і є
в середньому 1 помилка на читання, де кожна помилка генерує k унікальних mer. Якщо геном
розмір G, розмір хешу (опція -s), щоб відповідати всім k-мерам одночасно, оцінюється в: $(G
+ k*n)/0.8$. Ділення на 0.8 компенсує максимальне використання приблизно 80%$
хеш-таблиці.

З іншого боку, при підрахунку k-мерів у зібраній послідовності довжиною G, установка -s
до G підходить.

Для зручності Jellyfish розуміє суфікси ISO для розміру хешу.
Отже, «-s 10M» означає 10 мільйонів записів, а «-s 50G» означає 50 мільярдів записів.

Фактичне використання пам'яті хеш-таблиці можна обчислити наступним чином. Фактичний розмір
хеш буде округлено до наступного ступеня 2: s=2^l. Параметр r такий, що
максимальне значення повторного зондування (-p) плюс один менше 2^r. Потім використання пам’яті на запис
в хеші (у бітах, а не байтах) 2k-l+r+1. Загальне використання пам’яті хеш-таблиці в
байт: 2^l*(2k-l+r+1)/8.

ВИБІР THE ПІДРАХУВАННЯ область SIZE
Щоб заощадити місце, хеш-таблиця підтримує лічильник змінної довжини, тобто K-mer
лише кілька разів використовуватиме невеликий лічильник, k-mer, що зустрічається багато разів, буде використовуватися багаторазово
записи в хеші.

Важливо: розмір поля вирахування НЕ змінює результат, він впливає лише на
обсяг використовуваної пам'яті. Зокрема, в хеші немає максимального значення. Навіть якщо
поле підрахунку використовує 5 біт, k-mer, що зустрічається 2 мільйони разів, матиме значення, яке повідомляється
2 мільйони (тобто не обмежено 2^5).

Команда -c вкажіть довжину (у бітах) поля підрахунку. Компроміс полягає в наступному: a
низьке значення заощадить місце на запис у хеші, але потенційно може збільшити кількість
використані записи, отже, можливо, потрібен більший хеш.

На практиці використовуйте значення for -c так що більшості з вас, к-мерів, потрібно лише 1 запис. Для
Наприклад, для підрахунку k-мерів у геномі, де більша частина послідовності є унікальною, використовуйте -c1 or
-c2. Для послідовного читання використовуйте значення для -c достатньо великий, щоб рахувати вдвічі більше
покриття. Наприклад, якщо охоплення становить 10X, виберіть довжину лічильника 5 (-c5) як $2^5
> 20 доларів.

ПІДКОМАНДІ І ВАРІАНТИ

COUNT
Використання: кількість медуз [параметри] file:path+

Підрахуйте k-mers або qmers у файлах fasta або fastq

Параметри (значення за замовчуванням в (), *обов’язково):

-m, --мер-лен=uint32
* Довжина мер

-s, --розмір=uint64
* Розмір хеша

-t, --нитки=uint32
Кількість ниток (1)

-o, - вихід=рядок
Вихідний префікс (mer_counts)

-c, --контр-лен= Довжина
у бітах Довжина поля підрахунку (7)

--out-counter-len= Довжина
у байтах Довжина поля лічильника на виході (4)

-C,-- обидва пасма
Підрахувати обидва ланцюга, канонічне представлення (неправда)

-p, -- повторні зонди=uint32
Максимальна кількість повторних зонд (62)

-r,-сирий
Написати необроблену базу даних (неправда)

-q,--трус
Режим сумісності Quake (неправда)

--якість-початок=uint32
Запуск ASCII для значень якості (64)

--мінімальна якість=uint32
Мінімальна якість. База з меншою якістю стає N (0)

-L, --менша кількість=uint64
Не виводьте k-mer із count < нижчим числом

-U, --верхня кількість=uint64
Не виводьте k-mer із count > upper-count

--матриця=Матриця
файл Хеш-функція двійкова матриця

-- терміни=Терміни
файл Друк інформації про час

--статистика=Статистика
файл Друк статистики

--використання
Використання

-h,--допомога
Це повідомлення

--повна допомога
Детальна допомога

-V,-- версія
версія

СТАТИСТИКА
Використання: статистика медузи [параметри] db:path

Статистика

Покажіть деякі статистичні дані про k-mer у хеші:

Унікальний: кількість k-мерів, які зустрічаються лише один раз. Відмінні: кількість k-мерів, не враховуючи
множинність. Усього: кількість k-мерів, включаючи кратність. Max_count: максимальна кількість
виникнення k-mer.

Параметри (значення за замовчуванням в (), *обов’язково):

-L, --менша кількість=uint64
Не враховуйте k-mer з count < меншим числом

-U, --верхня кількість=uint64
Не розглядайте k-mer з count > upper-count

-v,-багатослівний
Багатослівний (неправда)

-o, - вихід=рядок
Вихідний файл

--використання
Використання

-h,--допомога
Це повідомлення

--повна допомога
Детальна допомога

-V,-- версія
версія

ІСТО
Використання: медуза histo [параметри] db:path

Створіть гістограму випадків k-mer

Створіть гістограму з кількістю k-мерів із заданим числом. У відрі є "i".
підрахував k-мерів, кількість яких 'c' задовольняє 'low+i*inc <= c < low+(i+1)*inc'.
Відсіки у вихідних даних позначаються нижньою кінцевою точкою (low+i*inc).

Останнє відро у вихідних даних веде себе як сповіщення: воно підраховує всі k-mers з підрахунком
більше або дорівнює нижній кінцевій точці цього сегмента.

Параметри (значення за замовчуванням в (), *обов’язково):

-l, --низький=uint64
Низьке значення гістограми (1)

-h, --високий=uint64
Високе значення гістограми (10000)

-i, --приріст=uint64
Значення збільшення для відер (1)

-t, --нитки=uint32
Кількість ниток (1)

-f,--повний
Повна історія. Не пропускайте рахунок 0. (Неправда)

-o, - вихід=рядок
Вихідний файл

-v,-багатослівний
Вихідна інформація (неправда)

--використання
Використання

--допомога
Це повідомлення

--повна допомога
Детальна допомога

-V,-- версія
версія

DUMP
Використання: дамп медузи [параметри] db:path

Скидайте кількість k-mer

За замовчуванням, дамп у форматі fasta, де заголовок - це кількість, а послідовність - це
послідовність k-mer. Формат стовпця – це вихідний результат із 2 стовпців: кількість k-mer.

Параметри (значення за замовчуванням в (), *обов’язково):

-c,--стовпчик
Формат стовпця (false)

-t,--вкладка
Роздільник табуляції (false)

-L, --менша кількість=uint64
Не виводьте k-mer із count < нижчим числом

-U, --верхня кількість=uint64
Не виводьте k-mer із count > upper-count

-o, - вихід=рядок
Вихідний файл

--використання
Використання

-h,--допомога
Це повідомлення

-V,-- версія
версія

ВЕЛИКИЙ
Використання: медузи злиття [параметри] input:string+

Об’єднати бази даних медуз

Параметри (значення за замовчуванням в (), *обов’язково):

-s, --розмір буфера=Буфер
довжина Довжина в байтах вхідного буфера (10000000)

-o, - вихід=рядок
Вихідний файл (mer_counts_merged.jf)

--out-counter-len=uint32
Довжина (у байтах) поля підрахунку у виводі (4)

--out-buffer-size=uint64
Розмір вихідного буфера на потік (10000000)

-v,-багатослівний
Бути багатослівним (неправда)

--використання
Використання

-h,--допомога
Це повідомлення

-V,-- версія
версія

QUERY
Використання: запит медузи [параметри] db:path

Запит із компактної бази даних

Запит на хеш. Він зчитує k-mers зі стандартного введення і записує підрахунки на стандартному
вихід.

Параметри (значення за замовчуванням в (), *обов’язково):

-C,-- обидва пасма
Обидва пасма (помилкові)

-c,--карі-біт
Поле значення як інформація про біт Cary (false)

-i, --вхід=файл
Вхідний файл

-o, - вихід=файл
Вихідний файл

--використання
Використання

-h,--допомога
Це повідомлення

-V,-- версія
версія

QHISTO
Використання: медуза qhisto [параметри] db:string

Створіть гістограму випадків k-mer

Параметри (значення за замовчуванням в (), *обов’язково):

-l, --низький= подвійний
Низьке значення гістограми (0.0)

-h, --високий= подвійний
Високе значення гістограми (10000.0)

-i, --приріст= подвійний
Значення збільшення для відер (1.0)

-f,--повний
Повна історія. Не пропускайте рахунок 0. (Неправда)

--використання
Використання

--допомога
Це повідомлення

-V,-- версія
версія

QDUMP
Використання: jellyfish qdump [параметри] db:path

Дамп k-mer з бази даних qmer

За замовчуванням, дамп у форматі fasta, де заголовок - це кількість, а послідовність - це
послідовність k-mer. Формат стовпця – це вихідний результат із 2 стовпців: кількість k-mer.

Параметри (значення за замовчуванням в (), *обов’язково):

-c,--стовпчик
Формат стовпця (false)

-t,--вкладка
Роздільник табуляції (false)

-L, --менша кількість= подвійний
Не виводьте k-mer із count < нижчим числом

-U, --верхня кількість= подвійний
Не виводьте k-mer із count > upper-count

-v,-багатослівний
Бути багатослівним (неправда)

-o, - вихід=рядок
Вихідний файл

--використання
Використання

-h,--допомога
Це повідомлення

-V,-- версія
версія

QMERGE
Використання: медузи злиття [параметри] db:string+

Об’єднати бази даних землетрусів

Параметри (значення за замовчуванням в (), *обов’язково):

-s, --розмір=uint64
* Розмір об’єднаної хеш-таблиці

-m, --мер-лен=uint32
*Мер довжина

-o, - вихід=рядок
Вихідний файл (merged.jf)

-p, -- повторні зонди=uint32
Максимальна кількість повторних зонд (62)

--використання
Використання

-h,--допомога
Це повідомлення

--повна допомога
Детальна допомога

-V,-- версія
версія

ЦИТОВАНО
Використання: медуза цитувати [опції]

Як цитувати стаття Медузи

Цитування паперу

Параметри (значення за замовчуванням в (), *обов’язково):

-b,--бібтекс
Формат Bibtex (false)

-o, - вихід=рядок
Вихідний файл

--використання
Використання

-h,--допомога
Це повідомлення

-V,-- версія
версія

Версія

Версія: 1.1.4 від 2010/10/1

Використовуйте медузи онлайн за допомогою служб onworks.net