To jest polecenie gmt-music-bmr-calc-covgp, które można uruchomić w bezpłatnym dostawcy hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
gmt music bmr calc-covg - Używa calcRoiCovg.c do zliczania objętych zasad na gen dla każdego
biorąc pod uwagę parę normalnych guzów BAM.
WERSJA
W tym dokumencie opisano gmt music bmr calc-covg wersja 0.04 (2016-01-01 o 23:10:19)
STRESZCZENIE
gmt muzyka bmr calc-covg --gene-covg-dir=? --roi-file=? --sekwencja-odniesienia=? --bam-list=?
--katalog-wyjściowy=? [--cmd-list-file=?] [--cmd-prefix=?] [--normal-min-głębokość=?]
[--min-guz-głębokość=?] [--min-mapq=?]
Ogólne zastosowanie:
... muzyka bmr calc-covg \
--bam-list katalog_wejściowy/bam_list \
--katalog-wyjściowy katalog_wyjściowy/ \
--referencja-sekwencja katalog_wejściowy/wszystkie_sekwencje.fa \
--roi-file katalog_wejściowy/all_coding_exons.tsv
Aby utworzyć listę poleceń, które pozwolą na przetwarzanie każdej pary guz-normalny w
równolegle z harmonogramem zadań LSF:
... muzyka bmr calc-covg \
--bam-list katalog_wejściowy/bam_list \
--katalog-wyjściowy katalog_wyjściowy/ \
--referencja-sekwencja katalog_wejściowy/wszystkie_sekwencje.fa \
--roi-file katalog_wejściowy/all_coding_exons.tsv \
--cmd_list_file polecenia_równoległe \
--cmd_prefix bsub
W powyższym przypadku polecenia wydrukowane w pliku wyjściowym „parallelizable_commands” mogą
być prowadzone równolegle. Po ich zakończeniu uruchom ponownie ten skrypt, jak pokazano bezpośrednio poniżej
(--cmd_list_file i --cmd_prefix zostały usunięte), aby scalić pliki równoległe
obliczenia:
... muzyka bmr calc-covg \
--bam-list katalog_wejściowy/bam_list \
--katalog-wyjściowy katalog_wyjściowy/ \
--referencja-sekwencja katalog_wejściowy/wszystkie_sekwencje.fa \
--roi-file katalog_wejściowy/all_coding_exons.tsv
WYMAGANE ARGUMENTY
gen-covg-reż Tekst
Katalog, w którym znajdują się pliki pokrycia genów dla poszczególnych próbek
roi-plik Tekst
Rozdzielana tabulatorami lista ROI [chr start stop nazwa_genu] (zobacz opis)
sekwencja odniesienia Tekst
Ścieżka do sekwencji referencyjnej w formacie FASTA
bam-lista Tekst
Rozdzielana tabulatorami lista plików BAM [nazwa_przykładu normal_bam guz_bam] (zobacz opis)
katalog wyjściowy Tekst
Katalog, w którym będą zapisywane pliki wyjściowe i podkatalogi
OPCJA ARGUMENTY
plik listy cmd Tekst
Plik do zapisywania poleceń calcRoiCovg (zobacz opis)
prefiks cmd Tekst
Polecenie przesyłające zadanie do klastra (zobacz opis)
normalna-min-głębokość Liczba całkowita
Minimalna głębokość odczytu do rozważenia podstawy Normal BAM jako objętej
guz-min-głębokość Liczba całkowita
Minimalna głębokość odczytu, aby uznać podstawę BAM guza za objętą
min-mapq Liczba całkowita
Minimalna jakość mapowania odczytów, którą należy wziąć pod uwagę przy obliczaniu głębokości odczytu
OPIS
Skrypt ten zlicza zasady o wystarczającym pokryciu ROI każdego genu w danym
pary plików BAM prawidłowych dla guza i kategoryzuje je na - AT, CG (inne niż CpG) i CpG
liczy się. Sumuje również te liczby zasad we wszystkich ROI każdego genu dla każdej próbki,
ale zakryte bazy leżące w nakładających się obszarach ROI nie są wliczane więcej niż raz
te sumy.
Domyślnie ten skrypt uruchamia narzędzie oparte na języku C o nazwie calcRoiCovg dla każdej kolejnej próbki
w innym, wygenerowanie zliczeń podstawowych objętych ROI zajmuje około 30 minut na próbkę. Jeśli
wyniki calcRoiCovg dla próbki już istnieją w podkatalogu wyjściowym roi_covgs,
ponowne obliczenia są pomijane. Umożliwia to równoległe uruchamianie własnych zadań calcRoiCovg lub
na wielu komputerach (czytaj dalej).
Przyspiesz działanie, uruchamiając zadania calcRoiCovg równolegle: w przypadku klastra obliczeniowego lub wielu
maszyny są dostępne, uruchom ten skrypt dwa razy w następujący sposób:
· Zdefiniuj plik-listy cmd i przedrostek cmd, aby wygenerować plik z możliwymi poleceniami
przesłane do klastra lub uruchamiane ręcznie. Zadania te będą zapisywać podstawowe liczby ROI w pliku a
podkatalog roi_covgs.
· Po zakończeniu wszystkich równoległych zadań calcRoiCovg uruchom ponownie ten skrypt
dodaj je i wygeneruj ostateczną liczbę zasad dla poszczególnych genów w podkatalogu gene_covgs.
Pamiętaj, aby usunąć argumenty cmd-list-file i cmd-prefix, w przeciwnym razie po prostu zostaniesz ponownie
tworzenie listy poleceń.
ARGUMENTY
--roi-plik
Regiony zainteresowania (ROI) każdego genu są zazwyczaj regionami docelowymi
sekwencjonowanie lub są połączone loci eksonów (z wielu transkryptów) genów o 2 pz
boki (połączenia spawów). ROI z tego samego chromosomu muszą być wymienione obok
siebie w tym pliku. Dzięki temu bazowy kod oparty na języku C może działać znacznie więcej
wydajnie i unikaj ponownego liczenia zasad obserwowanych w nakładających się ROI (dla całości objętej
liczby bazowe). W przypadku zliczeń zasad dla każdego genu za każdym razem zliczane będą nakładające się zasady
pojawia się w ROI tego samego genu. Aby tego uniknąć, pamiętaj o połączeniu
nakładające się ROI tego samego genu. BEDtools' mergeBed może pomóc, jeśli jest używany na gen.
--sekwencja-odniesienia
Sekwencja referencyjna w formacie FASTA. Jeśli indeks sekwencji referencyjnej nie zostanie znaleziony
obok tego pliku (plik .fai), zostanie on utworzony.
--bam-lista
Dostarcz plik zawierający nazwy próbek i lokalizacje BAM normalnego/guza dla każdego z nich. Posługiwać się
format rozdzielany znakami tabulacji [nazwa_próbki normal_bam guz_bam] w wierszu. Dodatkowy
kolumny takie jak dane kliniczne są dozwolone, ale są ignorowane. Nazwa_próbki musi być taka sama
jak nazwy próbek guza użyte w pliku MAF (kolumna 16, z nagłówkiem
Guz_Próbka_Kod kreskowy).
--katalog-wyjściowy
Określ katalog wyjściowy, w którym zostaną utworzone/zapisane następujące elementy: roi_covgs:
Podkatalog zawierający liczby bazowe objęte przez ROI dla każdej próbki. gene_covgs:
Podkatalog zawierający liczbę zasad pokrytych dla każdego genu dla każdej próbki. total_covgs:
Plik zawierający ogólne nienakładające się pokrycie na próbkę.
--cmd-list-plik
Określ plik, do którego zostanie zapisana lista zadań calcRoiCovg. Mogą to być
zaplanowane równolegle i zapisze w wynikach liczbę bazową objętą ROI
podkatalog roi_covgs. Jeśli plik cmd-list-file pozostanie nieokreślony, ten skrypt zostanie uruchomiony
calcRoiCovg na próbkę jedna po drugiej, co zajmuje około 30 minut na próbkę, ale jest pomijane
próbki, których dane wyjściowe znajdują się już w roi_covgs.
--cmd-przedrostek
Określ polecenie przesyłania zadania, które będzie poprzedzane każdym poleceniem w cmd-list-
plik. Ułatwia to przesyłanie partii. Po prostu uruchom plik cmd-list-file jako powłokę
skrypt do przesyłania zadań. przedrostek cmd to „bsub”, jeśli klaster korzysta z zadania LSF
harmonogram lub „qsub” w Torque. W razie potrzeby dodaj argumenty. Na przykład „bsub -M 4 GB”
ustawia miękki limit pamięci na 4 GB.
Korzystaj z gmt-music-bmr-calc-covgp online, korzystając z usług onworks.net