To polecenie pbbarcode, które można uruchomić w darmowym dostawcy hostingu OnWorks, korzystając z jednej z wielu naszych darmowych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
pbbarcode - adnotuj odczyty sekwencjonowania PacBio za pomocą informacji z kodu kreskowego
OPIS
Kurs kod kreskowy pbbarcode Pakiet zawiera narzędzia do adnotacji poszczególnych ZMW bezpośrednio z
plik bas.h5, emitujący pliki fast[a|q] dla każdego kodu kreskowego, etykietując wyrównania zapisane w
plik cmp.h5 i wywołanie konsensusu dla małych amplikonów (wymagane pbdagcon(1))
W chwili obecnej kody kreskowe można punktować na dwa różne sposoby: symetryczny i sparowany.
Tryb symetryczny obsługuje projekty kodów kreskowych z dwoma identycznymi kodami kreskowymi po obu stronach
SMRTbell, np. w przypadku kodów kreskowych (A, B), cząsteczki są oznaczane jako A--A lub B--B. sparowany
tryb obsługuje projekty z dwoma różnymi kodami kreskowymi po każdej stronie cząsteczki, ale żaden z nich
kod kreskowy pojawia się bez swojego odpowiednika. Minimalny przykład jest podany z następującym
kody kreskowe: (ALeft, ARight, BLeft, BRight), gdzie sprawdzane są następujące zestawy kodów kreskowych:
Lewy-prawy, BLewy-prawy.
Ważne jest, aby podkreślić, że plik FASTA z kodem kreskowym określa listę dostępnych
kody kreskowe do oceny. W zależności od trybu punktacji kody kreskowe są grupowane razem w
na różne sposoby. Na przykład, w symetryczny przypadek, liczba możliwych kodów kreskowych
wyniki to po prostu liczba kodów kreskowych dostarczonych do rutyny w FASTA
plik (patrz poniżej, jak go używać) plus dodatkowy NULL kod kreskowy wskazujący brak kodu kreskowego
można ocenić (oznaczone jako: '--'). Etykiety takie jak ta (A--A) są używane w końcowym
wyjścia. W sparowany tryb, liczba możliwych wyników kodu kreskowego jest o połowę mniejsza
sekwencji w pliku FASTA plus NULL kod kreskowy. NULL kod kreskowy wskazuje, że
nie podjęto próby oceny cząsteczki lub została ona odfiltrowana według kryteriów użytkownika.
Większość przypadków, w których cząsteczka nie jest punktowana, wiąże się z brakiem zaobserwowania jakiejkolwiek
adaptery. Jeśli użytkownik wykonał uruchomienie „hot-start”, może wypróbować '--scoreFirst'
parametru, aby spróbować oznaczyć kod kreskowy pierwszego adaptera. Zwiększa to wydajność
procedury etykietowania, co może skutkować fałszywie pozytywnymi wynikami.
Oprogramowanie jest implementowane jako standardowy pakiet python. Kody kreskowe są etykietowane zgodnie z
do następującej logiki wysokiego poziomu. Dla każdej cząsteczki, wszystkie adaptery są znajdowane. Dla każdej
adapter, wyrównujemy (stosując standardowe wyrównanie Smitha-Wattermana) każdy kod kreskowy i jego odwrotność
uzupełnienie do sekwencji flankującej adaptera. Jeśli dwie kompletne sekwencje flankujące są
dostępne, dzielimy przez 2, w przeciwnym razie przez 1, jeśli dostępna była tylko jedna sekwencja flankująca (średnia
wynik w adapterze). Dzięki temu wyniki w różnych adapterach są na tej samej skali (chimera
wykrycie). W zależności od trybnastępnie ustalamy, które kody kreskowe są maksymalnie
punktacja. Przechowujemy dwa maksymalnie punktowane kody kreskowe, sumę ich punktów wyrównania
przez adaptery. Średni wynik kodu kreskowego można wtedy podać w przybliżeniu:
total-score/number-of-adapters. W chwili obecnej parametry wyrównania są ustalone na:
┌──────────┬───────┐
│typ │ wynik │
├──────────┼───────┤
│wstawianie │ -1 │
├──────────┼───────┤
│usunięcie │ -1 │
├──────────┼───────┤
│niedopasowanie │ -2 │
├──────────┼───────┤
│dopasuj │ 2 │
└──────────┴───────┘
Wkład i wydajność
etykietaZmws
stosowanie: kod kreskowy pbbarcode etykietaZmws [-H] [--outDir [KATALOG] [--wyjdźFofn WYJŚCIE]
[--adapterSidePad ADAPTERSIDEPAD] [--insertSidePad WSTAWIAMY IDEPAD] [--scoreMode
{symetryczny, sparowany}] [--maxAdapters MAXADAPTERS] [--scoreFirst]
[--startTimeCutoff STARTTIMECUTOFF] [--nZmws NZMWS] [--nProcs NPROCS]
[--saveExtendedInfo] kod kreskowy.fasta input.fofn
Tworzy plik barcode.h5 z plików bazowych h5.
pozycyjny argumenty:
barcode.fasta Wprowadź kod kreskowy pliku fasta input.font Wprowadź bazę danych
fon
fakultatywny argumenty:
-h, --help
pokaż tę wiadomość pomocy i wyjdź
--outDir ZEWN
Gdzie zapisać nowo utworzone pliki barcode.h5. (domyślnie:
/home/UNIXHOME/jbullard/projekty/oprogramowanie/bioinformatyka/narzędzia/pbbarcode/doc)
--wyjdźFofn WYJŚCIE
Zapisz do outFofn (domyślnie: barcode.fofn)
--adapterSidePad ADAPTERBOOKPAD
Podkładka z adapteremBazy SidePad (domyślne: 4)
--wstawPadSidePad WKŁADKA BOCZNA
Podkładka z podstawami insertSidePad (domyślnie: 4)
--trybwyniku {symetryczny, sparowany}
Tryb, w którym kody kreskowe powinny być nacinane. (domyślnie: symetryczny)
--maxAdaptery MAXADAPTERY
Zdobądź tylko pierwsze maxAdapters (domyślnie: 20)
--pierwszy wynik
Czy próbować punktować kod kreskowy znajdujący się najdalej na lewo w śledzeniu. (domyślnie: Fałsz)
--startTimeCutoff ODCIĘCIE CZASU ROZPOCZĘCIA
Odczyty muszą rozpocząć się przed tą wartością, aby zostały uwzględnione.
scoreFirst jest ustawiony. (domyślnie: 10.0)
--nZmws NZMWS
Użyj pierwszych n ZMW do testowania (domyślnie: -1)
--nProcedury NPROC
Ile procesów użyć (domyślnie: 8)
--zapiszrozszerzoneinformacje
Czy zapisać rozszerzone informacje do plików barcode.h5; to
informacja jest przydatna do debugowania i wykrywania chimer (domyślnie:
Fałszywe)
Kurs etykietaZmws polecenie przyjmuje plik input.fonn reprezentujący zestaw plików bas.h5, aby działać
on. Dodatkowo pobiera plik barcode.fasta. W zależności od Tryb punktacjiplik FASTA
będą przetwarzane na różne sposoby. Konkretnie, w sparowany tryb, każdy dwa kolejne
kody kreskowe w pliku są traktowane jako zestaw.
Parametry, adapterSidePad i wstawSidePad reprezentuje ile powinno być baz
rozważane po każdej stronie domniemanego kodu kreskowego. Parametry te są ograniczone, takie jak
że: |adapterSidePad| + |wstawSidePad| + |kod kreskowy| < 65.
Użytkownicy mają możliwość określenia innej lokalizacji wyjściowej dla różnych wyjść.
Dokładniej rzecz biorąc, dla każdego pliku bas.h5 w pliku input.fofn tworzony jest plik bc.h5 (kod kreskowy hdf5)
wygenerowane. Te pliki są wymienione w pliku wyjdź który jest zwykle nazywany po prostu
kod kreskowy.fonnPoniżej znajduje się opis pliku z kodem kreskowym hdf5.
etykietyWyrównania
stosowanie: kod kreskowy pbbarcode etykietyWyrównania [-H]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] barcode.fofn alignment_reads.cmp.h5
Dodaje informacje o wyrównaniu kodów kreskowych do pliku cmp.h5 z poprzedniego wywołania
"labelZmws".
pozycyjny argumenty:
barcode.fofn kod kreskowy wejściowy plik fonn alignment_reads.cmp.h5 plik cmp.h5
aby dodać etykiety z kodem kreskowym
fakultatywny argumenty:
-h, --help
pokaż tę wiadomość pomocy i wyjdź
--minAvgBarcodeScore WYNIK MINAVGBARCODESCORE
Filtr ZMW: wyklucz ZMW, jeśli średni wynik kodu kreskowego jest mniejszy od tej wartości
(domyślnie: 0.0)
--minNumKodyKreskowe MINNUMKODYKRESKOWE
Filtr ZMW: wyklucz ZMW, jeśli liczba zaobserwowanych kodów kreskowych jest mniejsza od tej
wartość (domyślna: 1)
--minScoreRatio MINSKORERACJA
Filtr ZMW: wyklucz ZMW, których najlepszy wynik jest podzielony przez drugi najlepszy wynik
jest mniejsza od tego współczynnika (domyślnie: 1.0)
Kurs etykietyWyrównania polecenie przyjmuje jako dane wejściowe kod kreskowy.fofn obliczony na podstawie wywołania
etykietaZMWs i plik cmp.h5, do którego zapisywane są informacje o kodzie kreskowym. Zobacz poniżej
Opis dodatków do pliku cmp.h5.
emitujFastqs
stosowanie: kod kreskowy pbbarcode emitujFastqs [-H] [--outDir wyjście.dir] [--pododczyty]
[--unlabeledZmws] [--trim PRZYTNIJ] [--fasta] [--minMaxInsertLength
MINMAXINSERTLENGTH] [--hqStartTime HQSTARTTIME] [--minReadScore MINREADSCORE]
[--minAvgBarcodeScore MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES]
[--minScoreRatio MINSCORERATIO] wejście.fofn kod kreskowy.fofn
Przyjmuje plik bas.h5 fonn i kod kreskowy.h5 fonn i generuje dla każdego z nich plik fast[a|q]
kod kreskowy.
pozycyjny argumenty:
input.fofn baza wejściowa lub plik CCS fonn barcode.fofn input
plik barcode.h5 fonn
fakultatywny argumenty:
-h, --help
pokaż tę wiadomość pomocy i wyjdź
--outDir wyjście.dir wydajność katalog do napisać szybkoq pliki (domyślny: /Dom/
UNIXHOME/jbullard/projekty/oprogramowanie/bioinformatyka/too ls/pbbarcode/doc)
--pododczyty
czy tworzyć pliki fastq dla pododczytów; domyślnie używane jest
CCS odczytuje. Ta opcja ma zastosowanie tylko wtedy, gdy input.fonn ma zarówno konsensus, jak i
surowe odczyty, w przeciwnym wypadku zwrócony zostanie typ odczytu z input.fonn.
(domyślnie: Fałsz)
--nieoznakowaneZmws
czy emitować plik fastq dla nieoznakowanych ZMW. To są ZMW
gdzie zazwyczaj nie znaleziono żadnych adapterów (domyślnie: Fałsz)
--przycinać TRIM
przytnij kody kreskowe i wszelkie nadmiarowe stałe sekwencje (domyślnie: 20)
--szybko
czy wytworzone pliki powinny być plikami FASTA, a nie FASTQ
(domyślnie: Fałsz)
--minMaxDługośćWstawiania MINMAXDŁUGOŚĆWKŁADANIA
Filtr ZMW: wyklucz ZMW, jeśli najdłuższy subread jest mniejszy od tej wartości
(domyślnie: 0)
--hqCzasRozpoczęcia HQCZASRODKOWY
Filtr ZMW: wyklucz ZMW, jeśli czas rozpoczęcia regionu HQ jest większy niż ta wartość
(sekundy) (domyślnie: inf)
--minWynik odczytu MINODCZYTAJ WYNIK
Filtr ZMW: wyklucz ZMW, jeśli wynik odczytu jest mniejszy od tej wartości (domyślnie: 0)
--minAvgBarcodeScore WYNIK MINAVGBARCODESCORE
Filtr ZMW: wyklucz ZMW, jeśli średni wynik kodu kreskowego jest mniejszy od tej wartości
(domyślnie: 0.0)
--minNumKodyKreskowe MINNUMKODYKRESKOWE
Filtr ZMW: wyklucz ZMW, jeśli liczba zaobserwowanych kodów kreskowych jest mniejsza od tej
wartość (domyślna: 1)
--minScoreRatio MINSKORERACJA
Filtr ZMW: wyklucz ZMW, których najlepszy wynik jest podzielony przez drugi najlepszy wynik
jest mniejsza od tego współczynnika (domyślnie: 1.0)
Kurs emitujFastqs polecenie przyjmuje jako dane wejściowe zarówno plik input.fonn dla plików bas.h5, jak i
barcode.fonn z wywołania labelZmws. Opcjonalny parametr outDir dyktuje gdzie
pliki zostaną zapisane. Dla każdego wykrytego kodu kreskowego zostanie wyemitowany plik fast[a|q] z
wszystkie odczyty dla tego kodu kreskowego. trym parametr określa, ile odczytu powinno zostać wykonane
zostać przyciętym. Domyślny parametr dla trym jest długością kodu kreskowego (który jest
przechowywane w plikach barcode hdf5). W tej chwili wszystkie kody kreskowe w pliku barcode FASTA
musi mieć taką samą długość, dlatego obsługiwana jest tylko stała wartość przycięcia. W praktyce,
można agresywnie przycinać, aby mieć pewność, że na końcach nie pozostaną żadne dodatkowe bazy
czyta. Na koniec, pododczyty parametr określa, czy powinny być wykonywane odczyty podrzędne czy odczyty CCS
zwrócono z wartością domyślną będącą odpowiednim odczytem zgodnie z typem pliku wejściowego,
albo CCS albo subreads. Ten parametr jest sprawdzany tylko wtedy, gdy input.fonn zawiera oba
Dane CCS i pododczytowe, jeśli input.fonn zawiera tylko dane pododczytowe lub CCS, to jest to
zwrócone niezależnie od stanu pododczyty parametr i wyświetlane jest ostrzeżenie.
zgoda
stosowanie: kod kreskowy pbbarcode zgoda [-H] [--podpróbka [PRÓBKA PODWYŻKOWA] [--nZmws [NZMWS]
[--outDir KATALOG WYJŚCIOWY] [--keepTmpDir] [--ccsFofn CCSFOFN] [--nProcs NPROCS]
[--noQuiver] [--minMaxInsertLength MINMAXINSERTTLENGTH] [--hqStartTime
HQSTARTTIME] [--minReadScore MINREADSCORE] [--minAvgBarcodeScore
MINAVGBARCODESCORE] [--minNumBarcodes MINNUMBARCODES] [--minScoreRatio
MINSCORERATIO] [--barcode KOD KRESKOWY [KOD KRESKOWY ...]] input.fofn kod kreskowy.fofn
Oblicz sekwencje konsensusu dla każdego kodu kreskowego.
pozycyjny argumenty:
input.fofn input bas.h5 fonn plik barcode.fofn input bc.h5
plik fonn
fakultatywny argumenty:
-h, --help
pokaż tę wiadomość pomocy i wyjdź
--podpróbka PODPRÓBKA
Podpróbka ZMW (domyślnie: 1)
--nZmws NZMWS
Weź n ZMW (domyślnie: -1)
--outDir ZEWN
Użyj tego katalogu do wyprowadzenia wyników (domyślnie: .)
--keepTmpDir --ccsFofn CCSFOFN Pobierz dane CCS z ccsFofn zamiast
wejście.fonn
(domyślny: )
--nProcedury NPROC
Użyj nProcs do wykonania. (domyślnie: 16)
--noQuiver --minMaxInsertLength MINMAXINSERTLENGTH
Filtr ZMW: wyklucz ZMW, jeśli najdłuższy subread jest mniejszy od tej wartości
(domyślnie: 0)
--hqCzasRozpoczęcia HQCZASRODKOWY
Filtr ZMW: wyklucz ZMW, jeśli czas rozpoczęcia regionu HQ jest większy niż ta wartość
(sekundy) (domyślnie: inf)
--minWynik odczytu MINODCZYTAJ WYNIK
Filtr ZMW: wyklucz ZMW, jeśli wynik odczytu jest mniejszy od tej wartości (domyślnie: 0)
--minAvgBarcodeScore WYNIK MINAVGBARCODESCORE
Filtr ZMW: wyklucz ZMW, jeśli średni wynik kodu kreskowego jest mniejszy od tej wartości
(domyślnie: 0.0)
--minNumKodyKreskowe MINNUMKODYKRESKOWE
Filtr ZMW: wyklucz ZMW, jeśli liczba zaobserwowanych kodów kreskowych jest mniejsza od tej
wartość (domyślna: 1)
--minScoreRatio MINSKORERACJA
Filtr ZMW: wyklucz ZMW, których najlepszy wynik jest podzielony przez drugi najlepszy wynik
jest mniejsza od tego współczynnika (domyślnie: 1.0)
--kod kreskowy KOD KRESKOWY [KOD KRESKOWY ...]
Użyj tego, aby uzyskać konsensus tylko dla jednego kodu kreskowego. (domyślnie: Brak)
Kurs emitujFastqs polecenie przyjmuje jako dane wejściowe zarówno plik input.fonn dla plików bas.h5, jak i
barcode.fonn z wywołania labelZmws. Wyniki to plik FASTA z wpisem dla każdego
kod kreskowy zawierający konsensusową sekwencję amplikonu. Ten tryb wykorzystuje Kołczan i pbdagcon
aby obliczyć konsensus.
W przypadkach, gdy amplikon jest mniejszy niż 2.5 tys. zasad, użycie danych CCS jest bardzo pomocne.
--- ... pozwala na bezpośrednie przesyłanie plików ccs. W wielu przypadkach zarówno CCS, jak i surowe
wywołania bazowe znajdują się w tym samym pliku, więc możesz je sprawdzić, przekazując ten sam parametr do
input.fofn co do ccsFofn.
Zależności
Pakiet pbbarcode jest zależny od standardowej instalacji pbcore (-
https://github.com/PacificBiosciences/pbcore). Jeśli ktoś chce użyć zgoda Narzędzie,
pbdagcon musi zostać zainstalowany (https://github.com/PacificBiosciences/pbdagcon).
kod kreskowy HDF5 filet
Plik z kodem kreskowym hdf5 p.n.e.h5, reprezentuje prosty magazyn danych dla wywołań kodów kreskowych i ich
wyniki dla każdego ZMW. Zasadniczo użytkownik nie musi wchodzić w interakcję z plikami hdf5 z kodem kreskowym, ale może
użyj wyników zapisanych w wynikowym pliku cmp.h5 lub plikach fast[a|q]. Kod kreskowy
Plik hdf5 zawiera następującą strukturę:
/BarcodeCalls/best - zbiór danych (nZMWs, 6)[32-bitowa liczba całkowita] z następującymi kolumnami:
holeNumber,nAdapters,barcodeIdx1,barcodeScore1,barcodeIdx2,barcodeScore2
Dodatkowo Najlepiej zbiór danych ma następujące atrybuty:
┌────────────┬────────────────────────────── ────────── ─────────────────────────────┐
│nazwafilmu │ m120408_042614_richard_c100309392550000001523011508061222_s1_p0 │
├────────────┼────────────────────────────── ────────── ──────────────────────────────┤
│columnNames │ holeNumber,nAdapters,barcodeIdx1,barcodeScore1,barcodeIdx2, │
│ │ barcodeScore2 │
└────────────┴────────────────────────────────── ────────── ───────────────────────────────
│scoreMode │ [symetryczny|sparowany] │
├────────────┼────────────────────────────── ────────── ──────────────────────────────┤
│kody kreskowe │ 'bc_1', 'bc_2', ...., 'bc_N' │
└────────────┴────────────────────────────────── ────────── ───────────────────────────────
Dwie kolumny barcodeIdx1 i barcodeIdx2 są indeksami kody kreskowe atrybut. The
Tryb punktacji jest trybem punktacji używanym do wyrównywania kodów kreskowych. kody kreskowe atrybut odpowiada
nazwy sekwencji barcode.fasta.
Ponadto w niektórych okolicznościach przydatne jest zachowanie całej historii
punktacja, tj. każdy kod kreskowy punktowany dla każdego adaptera we wszystkich ZMW. Aby zachować to
informacji należy dzwonić pod numer:
kod kreskowy pbbarcode etykietaZmws --zapiszrozszerzoneinformacje ...
W tym trybie wynikowy plik HDF5 będzie miał dodatkowy zestaw danych pod
Grupa BarcodeCalls o nazwie: cała kolekcja. Ten zestaw danych ma następujący format:
/BarcodeCalls/all - (nbarcodes * nadapters[zmw_i], 4) dla wszystkich i w 1 ... nZMWs
`Numer dziury, adapterIdx, kod kreskowyIdx, wynik`
Kurs adapterIdx jest indeksem adaptera wzdłuż cząsteczki, tj. adapterIdx 1 jest
pierwszy adapter zdobył punkty.
Zwiększenia do dotychczasowy porównać HDF5 (patrz.h5) filet
Oprócz pliku z kodem kreskowym hdf5, wywołanie etykietyWyrównania doda adnotację cmp.h5
plik. Ta adnotacja jest przechowywana w sposób zgodny z formatem pliku cmp.h5.
Konkretnie, nowa grupa:
/Informacje o kodzie kreskowym/
ID (nBarcodeLabels + 1, 1) [32-bitowa liczba całkowita]
Nazwa (nBarcodeLabels + 1, 1)[ciąg o zmiennej długości]
Oprócz grupy /BarcodeInfo/ kluczowy zestaw danych, który przypisuje dopasowania do
kody kreskowe znajdują się pod adresem:
/AlnInfo/Barcode (nAlignments, 3)[liczba całkowita 32-bitowa] z następującymi kolumnami:
indeks,liczba,najlepszyIndeks,najlepszyWynik,drugiNajlepszyIndeks,drugiNajlepszyWynik
Tutaj indeks odnosi się do indeksu do Imię wektor, wynik odpowiada sumie
wyniki dla kodów kreskowych, a na koniec liczba odnosi się do liczby adapterów znalezionych w
cząsteczka.
Grudzień 2015 Kod kreskowy PBBSkładowanie
Użyj pbbarcode online za pomocą usług onworks.net