Jest to polecenie PerM, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
trwała ondulacja - Efektywne mapowanie krótkich odczytów za pomocą okresowo rozmieszczonych nasion
Jeśli masz jakiekolwiek pytania dotyczące użytkowania, napisz e-mail na adres „yanghoch at usc dot edu”.
STRESZCZENIE
Aby użyć wiersza poleceń, wpisz trwała ondulacja z argumentami w kolejności.
PRZYKŁADY
W razie zamówieenia projektu jednokońcowy czytamy:
trwała ondulacja Ref odczytuje [Opcje]
Przykłady:
trwała ondulacja Ref.fasta Reads.fasta -v 5 -o out.mapping -u ummappedReads.fa
trwała ondulacja RefFilesList.txt ReadsSetFilesList.txt -v 5 -u unmappedReads.fa -E
trwała ondulacja Ref.fasta Odczyt.csfasta -v 5 -m -s mój.indeks --delimiter `,` --seed F3
trwała ondulacja my.index SingleEndReads.csfasta -v 5 -o out.sam -k 10 -a ambiguous10.csfasta
W razie zamówieenia projektu sparowany koniec czytamy:
trwała ondulacja Ref -1 F3_Czyta -2 R3_Czyta [Opcje]
Przykłady:
trwała ondulacja ref.fa -1 F3.fa -2 R3.fa -U 3000 -L 100 -v 5 -A -m -s -o out.sam
trwała ondulacja ref.txt -1 F3.fq -2 R3.fq -v 5 -m -s mój.indeks -o out.mapping --seed F3
trwała ondulacja mój.indeks -1 F3.fq -2 R3.fq -U 3000 -L 100 -v 5 -A -o out.sam
Do budować an wskaźnik tylko:
trwała ondulacja Ref Odczyt_długości --czytajFormat <.csfasta|.fasta> -m -s wskaźnik ścieżka --nasionko F3
Przykład:
trwała ondulacja hg18.txt 50 --czytajFormat .csfasta -m -s hg18_50_SOLiD.index
OPCJE
Wymagane Argumenty
· Plik referencyjny powinien być w formacie FASTA z rozszerzeniem fasta, fnalub .fa
rozszerzenie pliku. W przypadku transkryptomu z wieloma genami lub izoformami jako odniesienie,
połączyć wszystkie sekwencje FASTA w jednym pliku FASTA. Alternatywnie, jeśli istnieją
wiele plików, na przykład jeden na chromosom, np.: chr1.fa do chrY.fa, wypisz FASTA
nazwy plików po jednej w linii w pliku, który ma rozszerzenie txt rozszerzenie. The txt jest ważne
ponieważ PerM sprawdza rozszerzenie pliku, aby wiedzieć, czy plik wejściowy jest listą
nazwy plików. Nazwy plików muszą zawierać ścieżkę pliku (względną lub bezwzględną), chyba że
wszystkie pliki FASTA znajdują się w tym samym katalogu, z którego uruchamiany jest PerM.
· Odczytane pliki powinny być w formacie .fasta, .fastq, .csfasta lub .csfastq. Trwała ondulacja
analizuje plik zgodnie z jego rozszerzeniem lub formatem jawnie określonym przez
--czytajFormat flaga. Jeśli istnieje wiele plików do odczytu, podaj nazwę każdego pliku, po jednej
w wierszu w pliku .txt. PerM przyjmuje to jako dane wejściowe i może mapować wiele zestawów odczytu
równolegle przez [http://en.wikipedia.org/wiki/OpenMP OpenMP].
Short Opcje (pogrupowane by związane z funkcjonalność)
-A Wydajność cała kolekcja wyrównania w ramach progu niedopasowania (patrz -v opcja), od początku do końca.
-B Wydajność Najlepiej wyrównania pod względem niedopasowań w progu (patrz -v opcja). Dla
na przykład, jeśli w odczycie nie ma idealnie dopasowanych dopasowań, występują dwie pojedyncze niedopasowania zasad
wyrównania i dodatkowe wyrównania z większą liczbą niedopasowań, tylko dwa pojedyncze
zostaną wyprowadzone wyrównania niedopasowania zasad. -B jest trybem domyślnym, jeśli żaden z nich nie jest dostępny -A or -B
jest specyficzne.
-E Wyprowadzaj tylko jednoznacznie mapowane odczyty pozostały po dotychczasowy Najlepiej Wybór w dół został dokonany
stosowane, jeśli ma to zastosowanie. W połączeniu z -A opcja, czyta tylko z jednym
wyrównanie w ramach progu niedopasowania (patrz -v opcja) zostanie wyświetlony.
-v Maksymalna dozwolona liczba niedopasowań (lub dozwolona na każdym końcu w przypadku odczytów na końcu pary).
Wartość domyślna to liczba niedopasowań, dla których używany materiał siewny jest w pełni czuły
do.
-k Określa maksymalną liczbę wyrównań do wydrukowania. Wartość domyślna to 200, jeśli
Flaga -k nie jest podana. Wyrównania dla mapowania odczytów na liczbę większą niż maksymalna
pozycje nie będą wyprowadzane. Użyj opcji -a, aby zebrać odczyty przekraczające
maksymalny.
-t Liczba zasad na końcu 5 każdego odczytu, które należy zignorować. Na przykład, jeśli pierwsze 5
zasady są używane jako kod kreskowy lub do jednoczesnego indeksowania wielu próbek, użyj -t 5. Jeśli nie
określone, żadne zasady początkowe nie będą ignorowane.
-T Liczba zasad w każdym odczycie do użycia, zaczynając od zasad ignorowanych przez opcję -t.
Późniejsze zasady na 3' odczytu są ignorowane. Na przykład -T 30 oznacza tylko użycie
pierwsze 30 zasad (sygnałów) po dowolnych zasadach jest ignorowanych z powodu opcji -t.
-m Utwórz indeks referencyjny bez ponownego wykorzystania zapisanego indeksu, nawet jeśli jest dostępny.
-s ścieżka
Zapisz indeks referencyjny, aby przyspieszyć mapowanie w przyszłości. Jeśli ścieżka nie jest
określony, indeks zostanie utworzony w bieżącym katalogu roboczym (tzn. gdzie
PerM jest uruchamiany z) przy użyciu domyślnej nazwy indeksu. Jeśli ścieżka jest katalogiem, indeksem
zostanie utworzony w określonym katalogu przy użyciu domyślnej nazwy indeksu (directory
musi istnieć; nie zostanie on utworzony automatycznie). Jeśli ścieżka jest ścieżką do pliku,
indeks zostanie utworzony o podanej nazwie.
-o ścieżka pliku
Nazwa pliku wyjściowego mapowania podczas mapowania pojedynczego zestawu odczytu. Format pliku wyjściowego
będzie to format tekstowy rozdzielany tabulatorami .mapping lub format SAM as
zależy od rozszerzenia nazwy pliku wyjściowego. Na przykład {{{-o out.sam}}}
wyświetli dane w formacie SAM; {{-o /path/to/out.mapping}}} wyświetli dane w formacie .mapping
format. Używać --format wyjściowy aby zastąpić to zachowanie. The -o opcja nie ma zastosowania
gdy jednocześnie mapowanych jest wiele zestawów odczytów, aby skorzystać z wielu
Procesory (rdzenie); zobacz -d opcja w tym przypadku.
-d ścieżka
Katalog wyjściowy do mapowania plików wyjściowych podczas mapowania wielu zestawów odczytu (output
nazwy plików zostaną nadane automatycznie). Jeśli podany katalog nie istnieje, plik
katalog wyjściowy zostanie utworzony, pod warunkiem, że istnieje katalog nadrzędny. Jeśli -d
przełącznik nie jest określony, pliki zostaną zapisane w katalogu, z którego uruchamiany jest PerM.
Uwaga: jeśli -d ścieżka pliku jest określany podczas mapowania pojedynczego zestawu odczytów, ścieżka będzie
przygotowane ścieżka pliku; jednakże takie użycie nie jest zalecane.
-a ścieżka pliku
Utwórz plik FASTA (FASTQ) dla odczytów mapowanych na więcej pozycji niż próg
określony przez -k lub wartość domyślna 200.
-b ścieżka pliku
Utwórz plik FASTA (FASTQ) dla odczytów krótszych niż oczekiwana długość lub
dziwne postacie.
-u ścieżka pliku
Utwórz plik FASTA (FASTAQ) z niezamapowanymi odczytami. Kiedy mapowany jest pojedynczy zestaw odczytów,
filename określa nazwę pliku wyjściowego. Kiedy mapowanych jest wiele zestawów odczytów,
filename jest nieistotne i należy je pominąć; pliki niezamapowanych sekwencji będą
zostanie automatycznie nazwany i utworzony w katalogu, z którego uruchamiany jest PerM.
długo Opcje
--ambiguosTylko do odczytu
Wyprowadź tylko niejednoznaczne mapowanie, aby znaleźć powtórzenia (podobne regiony w ramach podstawienia
próg). Gdy ta opcja jest określona, odczytuje numer odwzorowany na podstawie odwzorowania
próg określony przez -k będzie nadal drukowany.
--ambiguosReadInOneLine
utput odczytuje mapowane do więcej niż k miejsc w jednej linii. Kiedy ta opcja jest
określony, odczytuje odwzorowany próg liczby mapowań określony przez -k will
nadal być drukowane, ale drukowane w jednym wierszu.
--noSamNagłówek
Nie dołączaj nagłówka SAM. Ułatwia to łączenie wielu SAM
pliki wyjściowe.
--includeReadsWN
Mapa odczytuje z równą lub mniejszą liczbą N lub `.` zasad niż określony próg
kodowanie N lub „.” jako A lub 3. Odczyty z większą liczbą „N” zostaną odrzucone. Domyślny
ustawienie odrzuca odczyt z dowolnym „N”.
--Tylko statystyki
Wyprowadź statystyki mapowania tylko na standardowe wyjście, bez zapisywania wyrównań w plikach.
--ignoreQS
Zignoruj wyniki jakości w plikach FASTQ lub QUAL.
--drukujNM
Jeśli dostępne są wyniki jakości, użyj tej flagi, aby wydrukować liczbę niezgodności,
zamiast niedopasowanych wyników w formacie mapowania.
--nasionko {F,,0,, | F,,1,, | F,,2,, | F,,3,, | F,,4,, | S,,11,, | S,,20,, | S,,12,,}
Określ wzór nasion. Nasiona F,,0,,, F,,1,,, F,,2,,, F,,3, i F,,4,, są
w pełni czuły odpowiednio na niedopasowania 0-4. Nasiona S,,11,, S,20,, S,,12,
przeznaczone są do sekwencera SOLiD. Ziarno S,,kj,, jest w pełni wrażliwe na k
sąsiadujące pary niedopasowań (sygnatura SNP to przestrzeń kolorów) i j izolowane niedopasowania.
Widzieć [http://code.google.com/p/perm/wiki/Algorithms strona algorytmu], aby uzyskać więcej
informacje o wzorach nasion.
--refFormat {szybko | podstęp | wskaźnik }
Załóżmy, że sekwencje odwołań są w określonym formacie, zamiast zgadywać
zgodnie z rozszerzeniem pliku.
--czytajFormat |{szybko | szybkoq | csfasta | csfastq}
Załóżmy, że odczyty są w określonym formacie, zamiast zgadywać zgodnie z formatem
rozszerzenie pliku(ów).
--format wyjściowy { Sam | mapowanie }
Zastąp domyślną opcję formatu odwzorowania wyjściowego lub określ ją jawnie, gdy plik
rozszerzenie pliku wyjściowego nie jest .sam ani .mapping.
--ogranicznik zwęglać
zwęglać to znak używany jako ogranicznik oddzielający identyfikator odczytu i
dodatkowe informacje w linii z > podczas czytania pliku FASTA lub CSFASTA.
--Dziennik ścieżka pliku
ścieżka pliku określa nazwę pliku dziennika zawierającego statystyki mapowania
które zostaną również wydrukowane na ekranie.
--Tylko do przodu
Mapa odczytuje tylko pasmo do przodu: (Dotyczy to pasma SOLiD
sekwencjonowanie).
--Tylko do tyłu
Mapa odczytuje tylko nić odwrotną: (Dotyczy to specyficznej nici SOLiD
sekwencjonowanie)
Opcje dla Sparowany koniec odczytuje
PerM radzi sobie z odczytami połączonymi parami, mapując każdy koniec osobno. Wszystkie kombinacje
skojarzone pary mapowane na tę samą sekwencję odniesienia zostaną wyprowadzone, jeśli ich separacja będzie taka sama
w dozwolonym zakresie określonym przez -L i -U flagi.
-e Wyklucz niejednoznaczne pary.
-L / --Dolna granica Int
dolna granica odległości separacji par partnerów
-U / --Górna granica Int
górna granica odległości separacji par partnerów
Górna i dolna granica mogą być ujemne, co może spowodować zmianę układu
odmiany. Użyj -A argument, aby uniknąć pominięcia właściwych par. Jednak to może
znacznie wydłużyć czas działania, jeśli oba końce znajdują się w powtarzalnych regionach.
--fr Mapuj odczyty sparowanych końców tylko do innej nici
--ff Mapuj sparowane końce odczytuje tylko tę samą nić
--printRefSeq
Wydrukuj zmapowaną sparowaną sekwencję odwołań jako dwie ostatnie kolumny w .mapping
format. | Domyślna opcja mapowania wyjścia zarówno w tej samej, jak i w innej nici.
DEFAULT USTAWIENIA
Poniżej przedstawiono ustawienia domyślne, jeśli nie ma odpowiedniej opcji wiersza poleceń
określony. Proszę określić opcję zmiany ustawień domyślnych.
· Dopuszczaj tylko dwa niedopasowania na każdym końcu i użyj materiału siewnego F,,2,, S,,11 lub F,,3,,
, wybrane zgodnie z długościami odczytu i typami.
· Wydrukuj najlepsze dopasowania dla każdego odczytu pod względem liczby niedopasowań.
· Pliki wyjściowe w *format .mapowania.
· Wyszukuje zapisany indeks z domyślną nazwą pliku przed zbudowaniem nowego indeksu.
· Nie zapisze indeksu w pliku, chyba że określono {{{-s}}}.
· W przypadku odczytów ze sparowanych końców domyślna dozwolona odległość wynosi 0–3000 pz. Zmiana
z -L i -U opcje.
Parallel Mapowanie
PerM jednocześnie odwzorowuje wiele zestawów odczytów na liście, odpytując ten sam indeks. To będzie
wykryć, ile procesorów (rdzeni) jest dostępnych i przypisać każdemu z nich zestaw do odczytu. Jeśli przeczytasz
zestaw zostanie wykonany, następny zestaw do odczytu na liście zostanie przetworzony automatycznie. Każdy zestaw do odczytu
będzie miał własny plik wyjściowy mapowania. Aby lepiej wykorzystać wszystkie procesory w węźle, duże odczyty
set należy podzielić na wiele małych zestawów do odczytu i umieścić na liście. Gdy jest wiele węzłów
używany w tym samym systemie plików, indeks powinien być wstępnie zbudowany najpierw przez jeden węzeł; inny
węzły odczytają wstępnie zbudowany indeks bez ponownego budowania indeksu. Bez gotowego indeksu,
każda maszyna będzie próbowała zbudować swój własny indeks, marnując czas procesora i przestrzeń dyskową.
Wyjście Kody
PerM ustawia kod zakończenia na 0 po pomyślnym zakończeniu, co jest normalnym zachowaniem Uniksa. Jeśli
program zostanie zakończony poprzez Ctrl-C (SIGINT), kodem wyjścia będzie 2, liczba dla SIGINT
(Patrz mężczyzna zabić). Jeśli wywołujesz PerM z innego języka, możesz sprawdzić kod powrotu
i zrób coś inteligentnego. Oto przykład pseudokodu Perla:
while (...jakaś pętla ...) {
my $cmd = "PerM... argumenty i przełączniki";
mój $ec = system($cmd);
if ($ec == 2) {
print STDERR "PerM zakończony przez Ctrl-C. Zatrzymywanie biegu.\n\n";
# Może wykonaj pewne porządki, na przykład usuń małe pliki, które były czytane
# podzielony na przetwarzanie równoległe.
wyjście($ec);
}
}
Zastosowanie Trwała ondulacja on Galaktyka
Dzięki profesorowi Antonowi Nekrutenko i Kelly Vincent z PSU możesz teraz używać PerM
[http://test.g2.bx.psu.edu/ Galaxy s test serwer]. Kliknij hiperłącze do strony Galaxy,
i kliknij NGS:Mapping w menu narzędzi. Proszę wybrać Mapa w Trwała ondulacja dla Solidny i
Illumina. Możesz przesłać własne referencje lub skorzystać z gotowego indeksu hg19 w systemie.
Jeśli napotkasz jakiekolwiek trudności, napisz do mnie e-mail. Gdy system udowodni swoją stabilność,
zostanie przeniesiony na główny serwer Galaxy z większą liczbą gotowych indeksów referencyjnych.
Jednostka Testowanie
Przy opracowywaniu PerM przygotowano także moduł testów jednostkowych cppUnit. Jeśli jesteś
zainteresowany kodem testowym dla PerM, napisz do mnie.
Korzystaj z PerM online, korzystając z usług onworks.net