Jest to polecenie seqprep, które można uruchomić w darmowym dostawcy usług hostingowych OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS
PROGRAM:
IMIĘ
seqprzygotow - Scal sparowany koniec Illumina czyta
SeqPrep to program do łączenia sparowanych końcowych odczytów Illumina, które nakładają się na siebie w jeden
dłużej czytać. Może być również używany tylko do funkcji przycinania adaptera bez wykonywania żadnych czynności
sparowane końce zachodzą na siebie.
ZASTOSOWANIE
seqprzygotow wymagany args [opcje]
Wymagane argumenty:
-F
-R
-1
-2
Ogólne Argumenty (Opcjonalny):
-3
-4
-h Wyświetl ten komunikat pomocy i wyjdź (działa również bez argumentów)
-6 Sekwencja wejściowa jest w formacie phred+64 zamiast phred+33, wyjście nadal będzie miało format phred+33
-Q
-L
Argumenty dla Adapter/podkład Lamówka (Opcjonalny):
-A
(powinien sprawdzić poprawność przez grepowanie pliku); domyślnie (genomowy niemultipleksowany adapter1) = AGATCGGAAGAGCGGTTCAG>
-B
(powinien sprawdzić poprawność przez grepowanie pliku); domyślnie (genomowy niemultipleksowany adapter2) = AGATCGGAAGAGCGTCGTGT>
-O
-M
-N
-B
-Q
-T
-mi
-Z
-w
-W
-P
-P
-X
Opcjonalnie Argumenty dla Łączenie:
-y
-G- NIEZREALIZOWANE
-S
-MI
-X
-o
-M
-N
UWAGA 1: Dane wyjściowe są zawsze skompresowane gzipem.
UWAGA 2: Jeśli ciągi jakości w danych wyjściowych zawierają znaki mniejsze niż asciii 33 na
ascii (wyglądają jak wiersze z pliku binarnego), spróbuj uruchomić ponownie z lub bez
opcja -6.
USTAWIAĆ
Gdy występuje sekwencja adaptera, oznacza to, że dwa odczyty muszą się pokrywać (w większości przypadków
przypadkach), więc są one na siłę scalane. Gdy odczyty nie mają sekwencji adaptera, muszą być
traktowane ostrożnie podczas łączenia, dlatego stosuje się o wiele bardziej szczegółowe podejście. The
domyślne parametry zostały wybrane z myślą o specyfice, tak aby można było na nich uruchomić
biblioteki, w których oczekuje się, że bardzo niewiele odczytów będzie się pokrywać. Zawsze jednak najbezpieczniej jest oszczędzać
procedura nakładania się dla bibliotek, w przypadku których masz pewną wcześniejszą wiedzę, że a
znaczna część odczytów będzie się częściowo pokrywać.
Przed uruchomieniem SeqPrep upewnij się, że ustawienia domyślne programu są rzeczywiście takie same
adaptery, których szukasz. Spróbuj skopiować domyślną kartę do przodu z tego pliku i
grep to przeciwko twoim odczytom, licząc słowa, spróbuj także tego samego z odwrotnym adapterem
z grepem. Powinieneś zobaczyć kilka hitów. Możesz także spróbować użyć (i zweryfikować za pomocą grep) -A
GATCGGGAAGAGCACACG -B AGATCGGAAGAGCGTCGT jako parametry. Aby znaleźć listę adapterów Illumina
sekwencje należy napisać do pomocy technicznej firmy Illumina TechSupport@illumina.com (oni nie
lubić ludzi, aby udostępniali listę sekwencji poza swoją instytucją).
Wybierz około 20 pz sekwencji adaptera, gdzie:
1. Widzisz najwięcej trafień z grep.
2. Po uruchomieniu polecenia takiego jak zkat Pas2_0d_2.fastq.gz | głowa -n 1000000 |grep "WSTAWIĆ
ADAPTER TUTAJ" | głowa widzisz, że sekwencja adaptera pojawia się na początku kilku
czyta. Również argumenty -A i -B powinny być takie, jakie pojawiają się w twoich danych, SeqPrep
wyszukuje bezpośrednio te sekwencje bez wykonywania odwrotnego uzupełniania
3. Sprawdź przód i tył i upewnij się, że masz mniej więcej taką samą liczbę
trafienia za pomocą polecenia liczenia trafień, takich jak: zkat Pas2_0d_2.fastq.gz | głowa -n 1000000
|grep "WSTAWIĆ ADAPTER TUTAJ" | wc -l Jako dodatkowy środek ostrożności program sprawdza
dla dobrego odczytu nakładania się po przycięciu adapterów. Jeśli adapter jest przycięty, a
odczyty nie mają rozsądnego nakładania się adapterów (możesz zmodyfikować to ustawienie za pomocą -X)
wtedy odczyty nie są drukowane ani łączone.
Zobacz Test/README.md, aby uzyskać informacje na temat testowania innych parametrów. Test/SimTest ma
niektóre szczególnie fajne dane testowe, których możesz użyć do sprawdzenia czułości i
specyfikę przycinania adapterów z wykorzystaniem różnych parametrów. Wyniki testu są
wyświetlane w Results.html, który korzysta z Google Charts API, dzięki czemu punkty są
interaktywne i możesz łatwo określić, które ustawienia zostały wykonane, które punkty.
NISKA ZŁOŻONOŚĆ LINII LINII
Moja obecna strategia radzenia sobie z niejednoznacznymi dopasowaniami do regionów o niskiej złożoności jest taka
następuje:
Mam pewne minimalne wymagania, aby nakładanie się zostało zaakceptowane po pierwszym
znaleziona (tj. ta z maksymalnym nakładaniem się dwóch sekwencji), jeśli ma niską złożoność
filtrowanie jest włączone, szukam dalej, jeśli zostanie znalezione drugie realne trafienie, poddaję się i mówię
że łączenie tych dwóch odczytów nie jest dobrym pomysłem. Sprawdzam niejednoznaczne wyrównania w
przeczytaj zachodzenie na siebie, ale nie w przycinaniu adaptera, gdzie jest to najbardziej konserwatywne
zdejmij najbardziej agresywnie wyrównany adapter (najbliżej początku odczytu).
Aby zaakceptować wyrównanie, dopuszczam pewien ułamek niezgodności (obecnie dolna granica 0.06 z
długość wyrównania dla adaptera i 0.02 długości wyrównania dla dwóch odczytów). To
oznacza, że w większości przypadków w przypadku nakładania się dwóch odczytów nie dopuszczam żadnych niedopasowań między nimi
sąsiednie odczyty, ale jeśli istnieje potencjalne nakładanie się 50 pz z 1 niedopasowaniem ponad q20 dla
pozwalam na to np. Wszystko poniżej 50 musi być idealne, poza niską jakością
zasady.
Ponieważ ignorujemy bazy niskiej jakości, możemy mieć przypadek, w którym jeden prawdziwy mecz
po którym następuje długi ciąg baz słabej jakości do końca odczytu, skutkowałoby to a
zwane nakładaniem się. To wydawało się złym pomysłem. Aby to obejść, potrzebuję przynajmniej tego
część nakładającej się długości będzie dopasowana. W tej chwili mam ten parametr ustawiony na
0.7 dla przycinania adaptera i 0.75 dla scalania odczytu, więc w przypadku, gdy tylko ostatnie 10
podstawki nakładają się na siebie, co najmniej 7 z nich musi pasować.
Ponieważ wykonanie tak wielu mnożeń zmiennoprzecinkowych wydaje się złym pomysłem, po prostu mam
tabela, która wstępnie oblicza wszystkie te minimalne dopasowania i maksymalne liczby niezgodności dla każdego
długość nakładania się do maksymalnej dozwolonej długości odczytu.
Wreszcie mam parametr, który możesz ustawić, który określa minimalną wynikową długość odczytu
po przycięciu adaptera i/lub scaleniu, tak aby bardzo krótkie przycięte odczyty nie były wyprowadzane.
Poniżej przedstawiono wyniki ręcznego testowania trzech głównych przypadków scalania. Teraz do wygenerowania
podobne wyjście automatycznie po prostu dostarcza argument -E readable_alignment.txt.gz do
program (dane wyjściowe są skompresowane gzip do określonej nazwy pliku).
Sekwencja Łączyć Nie Zasilacz Obecny:
ZAPYTANIE: NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTC
|| |||||||||||| || | |||||||||||||||||||||||||||||||
TEMAT: TGTGTGTTGGGCAGATGCGGGGGGCCACAGCCTGTCTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCACGTCTCCGTCTCCTGTTG
RESU: NCCTGCTACTACCCACCCGTTCCGTGCCTGGAGCCTGCATGTTTGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCCACGTCTCCGTCTCCTGTTG
Połączenie jakości:
QUER: !223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@@@@@@@@@?@@89887:::::.2125@@:@@:::::@@@@@<<::8@@@@@
TEMAT: !!!!!!!!!!!!!!!!!!!!!!!!!!!!@@8DEGE@EDDBB2 D8@DBE>BFIDH@IIEEIIBEIEIIGBIIGIFII
RESU: !223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@?@@89887::::.QPQLSSSSSSSSSQSSSSSSSSSSSSSD8@DBE> BFIDH@IIEEIIBEIEIIGBIIGIFII
Sekwencja Łączyć Zasilacz Obecny, Łatwo peezy Moda (To samo długości):
TEMAT: NGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
||||||||||||||||||||||||||||||||||
ZAPYTANIE: GGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
ODPOWIEDŹ: GGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
Połączenie jakości:
TEMAT: !.-/.53444@@@@@@@@@@@@@@@@@@@@@@@@@@@@
QUER: IHGIIIDIIHGEHIGHIFHIFIIIIHIIIIIIIIIHII
RESU: ISSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
Sekwencja łączyć Zasilacz ale Długości różnić się:
SUBJ: AATTGATGGGTGCCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
|||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||
ZAPYTANIE: AATTGATGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTA
ODPOWIEDŹ: AATTGATGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
Połączenie jakości:
SUBJ: =DEC??DDBD?4B=BEE@@@GB>GEE:DE8=2::6GDGBGEGDD<=;A?=AGGGG=5.=<BD?B?DDB>B4725:E>
ZAPYTANIE: GDDBBFBGGFBHFIEDGGGBDGGG
ODPOWIEDŹ: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSB4725:E>
Dla zainteresowanych jest strona internetowa, na której zamieszczam moje testy różnych parametrów dla SeqPrep
na symulowanych danych. Istnieje również kilka statystyk porównawczych różnych programów do przycięcia
adaptery. Strona internetowa jest dostępna tutaj: http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/
gdzie strony mają nazwy wynik(data).html. Najnowsze (od kiedy dostałem
wokół, aby to edytować) można znaleźć tutaj:
http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/results2011-09-15.html
Zauważ, że chociaż mój program jest bardziej czuły i specyficzny niż fastq-clipper, I
zoptymalizowałem moje domyślne parametry na podstawie tego testu. Wyniki na rzeczywistych danych mogą być inne,
chociaż uważam, że moja metoda wykorzystuje bardziej realistyczny model adaptera niż inne
oprogramowanie robi. Na przykład, mimo że mój program wymaga obecności 10 bp adaptera
na końcu odczytu, aby go przyciąć (domyślnie), następuje przycięcie adaptera zapasowego
funkcja, która przycina na podstawie silnego i jednoznacznego nakładania się odczytów. Z tego powodu mój
program może przyciąć adapter, nawet jeśli jest obecny tylko w kilku ostatnich bazach odczytu.
Należy również zauważyć, że wydaje się, że fastq-mcf radzi sobie nieco lepiej przy czułości (0.992 vs 0.985) przy
bardzo duży koszt do specyficzności (0.497 vs 0.994).
Korzystaj z seqprep online, korzystając z usług onworks.net