Jest to polecenie soapdenovo-31mer, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu darmowych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS
PROGRAM:
IMIĘ
soapdenovo - Metoda montażu z krótkim odczytem, która może zbudować zespół roboczy de novo
STRESZCZENIE
mydlane_31mer mydlane_63mer mydlane_127mer
Wprowadzenie
SOAPdenovo to nowatorska metoda montażu z krótkim odczytem, która może zbudować zespół roboczy de novo
dla genomów wielkości człowieka. Program jest specjalnie zaprojektowany do montażu Illumina GA
krótkie odczyty. Stwarza nowe możliwości budowania sekwencji referencyjnych i przenoszenia
przeprowadzanie dokładnych analiz niezbadanych genomów w opłacalny sposób.
1) Obsługuj duże kmer do 127, aby korzystać z długich odczytów. Dostępne są trzy wersje.
I. Wersja 31mer obsługuje tylko kmer <=31.
II. Wersja 63mer obsługuje tylko kmer <=63 i podwaja zużycie pamięci niż
Wersja 31mer, używana nawet z kmerem <=31.
III. Wersja 127mer obsługuje tylko kmer <=127 i podwaja zużycie pamięci niż
Wersja 63mer, używana nawet z kmerem <=63.
Proszę zauważyć, że przy dłuższym kmerze ilość węzłów znacznie by się zmniejszyła,
w związku z tym zużycie pamięci jest zwykle mniejsze niż dwukrotne w przypadku wersji przesuniętej.
2) Dodano nowy parametr w module "pregraph". Ten parametr inicjuje pamięć
założenie, aby uniknąć dalszej realokacji. Jednostką parametru jest GB. Bez dalszego
realokacja, SOAPdenovo działa szybciej i zapewnia potencjał do pochłonięcia całej pamięci
maszyna. Na przykład, jeśli stacja robocza zapewnia 50 g wolnej pamięci, użyj opcji -a 50 cali
krok pregraf, a następnie przed przetwarzaniem zostanie przydzielona statyczna ilość pamięci 50g
czyta. Pozwala to również uniknąć przerywania przez innych użytkowników korzystających z tego samego komputera.
3) Bazy wypełnione lukami są teraz reprezentowane przez małe litery w pliku 'scafSeq'.
4) Wprowadzono instrukcje SIMD w celu zwiększenia wydajności.
systemu filet
W przypadku dużych projektów genomu z głębokim sekwencjonowaniem dane są zwykle zorganizowane jako wielokrotne
czytać pliki sekwencji wygenerowane z wielu bibliotek. Plik konfiguracyjny mówi
asembler, gdzie znaleźć te pliki i odpowiednie informacje. „przykład.config” to
przykład takiego pliku.
Plik konfiguracyjny ma sekcję na informacje globalne, a następnie wiele bibliotek
Sekcje. Obecnie w sekcji informacji globalnych znajduje się tylko „max_rd_len”. Każdy
odczyt dłuższy niż max_rd_len zostanie przycięty do tej długości.
Informacje biblioteczne i informacje o sekwencjonowaniu danych wygenerowanych z biblioteki
powinny być zorganizowane w odpowiedniej sekcji biblioteki. Rozpoczyna się każda sekcja biblioteki
ze znacznikiem [LIB] i zawiera następujące pozycje:
średnia_ins
Ta wartość wskazuje średni rozmiar wkładki tej biblioteki lub wartość szczytową
pozycja na rysunku rozkładu wielkości płytek.
odwrotna_sekw
Ta opcja przyjmuje wartość 0 lub 1. Mówi asemblerowi, czy sekwencje odczytu są potrzebne
do komplementarnego odwrócenia. Illumima GA produkuje dwa rodzaje sparowanych końcówek
biblioteki: a) forward-reverse, generowane z pofragmentowanych końców DNA o typowym
rozmiar wkładki mniejszy niż 500 pz; b) forward-forward, generowane z cyrkulacji
biblioteki o typowym rozmiarze insertu większym niż 2 Kb. Parametr „reverse_seq”
powinien być ustawiony tak, aby wskazywał na to: 0, przód-tył; 1, do przodu do przodu.
asm_flagi=3
Ten wskaźnik decyduje, w której części (częśćch) używane są odczyty. Przyjmuje wartość 1 (tylko
montaż contig), 2 (tylko montaż rusztowań), 3 (zarówno montaż contig jak i rusztowań),
lub 4 (tylko zamknięcie szczeliny).
rd_len_cutoff
Asembler zmniejszy odczyty z bieżącej biblioteki do tej długości.
rank Przyjmuje wartości całkowite i decyduje, w jakiej kolejności odczyty są używane na rusztowaniu
montaż. Biblioteki o tej samej „randze” są używane w tym samym czasie podczas rusztowania
montaż.
para_num_cutoff
Ten parametr jest wartością odcięcia numeru pary dla niezawodnego połączenia między
dwa kontigi lub pre-rusztowania.
mapa_len
Ma to wpływ na etapie „mapy” i jest minimalną długością wyrównania między a
read i contig wymagane do niezawodnej lokalizacji odczytu.
Asembler akceptuje odczytany plik w dwóch formatach: FASTA lub FASTQ. Relacja para-partner
można wskazać na dwa sposoby: dwa pliki sekwencji z odczytami w tej samej kolejności należące
do pary lub dwóch sąsiadujących odczytów w jednym pliku (tylko FASTA) należącym do pary.
W pliku konfiguracyjnym pliki z jednym końcem są oznaczone przez „f=/ścieżka/nazwa pliku” lub
„q=/pah/nazwa pliku” dla formatów fasta lub fastq oddzielnie. Sparowane odczyty w dwóch fasta
pliki sekwencji są oznaczone „f1=” i „f2=”. Podczas sparowania odczytów w dwóch sekwencjach fastq
pliki są oznaczone „q1=” i „q2=”. Sparowane odczyty w jednym pliku sekwencji fasta to
wskazane przez pozycję „p=”.
Wszystkie powyższe pozycje w każdej sekcji biblioteki są opcjonalne. Asembler przypisuje domyślne
wartości dla większości z nich. Jeśli nie wiesz, jak ustawić parametr, możesz go usunąć
z twojego pliku konfiguracyjnego.
Get it rozpoczęty
Gdy plik konfiguracyjny jest już dostępny, typowym sposobem uruchomienia asemblera jest: ${bin}
all –s plik_konfiguracyjny –K 63 –R –o przedrostek_grafu
Użytkownik może również uruchomić proces montażu krok po kroku jako: ${bin} pregraph
\[u2013]s plik_konfiguracyjny \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]o graph_prefix
${bin} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} mapa \[u2013]s
plik_konfiguracyjny \[u2013]g prefiks_grafu [-p] ${bin} scaff \[u2013]g prefiks_grafu [\[u2013]F -u
-G -p]
Opcje
-a INT Zainicjuj założenie pamięci (GB), aby uniknąć dalszej ponownej alokacji
-s plik konfiguracyjny STR
-o Przedrostek pliku wyjściowego STR
-g Przedrostek pliku wykresu wejściowego STR
-K INT K-mer rozmiar [domyślnie 23, min 13, max 127]
-p INT wielowątkowość, n wątków [domyślnie 8]
-R używa odczytów do rozwiązywania małych powtórzeń [domyślnie nie]
-d INT usuwa niskoczęstotliwościowe K-mery o częstotliwości nie większej niż [domyślnie 0]
-D INT usuwa krawędzie z pokryciem nie większym niż [domyślnie 1]
-M INT siła łączenia podobnych sekwencji podczas kontigowania [domyślnie 1, min 0, max
3]
-F zamknięcie luki wewnątrz rusztowania [domyślnie nie]
-umożliwia zdemaskowanie kontigów o wysokim stopniu pokrycia przed rusztowaniem [maska domyślna]
-G INT dozwolona różnica długości między szacowaną a wypełnioną przerwą
-L minimalna długość kontigów używana do rusztowania
Wydajność pliki
Te pliki są wyprowadzane jako wyniki montażu:
A. *.contig
sekwencje kontigów bez użycia informacji o parach kojarzących
B. *.scafSeq
sekwencje rusztowania (końcowe sekwencje kontigów można wyodrębnić przez rozbicie rusztowania
sekwencje w regionach przerw)
Istnieje kilka innych plików, które dostarczają przydatnych informacji dla zaawansowanych użytkowników, które są:
wymienione w Załączniku B.
FAQ
W jaki sposób do zestaw K-mer rozmiar?
Program akceptuje liczby nieparzyste od 13 do 31. Większe K-mery miałyby wyższy współczynnik
unikatowości w genomie i uprościłby wykres, ale wymaga głębokiego sekwencjonowania
głębokość i dłuższą długość odczytu, aby zagwarantować nakładanie się w dowolnym miejscu genomu.
W jaki sposób do zestaw biblioteka ranga?
SOAPdenovo użyje bibliotek typu pair-end z rozmiarem wstawki od mniejszego do większego, aby
konstruować rusztowania. Biblioteki o tej samej randze byłyby używane w tym samym czasie. Do
na przykład w zestawie danych ludzkiego genomu ustawiliśmy pięć rang dla pięciu bibliotek z insertem
rozmiar 200-bp, 500-bp, 2-Kb, 5-Kb i 10-Kb, osobno. Pożądane jest, aby pary w
każda ranga zapewnia odpowiednie fizyczne pokrycie genomu.
DODATEK A: an przykład.config
#maksymalna długość odczytu
max_rd_len=50
[LIB]
#średni rozmiar wkładki
średnia_ins=200
#jeśli sekwencja musi zostać odwrócona
sekwencja_odwrotna=0
#w której części(-ach) używane są odczyty
asm_flagi=3
#użyj tylko pierwszych 50 bps każdego odczytu
rd_len_cutoff=50
#w jakiej kolejności odczyty są używane podczas rusztowania
pozycja = 1
# odcięcie numeru pary dla niezawodnego połączenia (domyślnie 3)
pair_num_cutoff=3
#minimalna długość wyrównana do kontigów dla niezawodnej lokalizacji odczytu (domyślnie 32)
mapa_len=32
#fastq plik do odczytu 1
q1=/ścieżka/**LIBNAMEA**/fastq_read_1.fq
#plik fastq do odczytu 2 zawsze następuje po pliku fastq do odczytu 1
q2=/ścieżka/**LIBNAMEA**/fastq_read_2.fq
#fasta plik do odczytu 1
f1=/ścieżka/**LIBNAMEA**/fasta_read_1.fa
#plik fastq do odczytu 2 zawsze następuje po pliku fastq do odczytu 1
f2=/ścieżka/**LIBNAMEA**/fasta_read_2.fa
#plik fastq dla pojedynczych odczytów
q=/ścieżka/**LIBNAMEA**/fastq_read_single.fq
#plik fasta dla pojedynczych odczytów
f=/ścieżka/**LIBNAMEA**/fasta_read_single.fa
#pojedynczy plik fasta do sparowanych odczytów
p=/ścieżka/**LIBNAMEA**/pairs_in_one_file.fa
[LIB]
średnia_ins=2000
sekwencja_odwrotna=1
asm_flagi=2
pozycja = 2
# odcięcie numeru pary dla niezawodnego połączenia
#(domyślnie 5 dla dużego rozmiaru wkładki)
pair_num_cutoff=5
#minimalna długość wyrównana do kontigów dla niezawodnej lokalizacji odczytu
#(domyślnie 35 dla dużego rozmiaru wkładki)
mapa_len=35
q1=/ścieżka/**LIBNAMEB**/fastq_read_1.fq
q2=/ścieżka/**LIBNAMEB**/fastq_read_2.fq
q=/ścieżka/**LIBNAMEB**/fastq_read_single.fq
f=/ścieżka/**LIBNAMEB**/fasta_read_single.fa
dodatek B: wydajność pliki
1. Pliki wyjściowe z polecenia „pregraph”
A. *.kmerFreq
Każdy wiersz pokazuje liczbę Kmerów z częstotliwością równą numerowi wiersza.
b. *.krawędź
Każdy rekord podaje informacje o krawędzi w pre-grafie: długość, kmery na obu końcach,
średni zasięg kmer, niezależnie od tego, czy jest odwrotnie komplementarnie identyczny i kolejność.
C. *.markOnEdge i *.ścieżka
Te dwa pliki służą do używania odczytów do rozwiązywania małych powtórzeń
mi. *.preArc
Połączenia pomiędzy krawędziami, które są ustalane przez ścieżki odczytu.
F. *.wierzchołek
Kmery na końcach krawędzi.
G. *.preGraphBasic
Kilka podstawowych informacji o pregrafie: liczba wierzchołków, wartość K, liczba krawędzi,
maksymalna długość odczytu itp.
2. Pliki wyjściowe z polecenia „contig”
A. *.contig
Informacje o kontigach: odpowiedni indeks krawędzi, długość, zasięg kmer, czy jest to końcówka i
sekwencja. Uwzględnia się albo kontig, albo jego odwrotny odpowiednik komplementarny. Każdy
odwrotny komplementarny indeks kontigów jest wskazany w pliku *.ContigIndex.
b. *.Łuk
Łuki wychodzące z każdej krawędzi i odpowiadające im pokrycie przez odczyty
C. *.zaktualizowana.krawędź
Niektóre informacje dla każdej krawędzi na wykresie: długość, kmery na obu końcach, różnica indeksów
między odwróconą krawędzią komplementarną a tą.
D. *.ContigIndex
Każdy rekord podaje informacje o każdym kontigu w pliku *.contig: indeks krawędzi, długość,
różnica indeksu między jego odwrotnie komplementarnym odpowiednikiem a nim samym.
3. Pliki wyjściowe z polecenia „map”
a. *.peGrady
Informacje dla każdej biblioteki klonów: rozmiar wstawki, górna granica odczytu indeksu, ranga i para
odcięcie liczby dla niezawodnego łącza.
Ten plik można poprawić ręcznie w celu dostrojenia rusztowania.
B. *.readOnContig
Przeczytaj lokalizacje na kontigach. Tutaj kontigi są określane przez ich indeks krawędzi. Howerver o
połowa z nich nie jest wymieniona w pliku *.contig ze względu na ich odwrotną komplementarność
odpowiedniki są już uwzględnione.
C. *.readInGap
Ten plik zawiera odczyty, które mogą znajdować się w przerwach między kontigami. Ta informacja
służy do zamykania luk w rusztowaniach.
4. Pliki wyjściowe z polecenia „scaff”
A. *.newContigIndex
Kontigi są sortowane według ich długości przed rusztowaniem. Ich nowy indeks jest wymieniony
w tym pliku. Jest to przydatne, jeśli chcemy powiązać contigi w *.contig z tymi
w *.linki.
b. *.spinki do mankietów
Powiązania między kontigami, które są ustalane przez pary odczytu. Używany jest nowy indeks.
C. *.scaf_gap
Contigs w przerwach znalezionych przez graf kontigów wyprowadzony przez procedurę kontigowania. Tutaj nowy indeks
są używane.
D. *.scaf
Contigs dla każdego rusztowania: wskaźnik contig (zgodny z indeksem w *.contig), przybliżony
pozycja początkowa na rusztowaniu, orientacja, długość kontigu i jego powiązania z innymi.
mi. *.gapSeq
Sekwencje przerw między kontigami.
F. *.scafSeq
Kolejność każdego rusztowania.
Użyj mydła-31mer online za pomocą usług onworks.net