soapdenovo-31mer - Online w chmurze

Uruchom soapdenovo-31mer u dostawcy bezpłatnego hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Jest to polecenie soapdenovo-31mer, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu darmowych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Uruchom w Ubuntu Uruchom w Fedorze Uruchom w Windows Sim Uruchom w systemie MACOS Sim

PROGRAM:

IMIĘ

soapdenovo - Metoda montażu z krótkim odczytem, która może zbudować zespół roboczy de novo

STRESZCZENIE

mydlane_31mer mydlane_63mer mydlane_127mer

Wprowadzenie

SOAPdenovo to nowatorska metoda montażu z krótkim odczytem, która może zbudować zespół roboczy de novo
dla genomów wielkości człowieka. Program jest specjalnie zaprojektowany do montażu Illumina GA
krótkie odczyty. Stwarza nowe możliwości budowania sekwencji referencyjnych i przenoszenia
przeprowadzanie dokładnych analiz niezbadanych genomów w opłacalny sposób.

1) Obsługuj duże kmer do 127, aby korzystać z długich odczytów. Dostępne są trzy wersje.
I. Wersja 31mer obsługuje tylko kmer <=31.
II. Wersja 63mer obsługuje tylko kmer <=63 i podwaja zużycie pamięci niż
Wersja 31mer, używana nawet z kmerem <=31.
III. Wersja 127mer obsługuje tylko kmer <=127 i podwaja zużycie pamięci niż
Wersja 63mer, używana nawet z kmerem <=63.

Proszę zauważyć, że przy dłuższym kmerze ilość węzłów znacznie by się zmniejszyła,
w związku z tym zużycie pamięci jest zwykle mniejsze niż dwukrotne w przypadku wersji przesuniętej.

2) Dodano nowy parametr w module "pregraph". Ten parametr inicjuje pamięć
założenie, aby uniknąć dalszej realokacji. Jednostką parametru jest GB. Bez dalszego
realokacja, SOAPdenovo działa szybciej i zapewnia potencjał do pochłonięcia całej pamięci
maszyna. Na przykład, jeśli stacja robocza zapewnia 50 g wolnej pamięci, użyj opcji -a 50 cali
krok pregraf, a następnie przed przetwarzaniem zostanie przydzielona statyczna ilość pamięci 50g
czyta. Pozwala to również uniknąć przerywania przez innych użytkowników korzystających z tego samego komputera.

3) Bazy wypełnione lukami są teraz reprezentowane przez małe litery w pliku 'scafSeq'.

4) Wprowadzono instrukcje SIMD w celu zwiększenia wydajności.

systemu filet

W przypadku dużych projektów genomu z głębokim sekwencjonowaniem dane są zwykle zorganizowane jako wielokrotne
czytać pliki sekwencji wygenerowane z wielu bibliotek. Plik konfiguracyjny mówi
asembler, gdzie znaleźć te pliki i odpowiednie informacje. „przykład.config” to
przykład takiego pliku.

Plik konfiguracyjny ma sekcję na informacje globalne, a następnie wiele bibliotek
Sekcje. Obecnie w sekcji informacji globalnych znajduje się tylko „max_rd_len”. Każdy
odczyt dłuższy niż max_rd_len zostanie przycięty do tej długości.

Informacje biblioteczne i informacje o sekwencjonowaniu danych wygenerowanych z biblioteki
powinny być zorganizowane w odpowiedniej sekcji biblioteki. Rozpoczyna się każda sekcja biblioteki
ze znacznikiem [LIB] i zawiera następujące pozycje:

średnia_ins
Ta wartość wskazuje średni rozmiar wkładki tej biblioteki lub wartość szczytową
pozycja na rysunku rozkładu wielkości płytek.

odwrotna_sekw
Ta opcja przyjmuje wartość 0 lub 1. Mówi asemblerowi, czy sekwencje odczytu są potrzebne
do komplementarnego odwrócenia. Illumima GA produkuje dwa rodzaje sparowanych końcówek
biblioteki: a) forward-reverse, generowane z pofragmentowanych końców DNA o typowym
rozmiar wkładki mniejszy niż 500 pz; b) forward-forward, generowane z cyrkulacji
biblioteki o typowym rozmiarze insertu większym niż 2 Kb. Parametr „reverse_seq”
powinien być ustawiony tak, aby wskazywał na to: 0, przód-tył; 1, do przodu do przodu.

asm_flagi=3
Ten wskaźnik decyduje, w której części (częśćch) używane są odczyty. Przyjmuje wartość 1 (tylko
montaż contig), 2 (tylko montaż rusztowań), 3 (zarówno montaż contig jak i rusztowań),
lub 4 (tylko zamknięcie szczeliny).

rd_len_cutoff
Asembler zmniejszy odczyty z bieżącej biblioteki do tej długości.

rank Przyjmuje wartości całkowite i decyduje, w jakiej kolejności odczyty są używane na rusztowaniu
montaż. Biblioteki o tej samej „randze” są używane w tym samym czasie podczas rusztowania
montaż.

para_num_cutoff
Ten parametr jest wartością odcięcia numeru pary dla niezawodnego połączenia między
dwa kontigi lub pre-rusztowania.

mapa_len
Ma to wpływ na etapie „mapy” i jest minimalną długością wyrównania między a
read i contig wymagane do niezawodnej lokalizacji odczytu.

Asembler akceptuje odczytany plik w dwóch formatach: FASTA lub FASTQ. Relacja para-partner
można wskazać na dwa sposoby: dwa pliki sekwencji z odczytami w tej samej kolejności należące
do pary lub dwóch sąsiadujących odczytów w jednym pliku (tylko FASTA) należącym do pary.

W pliku konfiguracyjnym pliki z jednym końcem są oznaczone przez „f=/ścieżka/nazwa pliku” lub
„q=/pah/nazwa pliku” dla formatów fasta lub fastq oddzielnie. Sparowane odczyty w dwóch fasta
pliki sekwencji są oznaczone „f1=” i „f2=”. Podczas sparowania odczytów w dwóch sekwencjach fastq
pliki są oznaczone „q1=” i „q2=”. Sparowane odczyty w jednym pliku sekwencji fasta to
wskazane przez pozycję „p=”.

Wszystkie powyższe pozycje w każdej sekcji biblioteki są opcjonalne. Asembler przypisuje domyślne
wartości dla większości z nich. Jeśli nie wiesz, jak ustawić parametr, możesz go usunąć
z twojego pliku konfiguracyjnego.

Get it rozpoczęty

Gdy plik konfiguracyjny jest już dostępny, typowym sposobem uruchomienia asemblera jest: ${bin}
all –s plik_konfiguracyjny –K 63 –R –o przedrostek_grafu

Użytkownik może również uruchomić proces montażu krok po kroku jako: ${bin} pregraph
\[u2013]s plik_konfiguracyjny \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]o graph_prefix
${bin} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} mapa \[u2013]s
plik_konfiguracyjny \[u2013]g prefiks_grafu [-p] ${bin} scaff \[u2013]g prefiks_grafu [\[u2013]F -u
-G -p]

Opcje

-a INT Zainicjuj założenie pamięci (GB), aby uniknąć dalszej ponownej alokacji

-s plik konfiguracyjny STR

-o Przedrostek pliku wyjściowego STR

-g Przedrostek pliku wykresu wejściowego STR

-K INT K-mer rozmiar [domyślnie 23, min 13, max 127]

-p INT wielowątkowość, n wątków [domyślnie 8]

-R używa odczytów do rozwiązywania małych powtórzeń [domyślnie nie]

-d INT usuwa niskoczęstotliwościowe K-mery o częstotliwości nie większej niż [domyślnie 0]

-D INT usuwa krawędzie z pokryciem nie większym niż [domyślnie 1]

-M INT siła łączenia podobnych sekwencji podczas kontigowania [domyślnie 1, min 0, max
3]

-F zamknięcie luki wewnątrz rusztowania [domyślnie nie]

-umożliwia zdemaskowanie kontigów o wysokim stopniu pokrycia przed rusztowaniem [maska domyślna]

-G INT dozwolona różnica długości między szacowaną a wypełnioną przerwą

-L minimalna długość kontigów używana do rusztowania

Wydajność pliki

Te pliki są wyprowadzane jako wyniki montażu:

A. *.contig

sekwencje kontigów bez użycia informacji o parach kojarzących

B. *.scafSeq

sekwencje rusztowania (końcowe sekwencje kontigów można wyodrębnić przez rozbicie rusztowania
sekwencje w regionach przerw)

Istnieje kilka innych plików, które dostarczają przydatnych informacji dla zaawansowanych użytkowników, które są:
wymienione w Załączniku B.

FAQ

W jaki sposób do zestaw K-mer rozmiar?
Program akceptuje liczby nieparzyste od 13 do 31. Większe K-mery miałyby wyższy współczynnik
unikatowości w genomie i uprościłby wykres, ale wymaga głębokiego sekwencjonowania
głębokość i dłuższą długość odczytu, aby zagwarantować nakładanie się w dowolnym miejscu genomu.

W jaki sposób do zestaw biblioteka ranga?
SOAPdenovo użyje bibliotek typu pair-end z rozmiarem wstawki od mniejszego do większego, aby
konstruować rusztowania. Biblioteki o tej samej randze byłyby używane w tym samym czasie. Do
na przykład w zestawie danych ludzkiego genomu ustawiliśmy pięć rang dla pięciu bibliotek z insertem
rozmiar 200-bp, 500-bp, 2-Kb, 5-Kb i 10-Kb, osobno. Pożądane jest, aby pary w
każda ranga zapewnia odpowiednie fizyczne pokrycie genomu.

DODATEK A: an przykład.config

#maksymalna długość odczytu
max_rd_len=50
[LIB]
#średni rozmiar wkładki
średnia_ins=200
#jeśli sekwencja musi zostać odwrócona
sekwencja_odwrotna=0
#w której części(-ach) używane są odczyty
asm_flagi=3
#użyj tylko pierwszych 50 bps każdego odczytu
rd_len_cutoff=50
#w jakiej kolejności odczyty są używane podczas rusztowania
pozycja = 1
# odcięcie numeru pary dla niezawodnego połączenia (domyślnie 3)
pair_num_cutoff=3
#minimalna długość wyrównana do kontigów dla niezawodnej lokalizacji odczytu (domyślnie 32)
mapa_len=32
#fastq plik do odczytu 1
q1=/ścieżka/**LIBNAMEA**/fastq_read_1.fq
#plik fastq do odczytu 2 zawsze następuje po pliku fastq do odczytu 1
q2=/ścieżka/**LIBNAMEA**/fastq_read_2.fq
#fasta plik do odczytu 1
f1=/ścieżka/**LIBNAMEA**/fasta_read_1.fa
#plik fastq do odczytu 2 zawsze następuje po pliku fastq do odczytu 1
f2=/ścieżka/**LIBNAMEA**/fasta_read_2.fa
#plik fastq dla pojedynczych odczytów
q=/ścieżka/**LIBNAMEA**/fastq_read_single.fq
#plik fasta dla pojedynczych odczytów
f=/ścieżka/**LIBNAMEA**/fasta_read_single.fa
#pojedynczy plik fasta do sparowanych odczytów
p=/ścieżka/**LIBNAMEA**/pairs_in_one_file.fa
[LIB]
średnia_ins=2000
sekwencja_odwrotna=1
asm_flagi=2
pozycja = 2
# odcięcie numeru pary dla niezawodnego połączenia
#(domyślnie 5 dla dużego rozmiaru wkładki)
pair_num_cutoff=5
#minimalna długość wyrównana do kontigów dla niezawodnej lokalizacji odczytu
#(domyślnie 35 dla dużego rozmiaru wkładki)
mapa_len=35
q1=/ścieżka/**LIBNAMEB**/fastq_read_1.fq
q2=/ścieżka/**LIBNAMEB**/fastq_read_2.fq
q=/ścieżka/**LIBNAMEB**/fastq_read_single.fq
f=/ścieżka/**LIBNAMEB**/fasta_read_single.fa

dodatek B: wydajność pliki

1. Pliki wyjściowe z polecenia „pregraph”

A. *.kmerFreq

Każdy wiersz pokazuje liczbę Kmerów z częstotliwością równą numerowi wiersza.

b. *.krawędź

Każdy rekord podaje informacje o krawędzi w pre-grafie: długość, kmery na obu końcach,
średni zasięg kmer, niezależnie od tego, czy jest odwrotnie komplementarnie identyczny i kolejność.

C. *.markOnEdge i *.ścieżka

Te dwa pliki służą do używania odczytów do rozwiązywania małych powtórzeń

mi. *.preArc

Połączenia pomiędzy krawędziami, które są ustalane przez ścieżki odczytu.

F. *.wierzchołek

Kmery na końcach krawędzi.

G. *.preGraphBasic

Kilka podstawowych informacji o pregrafie: liczba wierzchołków, wartość K, liczba krawędzi,
maksymalna długość odczytu itp.

2. Pliki wyjściowe z polecenia „contig”

A. *.contig

Informacje o kontigach: odpowiedni indeks krawędzi, długość, zasięg kmer, czy jest to końcówka i
sekwencja. Uwzględnia się albo kontig, albo jego odwrotny odpowiednik komplementarny. Każdy
odwrotny komplementarny indeks kontigów jest wskazany w pliku *.ContigIndex.

b. *.Łuk

Łuki wychodzące z każdej krawędzi i odpowiadające im pokrycie przez odczyty

C. *.zaktualizowana.krawędź

Niektóre informacje dla każdej krawędzi na wykresie: długość, kmery na obu końcach, różnica indeksów
między odwróconą krawędzią komplementarną a tą.

D. *.ContigIndex

Każdy rekord podaje informacje o każdym kontigu w pliku *.contig: indeks krawędzi, długość,
różnica indeksu między jego odwrotnie komplementarnym odpowiednikiem a nim samym.

3. Pliki wyjściowe z polecenia „map”

a. *.peGrady

Informacje dla każdej biblioteki klonów: rozmiar wstawki, górna granica odczytu indeksu, ranga i para
odcięcie liczby dla niezawodnego łącza.

Ten plik można poprawić ręcznie w celu dostrojenia rusztowania.

B. *.readOnContig

Przeczytaj lokalizacje na kontigach. Tutaj kontigi są określane przez ich indeks krawędzi. Howerver o
połowa z nich nie jest wymieniona w pliku *.contig ze względu na ich odwrotną komplementarność
odpowiedniki są już uwzględnione.

C. *.readInGap

Ten plik zawiera odczyty, które mogą znajdować się w przerwach między kontigami. Ta informacja
służy do zamykania luk w rusztowaniach.

4. Pliki wyjściowe z polecenia „scaff”

A. *.newContigIndex

Kontigi są sortowane według ich długości przed rusztowaniem. Ich nowy indeks jest wymieniony
w tym pliku. Jest to przydatne, jeśli chcemy powiązać contigi w *.contig z tymi
w *.linki.

b. *.spinki do mankietów

Powiązania między kontigami, które są ustalane przez pary odczytu. Używany jest nowy indeks.

C. *.scaf_gap

Contigs w przerwach znalezionych przez graf kontigów wyprowadzony przez procedurę kontigowania. Tutaj nowy indeks
są używane.

D. *.scaf

Contigs dla każdego rusztowania: wskaźnik contig (zgodny z indeksem w *.contig), przybliżony
pozycja początkowa na rusztowaniu, orientacja, długość kontigu i jego powiązania z innymi.

mi. *.gapSeq

Sekwencje przerw między kontigami.

F. *.scafSeq

Kolejność każdego rusztowania.

Użyj mydła-31mer online za pomocą usług onworks.net