Angielskifrancuskihiszpański

Ulubiona usługa OnWorks

soapdenovo-31mer - Online w chmurze

Uruchom soapdenovo-31mer u dostawcy bezpłatnego hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Jest to polecenie soapdenovo-31mer, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu darmowych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

PROGRAM:

IMIĘ


soapdenovo - Metoda montażu z krótkim odczytem, ​​która może zbudować zespół roboczy de novo

STRESZCZENIE


mydlane_31mer mydlane_63mer mydlane_127mer

Wprowadzenie


SOAPdenovo to nowatorska metoda montażu z krótkim odczytem, ​​która może zbudować zespół roboczy de novo
dla genomów wielkości człowieka. Program jest specjalnie zaprojektowany do montażu Illumina GA
krótkie odczyty. Stwarza nowe możliwości budowania sekwencji referencyjnych i przenoszenia
przeprowadzanie dokładnych analiz niezbadanych genomów w opłacalny sposób.

1) Obsługuj duże kmer do 127, aby korzystać z długich odczytów. Dostępne są trzy wersje.
I. Wersja 31mer obsługuje tylko kmer <=31.
II. Wersja 63mer obsługuje tylko kmer <=63 i podwaja zużycie pamięci niż
Wersja 31mer, używana nawet z kmerem <=31.
III. Wersja 127mer obsługuje tylko kmer <=127 i podwaja zużycie pamięci niż
Wersja 63mer, używana nawet z kmerem <=63.

Proszę zauważyć, że przy dłuższym kmerze ilość węzłów znacznie by się zmniejszyła,
w związku z tym zużycie pamięci jest zwykle mniejsze niż dwukrotne w przypadku wersji przesuniętej.

2) Dodano nowy parametr w module "pregraph". Ten parametr inicjuje pamięć
założenie, aby uniknąć dalszej realokacji. Jednostką parametru jest GB. Bez dalszego
realokacja, SOAPdenovo działa szybciej i zapewnia potencjał do pochłonięcia całej pamięci
maszyna. Na przykład, jeśli stacja robocza zapewnia 50 g wolnej pamięci, użyj opcji -a 50 cali
krok pregraf, a następnie przed przetwarzaniem zostanie przydzielona statyczna ilość pamięci 50g
czyta. Pozwala to również uniknąć przerywania przez innych użytkowników korzystających z tego samego komputera.

3) Bazy wypełnione lukami są teraz reprezentowane przez małe litery w pliku 'scafSeq'.

4) Wprowadzono instrukcje SIMD w celu zwiększenia wydajności.

systemu filet


W przypadku dużych projektów genomu z głębokim sekwencjonowaniem dane są zwykle zorganizowane jako wielokrotne
czytać pliki sekwencji wygenerowane z wielu bibliotek. Plik konfiguracyjny mówi
asembler, gdzie znaleźć te pliki i odpowiednie informacje. „przykład.config” to
przykład takiego pliku.

Plik konfiguracyjny ma sekcję na informacje globalne, a następnie wiele bibliotek
Sekcje. Obecnie w sekcji informacji globalnych znajduje się tylko „max_rd_len”. Każdy
odczyt dłuższy niż max_rd_len zostanie przycięty do tej długości.

Informacje biblioteczne i informacje o sekwencjonowaniu danych wygenerowanych z biblioteki
powinny być zorganizowane w odpowiedniej sekcji biblioteki. Rozpoczyna się każda sekcja biblioteki
ze znacznikiem [LIB] i zawiera następujące pozycje:

średnia_ins
Ta wartość wskazuje średni rozmiar wkładki tej biblioteki lub wartość szczytową
pozycja na rysunku rozkładu wielkości płytek.

odwrotna_sekw
Ta opcja przyjmuje wartość 0 lub 1. Mówi asemblerowi, czy sekwencje odczytu są potrzebne
do komplementarnego odwrócenia. Illumima GA produkuje dwa rodzaje sparowanych końcówek
biblioteki: a) forward-reverse, generowane z pofragmentowanych końców DNA o typowym
rozmiar wkładki mniejszy niż 500 pz; b) forward-forward, generowane z cyrkulacji
biblioteki o typowym rozmiarze insertu większym niż 2 Kb. Parametr „reverse_seq”
powinien być ustawiony tak, aby wskazywał na to: 0, przód-tył; 1, do przodu do przodu.

asm_flagi=3
Ten wskaźnik decyduje, w której części (częśćch) używane są odczyty. Przyjmuje wartość 1 (tylko
montaż contig), 2 (tylko montaż rusztowań), 3 (zarówno montaż contig jak i rusztowań),
lub 4 (tylko zamknięcie szczeliny).

rd_len_cutoff
Asembler zmniejszy odczyty z bieżącej biblioteki do tej długości.

rank Przyjmuje wartości całkowite i decyduje, w jakiej kolejności odczyty są używane na rusztowaniu
montaż. Biblioteki o tej samej „randze” są używane w tym samym czasie podczas rusztowania
montaż.

para_num_cutoff
Ten parametr jest wartością odcięcia numeru pary dla niezawodnego połączenia między
dwa kontigi lub pre-rusztowania.

mapa_len
Ma to wpływ na etapie „mapy” i jest minimalną długością wyrównania między a
read i contig wymagane do niezawodnej lokalizacji odczytu.

Asembler akceptuje odczytany plik w dwóch formatach: FASTA lub FASTQ. Relacja para-partner
można wskazać na dwa sposoby: dwa pliki sekwencji z odczytami w tej samej kolejności należące
do pary lub dwóch sąsiadujących odczytów w jednym pliku (tylko FASTA) należącym do pary.

W pliku konfiguracyjnym pliki z jednym końcem są oznaczone przez „f=/ścieżka/nazwa pliku” lub
„q=/pah/nazwa pliku” dla formatów fasta lub fastq oddzielnie. Sparowane odczyty w dwóch fasta
pliki sekwencji są oznaczone „f1=” i „f2=”. Podczas sparowania odczytów w dwóch sekwencjach fastq
pliki są oznaczone „q1=” i „q2=”. Sparowane odczyty w jednym pliku sekwencji fasta to
wskazane przez pozycję „p=”.

Wszystkie powyższe pozycje w każdej sekcji biblioteki są opcjonalne. Asembler przypisuje domyślne
wartości dla większości z nich. Jeśli nie wiesz, jak ustawić parametr, możesz go usunąć
z twojego pliku konfiguracyjnego.

Get it rozpoczęty


Gdy plik konfiguracyjny jest już dostępny, typowym sposobem uruchomienia asemblera jest: ${bin}
all –s plik_konfiguracyjny –K 63 –R –o przedrostek_grafu

Użytkownik może również uruchomić proces montażu krok po kroku jako: ${bin} pregraph
\[u2013]s plik_konfiguracyjny \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]o graph_prefix
${bin} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} mapa \[u2013]s
plik_konfiguracyjny \[u2013]g prefiks_grafu [-p] ${bin} scaff \[u2013]g prefiks_grafu [\[u2013]F -u
-G -p]

Opcje


-a INT Zainicjuj założenie pamięci (GB), aby uniknąć dalszej ponownej alokacji

-s plik konfiguracyjny STR

-o Przedrostek pliku wyjściowego STR

-g Przedrostek pliku wykresu wejściowego STR

-K INT K-mer rozmiar [domyślnie 23, min 13, max 127]

-p INT wielowątkowość, n wątków [domyślnie 8]

-R używa odczytów do rozwiązywania małych powtórzeń [domyślnie nie]

-d INT usuwa niskoczęstotliwościowe K-mery o częstotliwości nie większej niż [domyślnie 0]

-D INT usuwa krawędzie z pokryciem nie większym niż [domyślnie 1]

-M INT siła łączenia podobnych sekwencji podczas kontigowania [domyślnie 1, min 0, max
3]

-F zamknięcie luki wewnątrz rusztowania [domyślnie nie]

-umożliwia zdemaskowanie kontigów o wysokim stopniu pokrycia przed rusztowaniem [maska ​​domyślna]

-G INT dozwolona różnica długości między szacowaną a wypełnioną przerwą

-L minimalna długość kontigów używana do rusztowania

Wydajność pliki


Te pliki są wyprowadzane jako wyniki montażu:

A. *.contig

sekwencje kontigów bez użycia informacji o parach kojarzących

B. *.scafSeq

sekwencje rusztowania (końcowe sekwencje kontigów można wyodrębnić przez rozbicie rusztowania
sekwencje w regionach przerw)

Istnieje kilka innych plików, które dostarczają przydatnych informacji dla zaawansowanych użytkowników, które są:
wymienione w Załączniku B.

FAQ


W jaki sposób do zestaw K-mer rozmiar?
Program akceptuje liczby nieparzyste od 13 do 31. Większe K-mery miałyby wyższy współczynnik
unikatowości w genomie i uprościłby wykres, ale wymaga głębokiego sekwencjonowania
głębokość i dłuższą długość odczytu, aby zagwarantować nakładanie się w dowolnym miejscu genomu.

W jaki sposób do zestaw biblioteka ranga?
SOAPdenovo użyje bibliotek typu pair-end z rozmiarem wstawki od mniejszego do większego, aby
konstruować rusztowania. Biblioteki o tej samej randze byłyby używane w tym samym czasie. Do
na przykład w zestawie danych ludzkiego genomu ustawiliśmy pięć rang dla pięciu bibliotek z insertem
rozmiar 200-bp, 500-bp, 2-Kb, 5-Kb i 10-Kb, osobno. Pożądane jest, aby pary w
każda ranga zapewnia odpowiednie fizyczne pokrycie genomu.

DODATEK A: an przykład.config


#maksymalna długość odczytu
max_rd_len=50
[LIB]
#średni rozmiar wkładki
średnia_ins=200
#jeśli sekwencja musi zostać odwrócona
sekwencja_odwrotna=0
#w której części(-ach) używane są odczyty
asm_flagi=3
#użyj tylko pierwszych 50 bps każdego odczytu
rd_len_cutoff=50
#w jakiej kolejności odczyty są używane podczas rusztowania
pozycja = 1
# odcięcie numeru pary dla niezawodnego połączenia (domyślnie 3)
pair_num_cutoff=3
#minimalna długość wyrównana do kontigów dla niezawodnej lokalizacji odczytu (domyślnie 32)
mapa_len=32
#fastq plik do odczytu 1
q1=/ścieżka/**LIBNAMEA**/fastq_read_1.fq
#plik fastq do odczytu 2 zawsze następuje po pliku fastq do odczytu 1
q2=/ścieżka/**LIBNAMEA**/fastq_read_2.fq
#fasta plik do odczytu 1
f1=/ścieżka/**LIBNAMEA**/fasta_read_1.fa
#plik fastq do odczytu 2 zawsze następuje po pliku fastq do odczytu 1
f2=/ścieżka/**LIBNAMEA**/fasta_read_2.fa
#plik fastq dla pojedynczych odczytów
q=/ścieżka/**LIBNAMEA**/fastq_read_single.fq
#plik fasta dla pojedynczych odczytów
f=/ścieżka/**LIBNAMEA**/fasta_read_single.fa
#pojedynczy plik fasta do sparowanych odczytów
p=/ścieżka/**LIBNAMEA**/pairs_in_one_file.fa
[LIB]
średnia_ins=2000
sekwencja_odwrotna=1
asm_flagi=2
pozycja = 2
# odcięcie numeru pary dla niezawodnego połączenia
#(domyślnie 5 dla dużego rozmiaru wkładki)
pair_num_cutoff=5
#minimalna długość wyrównana do kontigów dla niezawodnej lokalizacji odczytu
#(domyślnie 35 dla dużego rozmiaru wkładki)
mapa_len=35
q1=/ścieżka/**LIBNAMEB**/fastq_read_1.fq
q2=/ścieżka/**LIBNAMEB**/fastq_read_2.fq
q=/ścieżka/**LIBNAMEB**/fastq_read_single.fq
f=/ścieżka/**LIBNAMEB**/fasta_read_single.fa

dodatek B: wydajność pliki


1. Pliki wyjściowe z polecenia „pregraph”

A. *.kmerFreq

Każdy wiersz pokazuje liczbę Kmerów z częstotliwością równą numerowi wiersza.

b. *.krawędź

Każdy rekord podaje informacje o krawędzi w pre-grafie: długość, kmery na obu końcach,
średni zasięg kmer, niezależnie od tego, czy jest odwrotnie komplementarnie identyczny i kolejność.

C. *.markOnEdge i *.ścieżka

Te dwa pliki służą do używania odczytów do rozwiązywania małych powtórzeń

mi. *.preArc

Połączenia pomiędzy krawędziami, które są ustalane przez ścieżki odczytu.

F. *.wierzchołek

Kmery na końcach krawędzi.

G. *.preGraphBasic

Kilka podstawowych informacji o pregrafie: liczba wierzchołków, wartość K, liczba krawędzi,
maksymalna długość odczytu itp.

2. Pliki wyjściowe z polecenia „contig”

A. *.contig

Informacje o kontigach: odpowiedni indeks krawędzi, długość, zasięg kmer, czy jest to końcówka i
sekwencja. Uwzględnia się albo kontig, albo jego odwrotny odpowiednik komplementarny. Każdy
odwrotny komplementarny indeks kontigów jest wskazany w pliku *.ContigIndex.

b. *.Łuk

Łuki wychodzące z każdej krawędzi i odpowiadające im pokrycie przez odczyty

C. *.zaktualizowana.krawędź

Niektóre informacje dla każdej krawędzi na wykresie: długość, kmery na obu końcach, różnica indeksów
między odwróconą krawędzią komplementarną a tą.

D. *.ContigIndex

Każdy rekord podaje informacje o każdym kontigu w pliku *.contig: indeks krawędzi, długość,
różnica indeksu między jego odwrotnie komplementarnym odpowiednikiem a nim samym.

3. Pliki wyjściowe z polecenia „map”

a. *.peGrady

Informacje dla każdej biblioteki klonów: rozmiar wstawki, górna granica odczytu indeksu, ranga i para
odcięcie liczby dla niezawodnego łącza.

Ten plik można poprawić ręcznie w celu dostrojenia rusztowania.

B. *.readOnContig

Przeczytaj lokalizacje na kontigach. Tutaj kontigi są określane przez ich indeks krawędzi. Howerver o
połowa z nich nie jest wymieniona w pliku *.contig ze względu na ich odwrotną komplementarność
odpowiedniki są już uwzględnione.

C. *.readInGap

Ten plik zawiera odczyty, które mogą znajdować się w przerwach między kontigami. Ta informacja
służy do zamykania luk w rusztowaniach.

4. Pliki wyjściowe z polecenia „scaff”

A. *.newContigIndex

Kontigi są sortowane według ich długości przed rusztowaniem. Ich nowy indeks jest wymieniony
w tym pliku. Jest to przydatne, jeśli chcemy powiązać contigi w *.contig z tymi
w *.linki.

b. *.spinki do mankietów

Powiązania między kontigami, które są ustalane przez pary odczytu. Używany jest nowy indeks.

C. *.scaf_gap

Contigs w przerwach znalezionych przez graf kontigów wyprowadzony przez procedurę kontigowania. Tutaj nowy indeks
są używane.

D. *.scaf

Contigs dla każdego rusztowania: wskaźnik contig (zgodny z indeksem w *.contig), przybliżony
pozycja początkowa na rusztowaniu, orientacja, długość kontigu i jego powiązania z innymi.

mi. *.gapSeq

Sekwencje przerw między kontigami.

F. *.scafSeq

Kolejność każdego rusztowania.

Użyj mydła-31mer online za pomocą usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

  • 1
    Kod QR dla PHP
    Kod QR dla PHP
    PHP QR Code jest open source (LGPL)
    biblioteka do generowania QR Code,
    2-wymiarowy kod kreskowy. Oparte na
    Biblioteka libqrencode C, zapewnia API dla
    tworzenie kodu kreskowego QR Code...
    Pobierz kod QR PHP
  • 2
    freeciv
    freeciv
    Freeciv to darmowa gra turowa
    wieloosobowa gra strategiczna, w której każdy
    gracz staje się liderem a
    cywilizacji, walcząc o uzyskanie
    ostateczny cel: być...
    Pobierz FreeCiv
  • 3
    Piaskownica z kukułką
    Piaskownica z kukułką
    Cuckoo Sandbox wykorzystuje komponenty do
    monitorować zachowanie złośliwego oprogramowania w
    Środowisko piaskownicy; odizolowany od
    reszta systemu. Oferuje zautomatyzowane
    analiza...
    Pobierz Cuckoo Sandbox
  • 4
    LMS-YouTube
    LMS-YouTube
    Odtwarzaj filmy z YouTube na LMS (przenoszenie plików
    Triode do YouTbe API v3) To jest
    aplikacja, którą można również pobrać
    od
    https://sourceforge.net/projects/lms-y...
    Pobierz LMS-YouTube
  • 5
    Podstawa prezentacji systemu Windows
    Podstawa prezentacji systemu Windows
    Fundacja prezentacji systemu Windows (WPF)
    to framework interfejsu użytkownika do budowania systemu Windows
    aplikacje desktopowe. WPF obsługuje m.in
    szeroki zestaw rozwoju aplikacji
    cechy...
    Pobierz Fundację prezentacji systemu Windows
  • 6
    SportMuzyka
    SportMuzyka
    Mit dem Programm kann man schnell und
    einfach Pausen bei Sportveranstaltungen
    mit Musik berbrücken. Hierfår haben sie
    die Mäglichkeit, folgende Wiedergabvaria...
    Pobierz SportMusik
  • więcej »

Komendy systemu Linux

Ad