soapdenovo-63mer - Bulutta Çevrimiçi

Bu, Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü gibi birden fazla ücretsiz çevrimiçi iş istasyonumuzdan birini kullanarak OnWorks ücretsiz barındırma sağlayıcısında çalıştırılabilen soapdenovo-63mer komutudur.

Program:

ADI


soapdenovo - Bir de novo taslak derleme oluşturabilen kısa okumalı derleme yöntemi

SİNOPSİS


sabundanovo_31mer sabundanovo_63mer sabundanovo_127mer

Giriş


SOAPdenovo, de novo taslak derleme oluşturabilen yeni bir kısa okuma derleme yöntemidir.
insan boyutundaki genomlar için. Program, Illumina GA'yı birleştirmek için özel olarak tasarlanmıştır.
kısa okumalar Referans dizileri oluşturmak ve taşımak için yeni fırsatlar yaratır.
Keşfedilmemiş genomların doğru analizlerini uygun maliyetli bir şekilde yapın.

1) Uzun okumaları kullanmak için 127'ye kadar büyük kmer'i destekleyin. Üç versiyon sağlanır.
I. 31mer sürümü yalnızca kmer'i <=31 destekler.
II. 63mer sürümü, yalnızca <=63 kmer'i destekler ve bellek tüketimini şundan iki katına çıkarır:
31mer versiyonu, kmer <=31 ile bile kullanılıyor.
III. 127mer sürümü yalnızca kmer'i <=127 destekler ve bellek tüketimini şundan iki katına çıkarır:
63mer versiyonu, kmer <=63 ile bile kullanılıyor.

Lütfen daha uzun kmer ile düğüm sayısının önemli ölçüde azalacağına dikkat edin,
bu nedenle bellek tüketimi, kaydırılan sürümde genellikle iki katından daha küçüktür.

2) "pregraph" modülüne yeni parametre eklendi. Bu parametre hafızayı başlatır.
daha fazla yeniden tahsisi önlemek için varsayım. Parametrenin birimi GB'dir. daha fazla olmadan
yeniden tahsis, SOAPdenovo daha hızlı çalışır ve tüm hafızayı tüketme potansiyeli sağlar.
makine. Örneğin, iş istasyonu 50g boş bellek sağlıyorsa, -a 50 inç
ön grafik adımı, daha sonra işlemeden önce statik miktarda 50g bellek tahsis edilecektir.
okur. Bu, aynı makineyi paylaşan diğer kullanıcılar tarafından kesintiye uğramayı da önleyebilir.

3) 'scafSeq' dosyasında artık küçük harflerle temsil edilen boşluk dolu tabanlar.

4) Performansı artırmak için SIMD talimatları eklendi.

yapılandırma dosya


Derin dizilemeli büyük genom projeleri için veriler genellikle çoklu olarak düzenlenir.
birden çok kitaplıktan oluşturulan dizi dosyalarını okuyun. Yapılandırma dosyası şunları söyler:
assembler, bu dosyaları ve ilgili bilgileri nerede bulacağını. “example.config” bir
böyle bir dosyanın örneği.

Yapılandırma dosyasında genel bilgiler için bir bölüm ve ardından birden çok kitaplık bulunur.
bölümler. Şu anda global bilgi bölümünde yalnızca “max_rd_len” yer almaktadır. Herhangi
max_rd_len'den daha uzun okuma bu uzunluğa kesilecektir.

Kütüphane bilgileri ve kütüphaneden üretilen sıralama verilerinin bilgileri
ilgili kütüphane bölümünde düzenlenmelidir. Her kütüphane bölümü başlar
[LIB] etiketli ve aşağıdaki öğeleri içerir:

avg_ins
Bu değer, bu kitaplığın ortalama ekleme boyutunu veya tepe değerini gösterir.
kesici uç boyutu dağıtım rakamındaki konum.

ters_seq
Bu seçenek 0 veya 1 değerini alır. Montajcıya okuma dizilerinin gerekip gerekmediğini söyler.
tamamlayıcı olarak tersine çevrilebilir. Illumima GA, iki tür eşleştirilmiş uç üretir
kütüphaneler: a) ileri-ters, tipik olarak parçalanmış DNA uçlarından üretilir
500 bp'den küçük uç boyutu; b) ileri-ileri, daireselleştirmeden üretilir
tipik ekleme boyutu 2 Kb'den büyük olan kitaplıklar. "reverse_seq" parametresi
bunu gösterecek şekilde ayarlanmalıdır: 0, ileri-geri; 1, ileri-ileri.

asm_flags=3
Bu gösterge, okumaların hangi parça(lar)da kullanılacağına karar verir. 1 değerini alır(sadece
kontig montajı), 2 (yalnızca iskele montajı), 3 (hem kontig hem de iskele montajı),
veya 4 (sadece boşluk kapatma).

rd_len_cutoff
Montajcı, mevcut kitaplıktan okumaları bu uzunluğa kesecektir.

rank Tamsayı değerlerini alır ve okumaların iskele için hangi sırayla kullanılacağına karar verir
toplantı. İskele sırasında aynı “rütbeye” sahip kütüphaneler aynı anda kullanılır
montaj.

çift_num_cutoff
Bu parametre, arasında güvenilir bir bağlantı için çift sayısının kesme değeridir.
iki contig veya ön iskele.

harita_len
Bu, “harita” adımında etkili olur ve bir nokta arasındaki minimum hizalama uzunluğudur.
güvenilir bir okuma konumu için okuma ve bir contig gerekir.

Birleştirici, okuma dosyasını iki biçimde kabul eder: FASTA veya FASTQ. eş-çift ilişkisi
iki şekilde gösterilebilir: aynı sırada okumaları olan iki dizi dosyası
bir çifte veya bir çifte ait tek bir dosyada (yalnızca FASTA) iki bitişik okuma.

Yapılandırma dosyasında tek uçlu dosyalar "f=/yol/dosyaadı" veya
Fasta veya fastq biçimleri için ayrı ayrı “q=/pah/filename”. İki fasta'da eşleştirilmiş okumalar
sıra dosyaları “f1=” ve “f2=” ile gösterilir. İki fastq dizisinde eşleştirilmiş okumalar sırasında
dosyalar “q1=” ve “q2=” ile gösterilir. Tek bir fasta dizisi dosyasındaki eşleştirilmiş okumalar
“p=” öğesi ile gösterilir.

Her kitaplık bölümündeki yukarıdaki öğelerin tümü isteğe bağlıdır. Montajcı varsayılanı atar
çoğu için değerler. Bir parametreyi nasıl ayarlayacağınızdan emin değilseniz, onu kaldırabilirsiniz.
yapılandırma dosyanızdan.

Ön Onay it başladı


Yapılandırma dosyası hazır olduğunda, montajcıyı çalıştırmanın tipik bir yolu şudur: ${bin}
hepsi –s yapılandırma_dosyası –K 63 –R –o grafik_prefix

Kullanıcı ayrıca montaj sürecini şu şekilde adım adım çalıştırmayı seçebilir: ${bin} pregraph
\[u2013]s config_file \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]ograph_prefix
${bin} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} harita \[u2013]s
config_file \[u2013]ggraph_prefix [-p] ${bin} scaff \[u2013]ggraph_prefix [\[u2013]F -u
-G-p]

Opsiyonlar


-a INT Daha fazla yeniden tahsisi önlemek için bellek varsayımını (GB) başlatın

-s STR yapılandırma dosyası

-o STR çıktı grafik dosyası öneki

-g STR giriş grafiği dosyası öneki

-K INT K-mer boyutu [varsayılan 23, min 13, maks 127]

-p INT çoklu iş parçacığı, n iş parçacığı [varsayılan 8]

-R, küçük tekrarları çözmek için okumaları kullanır [varsayılan hayır]

-d INT, frekansı [varsayılan 0]'dan büyük olmayan düşük frekanslı K-mer'leri kaldırır

-D INT, kapsamı [varsayılan 1]'den büyük olmayan kenarları kaldırır

-M INT contiging sırasında benzer dizileri birleştirme gücü [varsayılan 1, min 0, maks
3]

-F iskele içi boşluk kapatma [varsayılan hayır]

-u, iskele kurmadan önce yüksek kapsama alanlarını maskele [varsayılan maske]

-G INT, tahmini ve doldurulmuş boşluk arasında izin verilen uzunluk farkı

-L iskele için kullanılan minimum kontig uzunluğu

Çıktı Dosyaları


Bu dosyalar, derleme sonuçları olarak çıkarılır:

A. *.contig

montaj ilişkisi çifti bilgilerini kullanmadan bitişik diziler

B. *.scafSeq

iskele dizileri (son bitişik diziler, yapı iskelesini parçalayarak çıkarılabilir
boşluk bölgelerindeki diziler)

İleri düzey kullanıcılar için yararlı bilgiler sağlayan başka dosyalar da vardır.
Ek B'de listelenmiştir.

FAQ


Ne kadar için set K-mer boyut?
Program 13 ile 31 arasındaki tek sayıları kabul eder. Daha büyük K-mers'lerin oranı daha yüksek olur
genomda benzersizdir ve grafiği daha basit hale getirir, ancak derin sıralama gerektirir
herhangi bir genomik konumda örtüşmeyi garanti etmek için derinlik ve daha uzun okuma uzunluğu.

Ne kadar için set kütüphane rütbe?
SOAPdenovo, küçükten büyüğe, ekleme boyutuna sahip çift uçlu kitaplıkları kullanacaktır.
iskeleler kurun. Aynı rütbeye sahip kütüphaneler aynı anda kullanılacaktır. İçin
örneğin, bir insan genomunun veri kümesinde, eklemeli beş kitaplık için beş sıra belirledik.
boyut 200-bp, 500-bp, 2-Kb, 5-Kb ve 10-Kb, ayrı ayrı. içindeki çiftlerin olması arzu edilir.
her sıra genomun yeterli fiziksel kapsamını sağlar.

EK A: an örnek.config


#maksimum okuma uzunluğu
max_rd_len=50
[LIB]
#ortalama uç boyutu
ort_ins=200
#if sıranın tersine çevrilmesi gerekiyorsa
ters_seq=0
#okumaların kullanıldığı kısım(lar)
asm_flags=3
#her okumanın yalnızca ilk 50 bps'sini kullan
rd_len_cutoff=50
#yapı iskelesi yapılırken okumalar hangi sırayla kullanılır
derece=1
# güvenilir bir bağlantı için çift sayısının kesilmesi (varsayılan 3)
çift_num_cutoff=3
#güvenilir bir okuma konumu için contig'lere hizalanmış minimum uzunluk (varsayılan 32)
harita_len=32
okuma 1 için #fastq dosyası
q1=/yol/**LIBNAMEA**/fastq_read_1.fq
#fastq okuma 2 dosyası her zaman okuma 1 için fastq dosyasını takip eder
q2=/yol/**LIBNAMEA**/fastq_read_2.fq
okuma 1 için #fasta dosyası
f1=/yol/**LIBNAMEA**/fasta_read_1.fa
#fastq okuma 2 dosyası her zaman okuma 1 için fastq dosyasını takip eder
f2=/yol/**LIBNAMEA**/fasta_read_2.fa
tek okumalar için #fastq dosyası
q=/path/**LIBNAMEA**/fastq_read_single.fq
tek okumalar için #fasta dosyası
f=/path/**LIBNAMEA**/fasta_read_single.fa
#eşleştirilmiş okumalar için tek bir fasta dosyası
p=/path/**LIBNAMEA**/pairs_in_one_file.fa
[LIB]
ort_ins=2000
ters_seq=1
asm_flags=2
derece=2
# güvenilir bir bağlantı için çift sayısının kesilmesi
#(büyük uç boyutu için varsayılan 5)
çift_num_cutoff=5
#güvenilir bir okuma konumu için contig'lere hizalanmış minimum uzunluk
#(büyük uç boyutu için varsayılan 35)
harita_len=35
q1=/yol/**LIBNAMEB**/fastq_read_1.fq
q2=/yol/**LIBNAMEB**/fastq_read_2.fq
q=/yol/**LIBNAMEB**/fastq_read_single.fq
f=/path/**LIBNAMEB**/fasta_read_single.fa

Ek B: çıktı Dosyaları


1. "pregraph" komutundan dosyaların çıktısını alın

a. *.kmerFrekans

Her satır, sıra numarasına eşit bir frekansla Kmer sayısını gösterir.

B. *.köşe

Her kayıt, ön grafikte bir kenarın bilgisini verir: uzunluk, her iki uçta Kmers,
ortalama kmer kapsamı, ters-tamamlayıcı olarak aynı olup olmadığı ve sıra.

C. *.markOnEdge ve *.path

Bu iki dosya, küçük tekrarları çözmek için okumaları kullanmak içindir.

e. *.preArc

Okuma yolları tarafından kurulan kenarlar arasındaki bağlantılar.

F. *.köşe

Kenarların uçlarında Kmerler.

G. *.preGraphBasic

Ön grafikle ilgili bazı temel bilgiler: köşe sayısı, K değeri, kenar sayısı,
maksimum okuma uzunluğu vb.

2. “contig” komutundan dosyaların çıktısını alın

A. *.contig

Contig bilgisi: karşılık gelen kenar indeksi, uzunluk, kmer kapsamı, uç ve
sekans. Ya bir contig ya da onun ters tamamlayıcı karşılığı dahildir. Her biri
ters tamamlayıcı contig dizini *.ContigIndex dosyasında belirtilir.

B. *.Ark

Her kenardan çıkan yaylar ve okumalara göre karşılık gelen kapsama alanı

C. *.güncellenmiş.kenar

Grafikteki her kenar için bazı bilgiler: uzunluk, her iki uçta Kmers, indeks farkı
ters-tamamlayıcı kenar ile bu kenar arasında.

NS. *.ContigIndex

Her kayıt, *.contig'deki her bir bitiş hakkında bilgi verir: kenar indeksi, uzunluğu,
ters tamamlayıcı meslektaşı ve kendisi arasındaki endeks farkı.

3. “map” komutundan dosyaların çıktısını alın

a. *.peGrad'lar

Her klon kitaplığı için bilgi: ekleme boyutu, okuma indeksi üst sınırı, sıralama ve çift
güvenilir bir bağlantı için sayı kesme.

Bu dosya, iskele ayarı için manuel olarak revize edilebilir.

B. *.readOnContig

Contiglerdeki konumları okuyun. Burada contig'lere kenar indeksleri ile atıfta bulunulur. hakkında
yarısı, ters tamamlayıcıları için *.contig dosyasında listelenmemiştir.
muadilleri zaten dahil edilmiştir.

C. *.readInGap

Bu dosya, contig'ler arasındaki boşluklarda bulunabilecek okumaları içerir. Bu bilgi
iskelelerdeki boşlukları kapatmak için kullanılacaktır.

4. "scaff" komutundan dosyaların çıktısını alın

A. *.newContigIndex

Contigs, iskeleden önce uzunluklarına göre sıralanır. Yeni dizinleri listelenir
bu dosyada. Bu, *.contig'deki contig'lere şunlarla karşılık gelmek isteniyorsa yararlıdır.
*.linklerde.

B. *.bağlantılar

Okuma çiftleri tarafından kurulan contig'ler arasındaki bağlantılar. Yeni dizin kullanılır.

C. *.scaf_gap

Contiging prosedürü tarafından çıkarılan contig grafiği tarafından bulunan boşluklardaki contig'ler. İşte yeni dizin
kullanılmış.

NS. *.scaf

Her iskele için contig'ler: contig indeksi (*.contig içindeki indeksle uyumlu), yaklaşık
iskele üzerinde başlangıç ​​konumu, oryantasyon, bitiş uzunluğu ve diğerleriyle bağlantıları.

e. *.gapSeq

Contig'ler arasındaki boşluk dizileri.

F. *.scafSeq

Her iskelenin sırası.

onworks.net hizmetlerini kullanarak soapdenovo-63mer'i çevrimiçi kullanın



En yeni Linux ve Windows çevrimiçi programları