Bu, Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü gibi birden fazla ücretsiz çevrimiçi iş istasyonumuzdan birini kullanarak OnWorks ücretsiz barındırma sağlayıcısında çalıştırılabilen vsearch-gz komutudur.
Program:
ADI
vsearch — kimera algılama, kümeleme, çoğaltma, maskeleme, ikili hizalama,
metagenomik projelerden amplikonların aranması, karıştırılması ve sıralanması.
SİNOPSİS
Kimera algılama:
vsearch --uchime_denovo hızlı dosya (--chimeralar | --nonchimeras | --uchimealns |
--chimeout) çıktı dosyası [seçenekleri]
vsearch --uchime_ref hızlı dosya (--chimeralar | --nonchimeras | --uchimealns |
--chimeout) çıktı dosyası --db hızlı dosya [seçenekleri]
Kümeleme:
vsearch (--cluster_fast | --cluster_size | --cluster_smallmem) hızlı dosya (--not
| --blast6out | --centroidler | --kümeler | --msaout | --samout | --uc | --userout)
çıktı dosyası --İD gerçek [seçenekleri]
Dereplikasyon:
vsearch --derep_fulllength hızlı dosya (--çıktı | --uc) çıktı dosyası [seçenekleri]
maskeleme:
vsearch --maskfasta hızlı dosya --çıktı çıktı dosyası [seçenekleri]
İkili hizalama:
vsearch --allpairs_global hızlı dosya (--alnout | --blast6out | --uyumlu |
--eşleşmeyen | --samout | --uc | --userout) çıktı dosyası (--kabul | --id gerçek)
[seçenekleri]
Aranıyor:
vsearch --usearch_global hızlı dosya --db hızlı dosya (--alnout | --blast6out |
--samout | --uc | --kullanıcı çıkışı) çıktı dosyası --İD gerçek [seçenekleri]
karıştırma:
vsearch --Karıştır hızlı dosya --çıktı çıktı dosyası [seçenekleri]
Sıralama:
vsearch (--boyuta göre sırala | --boyuta göre sırala) hızlı dosya --çıktı çıktı dosyası [seçenekleri]
TANIM
Çevresel veya klinik moleküler çeşitlilik çalışmaları büyük hacimli amplikonlar üretir
(örn. SSU-rRNA dizileri), kimeralar için kontrol edilmesi gereken, replikasyonu kaldırılmış, maskelenmiş,
sıralanır, aranır, kümelenir veya referans dizilerle karşılaştırılır. Nın amacı vsearch etmektir
optimize edilmiş algoritma kullanarak bu görevleri gerçekleştirmek için hepsi bir arada açık kaynak aracı sunun
uygulamaları ve modern bilgisayarların tüm potansiyelinden yararlanma, böylece hızlı
ve doğru veri işleme.
Nükleotid dizilerinin karşılaştırılması, vsearch. Karşılaştırmaları hızlandırmak için, vsearch
Needleman-Wunsch algoritmasının son derece hızlı bir uygulamasını uygulayarak,
Modern x2-86 CPU'ların Akış SIMD Uzantıları (SSE64). SSE2 talimatları ise
müsait değil, vsearch bir hata mesajı ile çıkar. Dizileri içeren karşılaştırmalar için
5,000 nükleotidden daha uzun, vsearch daha küçük bellekle daha yavaş bir hizalama yöntemi kullanır
gereksinimleri.
Giriş
vsearch input, bir veya birkaç nükleotid dizisi içeren bir fasta dosyasıdır. Her biri için
dizi tanımlayıcısı, ">" arasında oluşan dize olarak tanımlanır.
sembolü ve ilk boşluk veya satırın sonu, hangisi önce gelirse. Bunlara ek olarak,
satır ">[;]size= ile başlıyorsatamsayı;etiket", ">etiket;boyut= içerirtamsayı;etiket" veya
">label;size= ile bitertamsayı[;]", vsearch [;]size= desenini kaldıracaktamsayı[;]
başlıktan ve yorumla tamsayı oluşum sayısı (veya bolluğu) olarak
çalışmada sıralanmıştır. Bu bolluk bilgisi kimera sırasında kullanılır veya oluşturulur.
algılama, kümeleme, dereplication, sıralama ve arama.
Nükleotid dizisi, bir dizi IUPAC sembolü (ACGTURYSWKMDBHVN) olarak tanımlanır,
tanımlayıcı satırın sonundan sonra başlayan ve bir sonraki tanımlayıcı satırdan önce biten,
veya dosya sonu. vsearch 9'dan 13'e kadar olan ascii karakterlerini sessizce yok sayar ve bir
0 ila 8, 14 ila 31, "." ascii karakterleri ise hata mesajı. veya "-" mevcuttur. Diğer tüm
ascii veya ascii olmayan karakterler, engellenmeyen bir uyarıda çıkarılır ve şikayet edilir
mesaj.
vsearch yumuşak maskelemenin etkinleştirildiği durumlar dışında işlemler büyük/küçük harfe duyarlı değildir. Kullanırken
kümeleme, maskeleme veya arama komutları, yumuşak maskeleme kullanılıyorsa durum önemlidir.
Yazılım maskeleme, "--dbmask soft" (arama için) veya "--qmask" seçenekleriyle belirtilir.
soft" (arama, kümeleme ve maskeleme için). Yumuşak maskeleme kullanırken küçük harfler
büyük harfler normal sembolleri gösterirken, maskelenmiş sembolleri gösterir. maskeli semboller
benzersiz olana asla dahil edilmez k-mers aramada kullanılır. Yumuşak maskeleme olmadığında
etkinleştirildiğinde, tüm harfler dahili olarak büyük harfe dönüştürülür ve sonuç dosyalarında kullanılır.
Kimera algılama, replikasyon, arama ve arama sırasında dizileri karşılaştırırken
kümeleme, T ve U, durumlarına bakılmaksızın aynı kabul edilir. iki sembol ise
aynı değil, hizalamaları negatif uyumsuzluk puanına neden olur (varsayılan -4),
sembollerden birinin veya her ikisinin de belirsiz olması (RYSWKMDBHVN) dışında, bu durumda skor
sıfır. İki özdeş belirsiz sembolün hizalanması (örneğin R vs R) ayrıca bir puan alır
sıfır.
vsearch girdi olarak kabul edilen sıkıştırılmış fasta dosyalarına derlenebilir (gz ve bzip2
biçimler). Öte yandan, borular, adlandırılmış borular veya yuvalar gibi özel dosyalar kullanılamaz.
girdi olarak kullanılır. Bir ilerleme göstergesi sunmak için, vsearch sonuna kadar aramalı
Dosya uzunluğunu bulmak için. Sonuç olarak, Dosya normal bir dosya olmalı, akış değil.
Opsiyonlar
vsearch çok sayıda komut satırı seçeneğini tanır. Daha kolay gezinme için seçenekler
aşağıda temaya göre gruplandırılmıştır (kimera algılama, kümeleme, çoğaltma, maskeleme,
karıştırma, sıralama ve arama). Herkes için geçerli olan genel seçeneklerle başlıyoruz
temalar.
Genel seçenekler:
--fasta_width pozitif tamsayı
Tarafından üretilen Fasta dosyaları vsearch sarılır (diziler yazılır
hatları tamsayı nükleotidler, varsayılan olarak 80). Bu değeri 0 olarak ayarlayın
sarmayı ortadan kaldırın.
--yardım et Kısa bir yardım görüntüleyin ve çıkın.
--kayıt Dosya
Belirtilen günlük dosyasına mesaj yazın. Yazılı bilgiler şunları içerir:
program sürümü, kullanılabilir bellek miktarı, çekirdek sayısı ve komut
satır seçenekleri. Başlangıç ve bitiş saatleri de kaydedilir.
geçen zaman. Tüketilen maksimum bellek miktarı dahildir. NS
farklı komutlar genellikle kendi bilgileri hakkında da bazı bilgiler yazarlar.
Sonuçlar. Hem ölümcül, hem uyarı hem de bilgilendirme mesajları yazılır.
--maxsequzunluk pozitif tamsayı
Türkiye vsearch işlemler, eşit veya daha büyük uzunluktaki dizileri atar
göre tamsayı (varsayılan olarak 50,000 nükleotid).
--minsequzunluk pozitif tamsayı
Türkiye vsearch işlemler, daha küçük uzunluktaki dizileri atar
tamsayı (Sıralama veya karıştırma için varsayılan olarak 1 nükleotit, 32 nükleotit
kümeleme, çoğaltma veya arama için).
--notrunclabels
Sıra etiketlerini ilk boşlukta kesmeyin, tam başlığı kullanın
çıktı dosyaları.
--sessizlik Uyarılar ve ölümcül durumlar dışında tüm çıktıları stdout ve stdout'a bastırın
hata mesajları.
--versiyon
Sürüm bilgisi çıktısı alın ve çıkın.
Kimera algılama seçenekleri:
Kimera algılama, beş seçenek (--dn,
--mindiffs, --mindiv, --minh, --xn). Diziler önce azalan şekilde sıralanır
bolluk (varsa) ve bunların karşılaştırılması artı sadece iplikçik (durum
duyarsız).
In de yeni modunda, giriş fasta dosyası bolluk ek açıklamaları sunmalıdır (desen
[;]boyut=tamsayı[;] fasta başlığında). Giriş sırası kimerayı etkiler
algılama, bu nedenle dizileri, bolluğu azaltarak sıralamanızı öneririz (varsayılan
--derep_fulllength komutu). Sıra kümenizin sıralanması gerekiyorsa, lütfen bkz.
sıralama bölümündeki --sortbysize komutu.
-- çarpık gerçek
--uchime_denovo kullanılırken, bolluk çarpıklığı bir dizide ayırt etmek için kullanılır.
Hangi dizinin kimera ve hangisinin ebeveyn olduğu 3 yönlü hizalama.
Varsayım, kimeraların PCR amplifikasyonunda daha sonra ortaya çıktığıdır.
sürecidir ve bu nedenle ebeveynlerinden daha az bulunurlar. Varsayılan
değer 2.0, yani ebeveynlerin en az 2 katı olması gerektiği anlamına gelir.
kimeralarından daha bol. 1.0'dan büyük herhangi bir pozitif değer olabilir
Kullanılmış.
-- hizalama genişliği pozitif tamsayı
--uchimealns çıktısındaki 3 yönlü hizalamaların genişliği. Varsayılan değer
80. Sarmayı ortadan kaldırmak için 0'a ayarlayın.
--kimeralar Dosya
Kimerik dizilerin çıktısını alın Dosya, fasta formatında. Çıkış sırası olabilir
birden çok iş parçacığı kullanırken değişir.
--db Dosya
--uchime_ref kullanırken, fasta formatlı kullanarak kimeraları tespit edin
içerdiği referans dizileri Dosya. Referans dizileri varsayılır
kimeradan arınmış olmak. Ebeveynleri (veya
yeterince yakın akraba) veri tabanında mevcut değil.
--dn gerçek
Oy sözde sayımı yok (parametre n kimera puanlama işlevinde)
(varsayılan değer 1.4'tür).
--mindiff'ler pozitif tamsayı
Segment başına minimum fark sayısı (varsayılan değer 3'tür).
--mindiv gerçek
En yakın ebeveynden minimum sapma (varsayılan değer 0.8'dir).
--minh gerçek
Minimum puan (h). Bu değeri artırmak, sayıyı azaltma eğilimindedir.
yanlış pozitifler ve duyarlılığı azaltmak için. Varsayılan değer 0.28'dir ve
0.0 ile 1.0 arasında değişen değerler dahil edilir.
--kimera olmayanlar Dosya
Kimerik olmayan dizilerin çıktısını alın Dosya, fasta formatında. Çıkış sırası
birden çok iş parçacığı kullanıldığında değişebilir.
--kendi --uchime_ref kullanırken, etiketi olduğunda bir referans dizisini yok sayın.
sorgu dizisinin etiketiyle eşleşir (yanlış pozitifi tahmin etmek için kullanışlıdır)
referans dizilerdeki oran).
--kendine özgü --uchime_ref kullanırken, nükleotidi olduğunda bir referans dizisini yoksayın.
dizi, sorgu dizisiyle kesinlikle aynıdır.
--İş Parçacığı pozitif tamsayı
--uchime_ref ile kullanılacak hesaplama iş parçacığı sayısı (1 ila 256) NS
iş parçacığı sayısı, mevcut CPU sayısına eşit veya daha az olmalıdır
çekirdekler. Varsayılan, mevcut tüm kaynakları kullanmak ve bir tanesini başlatmaktır.
mantıksal çekirdek başına iş parçacığı.
--uchime_denovo Dosya
Fasta biçimli dosyada bulunan kimeraları tespit edin Dosya, harici olmadan
referanslar (yani de yeni). Dizileri otomatik olarak sırala Dosya by
önceden azalan bolluk (ayrıntılar için sıralama bölümüne bakın).
Çoklu kullanım desteklenmez.
--uchime_ref Dosya
Fasta biçimli dosyada bulunan kimeraları tespit edin Dosya onları karşılaştırarak
referans dizileri ile (opsiyon --db). Çoklu iş parçacığı desteklenir.
--ucimealns Dosya
3-yollu global hizalamaları (parentA, parentB, chimera) Dosya
insan tarafından okunabilir bir format kullanarak. Hizalamayı değiştirmek için --alignwidth kullanın
uzunluk. Birden çok iş parçacığı kullanıldığında çıkış sırası değişebilir.
--uchimeout Dosya
Kimera algılama sonuçlarını şuraya yaz: Dosya uchime sekmesini kullanarak ayrılmış
18 alan formatı (aşağıdaki listeye bakın). Bir format kullanmak için --uchimeout5 kullanın
usearch v5 ve önceki sürümleriyle uyumludur. Satırlar çıkış sırası olabilir
birden çok iş parçacığı kullanırken değişir.
1. puan: daha yüksek puan, daha olası bir kimerik hizalama anlamına gelir.
2. S: sorgu dizisi etiketi.
3. A: ebeveyn A dizi etiketi.
4. B: ebeveyn B dizi etiketi.
5. T: üst ebeveyn dizi etiketi (yani, aşağıdakine en çok benzeyen ebeveyn
sorgu). --uchimeout5 kullanılırken bu alan kaldırılır.
6. idQM: sorgu (Q) ve model (M) benzerlik yüzdesi
ebeveyn A'nın bir parçası ve ebeveyn B'nin bir parçası olarak inşa edilmiştir.
7. idQA: sorgu (Q) ve ebeveyn A'nın benzerlik yüzdesi.
8. idQB: sorgu (Q) ve ebeveyn B'nin benzerlik yüzdesi.
9. idAB: ebeveyn A ve ebeveyn B'nin benzerlik yüzdesi.
10. idQT: sorgunun (Q) ve üst ebeveynin (T) benzerlik yüzdesi.
11. LY: Modelin sol tarafında evet oyu var.
12. LN: Modelin sol tarafında oy yok.
13. LA: Modelin sol kısmındaki çekimser oylar.
14. RY: Modelin sağ tarafında evet oyu var.
15. RN: Modelin sağ tarafında oy yok.
16. RA: Modelin sağ tarafında çekimser oylar.
17. div: (idQM - idQT) olarak tanımlanan sapma.
18. YN: sorgu kimerik (Y) veya değil (N) veya sınırda bir durum
(?).
--chimeout5
--uchimeout kullanırken, kimera algılama sonuçlarını bir sekme kullanarak yazın-
17 alanın ayrılmış biçimi (--uchimeout'un 5. alanını bırakın),
usearch sürüm 5 ve önceki sürümlerle uyumludur.
--xn gerçek
Oy ağırlığı yok (puanlama işlevindeki beta parametresi) (varsayılan değer
8.0).
Kümeleme seçenekleri:
vsearch benzer, tek geçişli, açgözlü bir yıldız kümeleme algoritması uygular.
örneğin usearch, DNAclust ve sumaclust'ta uygulanan algoritmalar. Önemli
parametreler genel kümeleme eşiği (--id) ve ikili kimliktir
tanım (--iddef).
--centroidler Dosya
Çıkış kümesi centroid dizileri Dosya, fasta formatında. NS
centroid, kümeyi tohumlayan dizidir (yani ilk dizi
küme).
--cluster_fast Dosya
Fasta dizilerini şu şekilde kümeleyin: Dosya, otomatik olarak bir
önceden dizi uzunluğunu azaltarak sıralama.
--küme boyutu Dosya
Fasta dizilerini şu şekilde kümeleyin: Dosya, otomatik olarak bir
önceden dizi bolluğunu azaltarak sıralama.
--cluster_smallmem Dosya
Fasta dizilerini şu şekilde kümeleyin: Dosya otomatik olarak değiştirmeden
onların siparişi önceden. Dizinin azalan şekilde sıralanması bekleniyor
--usersort kullanılmadığı sürece dizi uzunluğu.
--kümeler dizi
Ön eki kullanarak her kümeyi ayrı bir fasta dosyasına çıkarın dizi ve
yol ve dosya adlarını oluşturmak için ticker (0, 1, 2, vb.).
--consout Dosya
Çıktı kümesi konsensüs dizileri Dosya. Her küme için bir
çoklu hizalama hesaplanır ve bir konsensüs dizisi şu şekilde oluşturulur:
her sütundan çoğunluk sembolünü (nükleotid veya boşluk) alarak
hizalama. Boşlukların çoğunu içeren sütunlar, aşağıdakiler dışında atlanır:
terminal boşlukları
--İD gerçek
ile ikili kimlik varsa, hedefi kümeye eklemeyin.
centroid daha düşük gerçek (0.0 ile 1.0 arasında değişen değer dahil). NS
ikili kimlik (eşleşen sütunlar) / sayısı olarak tanımlanır
(hizalama uzunluğu - terminal boşlukları). Bu tanım şu şekilde değiştirilebilir:
--iddef.
--iddef 0|1|2|3|4
--id içinde kullanılan ikili kimlik tanımını değiştirin. Kabul edilen değerler şunlardır:
0. CD-HIT tanımı: (eşleşen sütunlar) / (en kısa sıra
uzunluk).
1. düzenleme mesafesi: (eşleşen sütunlar) / (hizalama uzunluğu).
2. terminal boşlukları hariç mesafeyi düzenleyin ( --id ile aynı).
3. Genişletilmiş her boşluğu sayan Marine Biological Lab tanımı
(dahili veya terminal) tek bir fark olarak: 1.0 -
[(uyumsuzluklar + boşluklar)/(en uzun dizi uzunluğu)]
4. BLAST tanımı, bir bağlamda --iddef 2'ye eşdeğer
küresel ikili hizalama.
--msaout Dosya
Her biri için bir çoklu dizi hizalaması ve bir konsensüs dizisi çıktısı alın
küme Dosya, fasta formatında. Konsensüs dizisi
her birinden çoğunluk sembolü (nükleotit veya boşluk) alınarak inşa edilmiştir.
hizalama sütunu. Boşlukların çoğunu içeren sütunlar
terminal boşlukları dışında atlandı.
--qmaske hiçbiri|toz|yumuşak
kullanarak dizilerdeki basit tekrarları ve düşük karmaşıklıktaki bölgeleri maskeleyin. toz
ya da yumuşak algoritmalar veya maskeleme (Yok). Uyarı, kullanırken yumuşak
maskeleme, kümeleme büyük/küçük harfe duyarlı hale gelir. Varsayılan, kullanarak maskelemektir.
toz.
--sizein Giriş fasta'sında bulunan bolluk ek açıklamalarını dikkate alın
dosya ("[>;]size=" kalıbını arayın)tamsayı[;]" dizi başlıklarında).
--sizeout
Çıktı fasta dosyalarına bolluk ek açıklamaları ekleyin (desen ekleyin
";boyut=tamsayı;" başlıkları sıralamak için). --sizein belirtilirse, bolluk
ek açıklamalar çıktı dosyalarına bildirilir ve her küme merkezi
toplam bolluğuna karşılık gelen yeni bir bolluk değeri alır.
kümeye dahil edilen amplikonlar (--centroids seçeneği). --sizein değilse
belirtilen, giriş bollukları amplikonlar için 1'e ve sayıya
merkezler için küme başına amplikon sayısı.
--iplik artı|her ikisi
Dizileri küme çekirdeğiyle karşılaştırırken, aşağıdakileri kontrol edin: artı sadece iplik
(varsayılan) veya kontrol edin her ikisi de iplikçikler.
--İş Parçacığı pozitif tamsayı
Kullanılacak hesaplama iş parçacığı sayısı (1 ila 256). iş parçacığı sayısı
mevcut CPU çekirdeği sayısına eşit veya daha az olmalıdır. NS
varsayılan, mevcut tüm kaynakları kullanmak ve her biri için bir iş parçacığı başlatmaktır.
mantıksal çekirdek
--uc Dosya
Çıktı kümeleme sonuçları Dosya uclust benzeri bir format kullanarak. için
biçimin açıklaması, bkz.
<http://www.drive5.com/usearch/manual/ucout.html>.
--kullanıcı sıralaması
--cluster_smallmem kullanırken, yalnızca bir dizi giriş sırasına değil, herhangi bir dizi giriş sırasına izin verin.
azalan uzunluk sıralaması.
Çoğu arama seçeneği, kümeleme için de geçerlidir:
--alnout, --blast6out, --fastapairs, --matched, --notmatched, --maxaccept,
--maxreject, --samout, --userout, --userfields, puan filtreleme, boşluk
cezalar, maskeleme. (Arama bölümüne bakın).
Dereplication seçenekleri:
--derep_fulllength Dosya
İçinde bulunan kesinlikle aynı dizileri birleştir Dosya. Birebir aynı
diziler, aynı uzunluğa ve aynı diziye sahip olarak tanımlanır.
nükleotidler (büyük/küçük harfe duyarsız, T ve U aynı kabul edilir).
--maxbenzersiz boyut pozitif tamsayı
Şundan daha büyük bir bolluk değerine sahip dizileri atın tamsayı.
--miniquesize pozitif tamsayı
Şundan daha küçük bir bolluk değerine sahip dizileri atın tamsayı.
--çıktı Dosya
Dereplike edilen dizileri şuraya yazın: Dosya, fasta formatında ve sıralanmış
bolluğu azaltarak. Özdeş diziler, başlığın başlığını alır.
gruplarının ilk dizisi. --sizeout kullanılırsa,
her dizinin oluşumları (yani bolluğu) sonunda gösterilir
";size=" kalıbını kullanan fasta başlıklarıtamsayı;".
--sizein Giriş fasta'sında bulunan bolluk ek açıklamalarını dikkate alın
dosya ("[>;]size=" kalıbını arayın)tamsayı[;]" dizi başlıklarında).
--sizeout
Çıktı fasta dosyasına bolluk ek açıklamaları ekleyin (desen ekleyin
";boyut=tamsayı;" başlıkları sıralamak için). --sizein belirtilirse, her biri
benzersiz dizi, toplamına karşılık gelen yeni bir bolluk değeri alır
bolluk (oluşmalarının bolluklarının toplamı). --sizein değilse
belirtilmiş, giriş bollukları 1'e ayarlanmıştır ve her benzersiz dizi
oluşum sayısına karşılık gelen yeni bir bolluk değeri alır
giriş dosyasında.
--iplik artı|her ikisi
Kesinlikle aynı dizileri ararken, kontrol edin. artı iplik
yalnızca (varsayılan) veya kontrol edin her ikisi de iplikçikler.
--topn pozitif tamsayı
Sadece üst çıktı tamsayı diziler (yani en bol).
--uc Dosya
Çıktı dereplication sonuçları Dosya uclust benzeri bir format kullanarak. için
biçimin açıklaması, bkz.
<http://www.drive5.com/usearch/manual/ucout.html>. Bağlamında
dereplication, --uc_allhits seçeneğinin --uc çıktısı üzerinde hiçbir etkisi yoktur.
Maskeleme seçenekleri:
Bir giriş dizisi, küçük veya büyük harfli nükleotitlerden oluşabilir. küçük harf
--qmask soft olmadığı sürece, nükleotidler maskelemeden önce sessizce büyük harfe ayarlanır.
seçeneği kullanılır. İşte birleştirilmiş maskeleme seçeneklerinin sonuçları --qmask (veya
--dbmask veri tabanı dizileri için) ve --hardmask, her bir giriş dizisini varsayarsak
hem küçük hem de büyük nükleotitleri içerir:
qmask hardmask eylemi
──────────────────────────────────────────── ───────────────
hiçbiri kapalı maskeleme yok, tüm semboller büyük harfle yazılmış
hiçbiri maskeleme yok, tüm semboller büyük harfle yazılmış
maskeli semboller küçük harflerle, diğerleri büyük harflerle
maskeli sembollerdeki toz Ns olarak değiştirildi, diğerleri büyük harfle
yumuşak kapalı küçük harf sembolleri maskelenir, büyük/küçük harf değişikliği olmaz
küçük harfli semboller maskelendi ve Ns olarak değiştirildi
-- hardmask
Düşük karmaşıklık bölgelerini ayarlamak yerine Ns ile değiştirerek maskeleyin
onları küçük harfe çevirin.
--maskfasta Dosya
İçerilen dizilerdeki basit tekrarları ve düşük karmaşıklıktaki bölgeleri maskeleyin.
Dosya. Varsayılan, kullanarak maskelemektir. toz (bunu değiştirmek için --qmask kullanın
davranış).
--çıktı Dosya
Maskelenmiş dizileri şuraya yazın: Dosya, fasta formatında.
--qmaske hiçbiri|toz|yumuşak
kullanarak dizilerdeki basit tekrarları ve düşük karmaşıklıktaki bölgeleri maskeleyin. toz
ya da yumuşak algoritmalar veya maskeleme (Yok). Varsayılan, maskelemektir
kullanma toz.
--İş Parçacığı pozitif tamsayı
Kullanılacak hesaplama iş parçacığı sayısı (1 ila 256). iş parçacığı sayısı
mevcut CPU çekirdeği sayısına eşit veya daha az olmalıdır. NS
varsayılan, mevcut tüm kaynakları kullanmak ve her biri için bir iş parçacığı başlatmaktır.
mantıksal çekirdek
İkili hizalama seçenekleri:
n * (n - 1) / 2 ikili hizalamanın sonuçları sonuca yazılır
--alnout, --blast6out, --fastapairs --matched, --notmatched ile belirtilen dosyalar,
--samout, --uc veya --userout (aşağıdaki Arama bölümüne bakın). Şunlardan birini belirtin:
--acceptall seçeneği, tüm ikili hizalamaların çıktısını alma veya bir kimlik düzeyi belirleme
zayıf hizalamaları atmak için --id ile. Diğer çoğu kabul/red seçeneği (bkz.
Aşağıdaki arama seçenekleri) de kullanılabilir. Sıralar onların üzerine hizalanır artı
sadece ip.
--hepsini kabul et
Tüm hizalamaların sonuçlarını çıktı dosyalarına yazın. Bu seçenek geçersiz kılar
diğer tüm kabul/red seçenekleri ( --id dahil).
--allpairs_global Dosya
Hepsine karşı tüm fasta dizilerinin optimal global ikili hizalamalarını gerçekleştirin
içerdiği Dosya. Bu komut çok iş parçacıklıdır.
--İD gerçek
Eğer ikili özdeşlik şundan düşükse dizi eşleşmesini reddet. gerçek
(0.0 ile 1.0 arasında değişen değer dahil).
--İş Parçacığı pozitif tamsayı
Kullanılacak hesaplama iş parçacığı sayısı (1 ila 256). iş parçacığı sayısı
mevcut CPU çekirdeği sayısına eşit veya daha az olmalıdır. NS
varsayılan, mevcut tüm kaynakları kullanmak ve her biri için bir iş parçacığı başlatmaktır.
mantıksal çekirdek
Arama seçenekleri:
--hepsi dışarı Dosya
için ikili küresel hizalamalar yazın Dosya insan tarafından okunabilir kullanarak
biçim. Hizalama uzunluğunu değiştirmek için --rowlen kullanın. Çıkış sırası değişebilir
birden fazla iş parçacığı kullanırken.
--blast6out Dosya
Arama sonuçlarını şuraya yaz: Dosya patlama benzeri sekmeyle ayrılmış bir format kullanma
on iki alandan (aşağıda listelenmiştir), her sorgu hedefi eşleşmesi için bir satır
(veya --output_no_hits kullanılıyorsa eşleşme eksikliği). Çıkış sırası değişebilir
birden fazla iş parçacığı kullanırken. --userout ile benzer bir çıktı elde edilebilir
Dosya ve --userfields
sorgu+target+id+alnlen+mism+opens+qlo+qhi+tlo+thi+evalue+bits. Tam
liste ve açıklama bu belgenin "Kullanıcı Alanları" bölümünde mevcuttur.
manuel.
1. sorgu: sorgu etiketi.
2. hedef: hedef (veritabanı dizisi) etiketi. Alan olarak ayarlandı
"*" hizalama yoksa.
3. id: özdeşlik yüzdesi (0.0 ile XNUMX arasında değişen gerçek değer
100.0). Yüzde kimliği 100 * olarak tanımlanır (eşleşen
sütunlar) / (hizalama uzunluğu - terminal boşlukları). id0 alanlarına bakın
diğer tanımlar için id4'e.
4. alnlen: sorgu hedefi hizalamasının uzunluğu (sayı
sütunlar). Hizalama yoksa alan 0'a ayarlanır.
5. aynı: hizalamadaki uyumsuzluk sayısı (sıfır veya pozitif
tamsayı değeri).
6. açılır: boşluk içeren sütun sayısı (sıfır veya
pozitif tam sayı değeri).
7. qlo: hedefle hizalanmış sorgunun ilk nükleotidi.
Bir hizalama varsa her zaman 1'e, aksi takdirde 0'a eşittir.
8. qi: hedefle hizalanmış sorgunun son nükleotidi.
Her zaman ikili hizalamanın uzunluğuna eşittir. Alan
hizalama yoksa 0'a ayarlanır.
9. TLO: sorgu ile hizalanmış hedefin ilk nükleotidi.
Bir hizalama varsa her zaman 1'e, aksi takdirde 0'a eşittir.
10 thi: sorgu ile hizalanmış hedefin son nükleotidi.
Her zaman ikili hizalamanın uzunluğuna eşittir. Alan
hizalama yoksa 0'a ayarlanır.
11 değerlendirmek: beklenti değeri (nükleotid için hesaplanmadı
hizalamalar). Her zaman -1 olarak ayarlayın.
12 bit: bit puanı (nükleotid hizalamaları için hesaplanmaz).
Her zaman 0'a ayarlayın.
--db Dosya
Sorgu dizilerini ( --usearch_global ile belirtilir) fasta- ile karşılaştırın.
içinde yer alan biçimlendirilmiş hedef diziler Dosya, küresel ikili kullanarak
hizalaması.
--db maskesi hiçbiri|toz|yumuşak
Hedef veritabanında basit tekrarları ve düşük karmaşıklıktaki bölgeleri maskeleyin
kullanan diziler toz ya da yumuşak algoritmalar veya maskeleme (Yok).
Uyarı, kullanırken yumuşak maskeleme arama komutları büyük/küçük harfe duyarlı hale gelir.
Varsayılan, kullanarak maskelemektir. toz.
--dbeşleşti Dosya
En az bir sorgu dizisiyle eşleşen veritabanı hedef dizilerini yazın.
Dosya, fasta formatında. --sizeout seçeneği kullanılırsa,
her bir hedef diziyle eşleşen sorgular, kalıp kullanılarak belirtilir
";boyut=tamsayı;".
--dbeşleşmemiş Dosya
Sorgu dizileriyle eşleşmeyen veritabanı hedef dizilerini yaz Dosya,
fasta formatında.
--hızlı Dosya
Sorgu ve hedef dizilerinin ikili hizalamalarını şuraya yazın: Dosya, içinde
fasta formatı.
--fuldp Usearch ile uyumluluk için sahte seçenek. Aramayı en üst düzeye çıkarmak için
duyarlılık, vsearch 8-yollu 16-bit SIMD vektörlü tam dinamik kullanır
programlama algoritması (Needleman-Wunsch), --fulldp olsun veya olmasın
belirtildi.
--gapext dizi
Bir boşluk uzantısı için cezalar belirleyin. Tamamı için --gapopen'e bakın
ceza beyan sisteminin tanımı. Varsayılan
için 2 ceza kullanarak altı boşluk genişletme cezasını başlatın.
iç boşlukları genişletmek ve terminal boşluklarını genişletmek için 1 ceza
hem sorgu hem de hedef diziler (yani 2I/1E).
--gapopen dizi
Bir boşluk açılması için cezalar belirleyin. Altı farklı şekilde bir boşluk açılması meydana gelebilir.
bağlamlar: sorguda (Q) veya hedef (T) dizisinde, solda (L)
veya dizinin sağ (R) ucu veya (I) dizisinin içinde.
Sıra sembolleri (Q ve T), konum sembolleri (L, I,
ve R) ve olası tüm cezaları beyan etmek için sayısal değerler
bağlamlar: aQL/bQI/cQR/dTL/eTI/fTR, burada abcdef sıfır veya pozitiftir
tamsayılar ve "/" ayırıcı olarak kullanılır.
Bildirimleri basitleştirmek için konum sembolleri (L, I ve R) şu şekilde olabilir:
kombine edildiğinde (E) sembolü her iki ekstremiteyi (L ve R) tedavi etmek için kullanılabilir.
eşit olarak ve sorgu ve hedefi ele almak için Q ve T sembolleri ihmal edilebilir.
eşit sıralar. Örneğin, varsayılan 20 ceza beyan etmektir.
iç boşlukları açmak için ve terminal boşluklarını açmak için 2 ceza
(sol veya sağ), hem sorgu hem de hedef dizilerde (yani 20I/2E). Keşke
herhangi bir sıra veya konum sembolü olmadan sayısal bir değer verilir, ardından
ceza tüm boşluk açıklıkları için geçerlidir. Boşluk açmayı yasaklamak için, bir
sonsuz ceza değeri "*" sembolü ile bildirilebilir. Kullanmak vsearch
yarı küresel bir hizalayıcı olarak, sola (L) bir boş ceza uygulanabilir veya
sağ (R) boşluklar.
vsearch varsayılanı kullanarak her zaman altı boşluk açma cezasını başlatır
parametreler (20I/2E). Kullanıcı daha sonra yalnızca değerleri bildirmekte özgürdür.
değiştirmek istiyor. NS dizi soldan sağa taranır, kabul edilir
semboller (0123456789/LIREQT*) ve sonraki değerler öncekini geçersiz kılar
değerleri.
Unutmayın ki vsearch, usearch'ün aksine, yalnızca tamsayı boşluğuna izin verir
cezalar. En düşük boşluk cezaları, kullanımda varsayılan olarak 0.5 olduğundan,
tüm varsayılan puanlar ve boşluk cezaları vsearch ikiye katlandı
eşdeğer cezaları sürdürmek ve aynı hizalamaları oluşturmak.
-- hardmask
Düşük karmaşıklık bölgelerini ayarlamak yerine Ns ile değiştirerek maskeleyin
onları küçük harfe çevirin. Daha fazla bilgi için lütfen Maskeleme bölümüne bakın.
--İD gerçek
Eğer ikili özdeşlik şundan düşükse dizi eşleşmesini reddet. gerçek
(0.0 ile 1.0 arasında değişen değer dahil). Arama süreci hedefi sıralar
sayısı azaltılarak diziler kile ortak yönleri olan
sorgu dizisi, bu bilgiyi dizi benzerliği için bir proxy olarak kullanır.
Bu verimli ön filtreleme, aynı zamanda ikili hizalamaları da önleyecektir.
en az 6 paylaşılan olması gerektiğinden, zayıf eşleşen hedefler k-mers için
ikili hizalamayı başlatın ve her 16 kişiden en az birini k-mers'den
sorgunun hedefle eşleşmesi gerekir. Sonuç olarak, daha düşük değerler kullanmak
--id 0.5'in daha zayıf eşleşen hedefleri yakalaması olası değildir. NS
ikili kimlik, varsayılan olarak (eşleşen) sayısı olarak tanımlanır.
sütunlar) / (hizalama uzunluğu - terminal boşlukları). Bu tanım olabilir
--iddef tarafından değiştirildi.
--iddef 0|1|2|3|4
--id içinde kullanılan ikili kimlik tanımını değiştirin. Kabul edilen değerler şunlardır:
0. CD-HIT tanımı: (eşleşen sütunlar) / (en kısa sıra
uzunluk).
1. düzenleme mesafesi: (eşleşen sütunlar) / (hizalama uzunluğu).
2. terminal boşlukları hariç mesafeyi düzenleyin ( --id ile aynı).
3. Genişletilmiş her boşluğu sayan Marine Biological Lab tanımı
(dahili veya terminal) tek bir fark olarak: 1.0 -
[(uyumsuzluklar + boşluklar)/(en uzun dizi uzunluğu)]
4. BLAST tanımı, bir bağlamda --iddef 2'ye eşdeğer
küresel ikili hizalama.
--userfields seçeneği, aşağıdakilere ek olarak id0 ila id4 alanlarını kabul eder.
alan kimliği, karşılık gelen ikili kimlik değerlerini bildirmek için
farklı tanımlar
--idprefix pozitif tamsayı
İlki varsa dizi eşleşmesini reddet tamsayı hedefin nükleotidleri
sorguyla eşleşmiyor.
--idsufix pozitif tamsayı
Sonuncusu ise dizi eşleşmesini reddet. tamsayı hedefin nükleotidleri
sorguyla eşleşmiyor.
--sol sağ
İkili hizalama boşluklarla başlıyorsa dizi eşleşmesini reddedin.
--kibrit tamsayı
Bir eşleşmeye atanan puan (yani aynı nükleotitler) ikili olarak
hizalama. Varsayılan değer 2'dir.
-- eşleşti Dosya
Veritabanı hedef dizileriyle eşleşen sorgu dizileri yaz Dosya, içinde
fasta formatı.
--maxkabul eder pozitif tamsayı
Aramayı durdurmadan önce kabul edilecek maksimum isabet sayısı. Varsayılan
değer 1'dir. Bu seçenek --maxrejects ile birlikte çalışır. Araştırma
süreç, hedef dizileri sayısını azaltarak sıralar. k-içlerinde bulunanlar
için bir proxy olarak bu bilgiyi kullanarak, sorgu dizisi ile ortak
dizi benzerliği İkili hizalamalardan sonra, eğer ilk hedef
dizi kabul kriterlerini geçer, en iyi vuruş olarak kabul edilir ve
arama işlemi o sorgu için durur. --maxaccepts bir olarak ayarlanmışsa
daha yüksek değer, daha fazla isabet kabul edilir. --maxaccepts ve --maxrejects ise
her ikisi de 0'a ayarlandığında, tüm veritabanı aranır.
--maxdiffs pozitif tamsayı
Hizalama en az şunları içeriyorsa dizi eşleşmesini reddet tamsayı
değiştirmeler, eklemeler veya silmeler.
--maxgaps pozitif tamsayı
Hizalama en az şunları içeriyorsa dizi eşleşmesini reddet tamsayı
eklemeler veya silmeler.
--maxhits pozitif tamsayı
Arama sonlandırıldığında gösterilecek maksimum isabet sayısı (isabetler
azalan özdeşliğe göre sıralanır). Varsayılan olarak sınırsız. Bu seçenek geçerlidir
--alnout, --blast6out, --fastapairs, --samout, --uc veya --userout
çıktı dosyaları.
--maksid gerçek
İkisi arasındaki özdeşlik yüzdesi varsa dizi eşleşmesini reddet
diziler daha büyüktür gerçek.
--maxqsize pozitif tamsayı
Şundan büyük bir bolluğa sahip sorgu dizilerini reddet tamsayı.
--maxqt gerçek
Sorgu/hedef dizi uzunluğu oranı şu değerden büyükse reddet gerçek.
--maxreddediyor pozitif tamsayı
Daha önce dikkate alınması gereken maksimum eşleşmeyen hedef dizi sayısı
aramayı durdurma. Varsayılan değer 32'dir. Bu seçenek çift olarak çalışır
--maxaccepts ile. Arama işlemi, hedef dizileri azaltarak sıralar.
sayısını k-mers, bunu kullanarak, sorgu dizisiyle ortak noktalarına sahiptir.
dizi benzerliği için bir vekil olarak bilgi. İkili hizalamalardan sonra,
incelenen ilk 32 hedef diziden hiçbiri kabulü geçmezse
ölçütler, arama işlemi o sorgu için durur (isabet yok). Eğer
--maxrejects daha yüksek bir değere ayarlanır, daha fazla hedef dizi
dikkate alınan. --maxaccepts ve --maxrejects'in ikisi de 0'a ayarlanırsa,
tam veritabanı aranır.
--maxsizeratio gerçek
Sorgu/hedef bolluk oranı şundan büyükse reddet gerçek.
--maxsl gerçek
Daha kısa/uzun dizi uzunluğu oranı şu değerden büyükse reddet gerçek.
--maxsubs pozitif tamsayı
İkili hizalama aşağıdakilerden fazlasını içeriyorsa dizi eşleşmesini reddet.
tamsayı ikameler.
--orta gerçek
Özdeşlik yüzdesi şu değerden düşükse dizi eşleşmesini reddet. gerçek
(tüm boşlukları, dahili ve terminali yok sayarak).
--mincols pozitif tamsayı
Hizalama uzunluğu aşağıdakinden daha kısaysa dizi eşleşmesini reddet. tamsayı.
--minqt gerçek
Sorgu/hedef dizi uzunluğu oranı şu değerden düşükse reddet gerçek.
--minsizasyon oranı gerçek
Sorgu/hedef bolluk oranı şundan düşükse reddet gerçek.
--minsl gerçek
Daha kısa/uzun dizi uzunluğu oranı şu değerden düşükse reddet. gerçek.
--nane boyutu pozitif tamsayı
Daha düşük bir bolluğa sahip hedef dizileri reddet tamsayı.
--uyumsuzluk tamsayı
İkili olarak bir uyumsuzluğa (yani farklı nükleotidlere) atanan puan
hizalama. Varsayılan değer -4'tür.
--eşleşmedi Dosya
Veritabanı hedef dizileriyle eşleşmeyen sorgu dizileri yaz Dosya,
fasta formatında.
--output_no_hits
Hem eşleşen hem de eşleşmeyen sorguları --alnout, --blast6out,
--samout veya --userout çıktı dosyaları (--uc ve --uc_allhits çıktı dosyaları)
her zaman eşleşmeyen sorguları içerir). Eşleşmeyen sorgular etiketlenir
--alnout dosyalarında "İsabet yok".
--qmaske hiçbiri|toz|yumuşak
kullanarak sorgu dizilerinde basit tekrarları ve düşük karmaşıklıklı bölgeleri maskeleyin.
the toz ya da yumuşak algoritmalar veya maskeleme (Yok). Uyarı, ne zaman
kullanma yumuşak maskeleme arama komutları büyük/küçük harfe duyarlı hale gelir. Varsayılan
kullanarak maskelemek toz.
--query_cov gerçek
Sorgunun hedef diziyle hizalanmış kısmı ise reddet.
daha düşük gerçek. Sorgu kapsamı şu şekilde hesaplanır (eşleşmeler + uyumsuzluklar)
/ sorgu dizisi uzunluğu. Dahili veya terminal boşlukları dikkate alınmaz
hesap.
--doğru
İkili hizalama boşluklarla bitiyorsa dizi eşleşmesini reddet.
--rowlen pozitif tamsayı
--alnout çıktısındaki hizalama çizgilerinin genişliği. Varsayılan değer 64'tür.
sarmayı ortadan kaldırmak için 0'a.
--samout Dosya
Hizalama sonuçlarını şuraya yaz: Dosya SAM formatında. Açıklama için
biçimi için bkz. . Çıkış sırası
birden çok iş parçacığı kullanıldığında değişebilir.
--kendi Sorgu ve hedef etiketleri aynıysa sıra eşleşmesini reddet.
--kendine özgü Sorgu ve hedef diziler kesinlikle doğruysa dizi eşleşmesini reddet.
özdeş.
--sizeout
--dbmatched seçeneğinin çıktısına bolluk ek açıklamaları ekleyin (kullanarak
desen ";boyut=tamsayı;"), sorguların sayısını bildirmek için
her hedefle eşleşti.
--iplik artı|her ikisi
Benzer dizileri ararken, kontrol edin. artı sadece iplikçik (varsayılan)
veya kontrol et her ikisi de iplikçikler.
--target_cov gerçek
Hedef dizinin kesri hizalıysa dizi eşleşmesini reddet
sorgu dizisine göre daha düşüktür gerçek. Hedef kapsama hesaplanır
as (eşleşir + uyumsuzluklar) / hedef dizi uzunluğu. Dahili veya terminal
boşluklar dikkate alınmaz.
--İş Parçacığı pozitif tamsayı
Kullanılacak hesaplama iş parçacığı sayısı (1 ila 256). iş parçacığı sayısı
mevcut CPU çekirdeği sayısına eşit veya daha az olmalıdır. NS
varsayılan, mevcut tüm kaynakları kullanmak ve her biri için bir iş parçacığı başlatmaktır.
mantıksal çekirdek
--top_hits_only
Yalnızca en yüksek kimlik yüzdesine sahip isabetlerin çıktısını alın.
sorgu.
--uc Dosya
Çıktı arama sonuçları Dosya uclust benzeri bir format kullanarak. için
biçimin açıklaması, bkz.
<http://www.drive5.com/usearch/manual/ucout.html>. Çıkış sırası değişebilir
birden fazla iş parçacığı kullanırken.
--uc_allhits
--uc seçeneğini kullanırken, her biri için yalnızca en yüksek isabeti değil, tüm isabetleri göster
sorgu.
--usearch_global Dosya
Hedef dizileri (--db) fasta formatlı sorgu dizileriyle karşılaştırın
içerdiği Dosya, küresel ikili hizalamayı kullanarak.
--kullanıcı alanları dizi
--userout kullanırken, çıktıya yazılan alanları seçin ve sıralayın
dosya. Alanlar "+" ile ayrılır (ör. sorgu+hedef+kimlik). Bkz.
Alanların tam listesi için "Kullanıcı Alanları" bölümü.
--kullanıcı çıkışı Dosya
Kullanıcı tanımlı sekmeyle ayrılmış çıktıyı şuraya yaz: Dosya. alanları seçin
--userfields seçeneği ile. Birden çok kullanıldığında çıktı sırası değişebilir
İş Parçacığı. --userfields boşsa veya yoksa, Dosya boş.
--weak_id gerçek
En az kimlik yüzdesine sahip isabetleri göster gerçek, olmadan
aramayı sonlandırıyor. Normal arama, yeterli sayıda sonuç elde edilir edilmez durur.
bulundu (--maxaccepts, --maxrejects ve --id ile tanımlandığı gibi). --weak_id olarak
--maxaccepts, yüksek --id değerlerinden çıkarılmayan zayıf isabetleri bildirir
kullanılabilir, dolayısıyla hem hız hem de hassasiyet korunur. mantıksal olarak gerçek
--id ile gösterilen değerden daha küçük olmalıdır.
--kelime uzunluğu pozitif tamsayı
Kelimelerin uzunluğu (yani k-mers) veritabanı indeksleme için. mümkün aralığı
değerler 3'ten 15'e kadar gider, ancak genellikle 8'e yakın değerler önerilir.
Daha uzun kelimeler, zayıf benzerlikler için duyarlılığı azaltabilir, ancak
doğruluğu artırın. Öte yandan, daha kısa kelimeler artabilir.
duyarlılık, ancak doğruluğu azaltabilir. Hesaplama süresi genellikle
kısa kelimelerle artar ve uzun kelimelerle azalır. Hafıza
endeksin bir kısmı için gereksinimler, her seferinde 4 faktörü ile artar
kelime uzunluğu bir nükleotit kadar artar ve bu genellikle
uzun kelimeler için önemlidir (12 veya daha fazla). Varsayılan değer 8'dir.
Karıştırma seçenekleri:
--çıktı Dosya
Karıştırılan dizileri şuraya yazın: Dosya, fasta formatında.
--tohum pozitif tamsayı
Sıralama sırasını karıştırırken şunu kullanın: tamsayı tohum olarak. Belirli bir tohum olacak
her zaman aynı çıktı sırasını üretin (tekrarlanabilirlik için kullanışlıdır). 0'a ayarla
sözde rastgele bir tohum kullanmak için (varsayılan davranış).
--Karıştır Dosya
İçinde bulunan dizilerin sırasını sözde rastgele karıştır Dosya.
--topn pozitif tamsayı
Sadece üst çıktı tamsayı dizileri.
Sıralama seçenekleri:
Fasta girişleri, azalan bolluğa (--sortbysize) veya dizi uzunluğuna göre sıralanır
(--sıralama uzunluğu). Kararlı bir sıralama düzeni elde etmek için bağlar azalan şekilde sıralanır.
bolluk ve etiket artan alfasayısal düzen (--sortbylength) veya sadece
etiket artan alfasayısal sıra (--sortbysize). Etiket sıralama şunu varsayar:
tüm dizilerin benzersiz etiketleri vardır. Aynısı otomatik sıralama için de geçerlidir
kimera denetimi (--uchime_denovo), çoğaltma sırasında gerçekleştirilen
(--derep_fulllength) ve kümeleme (--cluster_fast ve --cluster_size).
--maxsize pozitif tamsayı
--sortbysize kullanırken, bolluk değeri daha büyük olan dizileri atın
göre tamsayı.
--minsize pozitif tamsayı
--sortbysize kullanırken, bolluk değeri daha küçük olan dizileri atın
göre tamsayı.
--çıktı Dosya
Sıralanan dizileri yazın Dosya, fasta formatında.
--yeniden etiketle dizi
Ön eki kullanarak sırayı yeniden etiketleyin dizi ve bir ticker (1, 2, 3, vb.)
yeni başlıkları oluşturun. Bolluğu korumak için --sizeout kullanın
ek açıklamalar.
--sizeout
--relabel kullanırken, bolluk ek açıklamalarını hızlı çıktıya bildirin
dosya (";size=" kalıbını kullanarak)tamsayı;").
--sıralama uzunluğu Dosya
İçindeki dizilerin uzunluğunu azaltarak sırala Dosya. Bakın
genel seçenekler --minseqlength ve --maxseqlength kısa devreyi ortadan kaldırmak için ve
uzun diziler.
--Boyuta göre sırala Dosya
İçindeki dizilerin bolluğunu azaltarak sırala Dosya (
desen "[>;]boyut=tamsayı[;]" mevcut olmalıdır). Seçeneklere bakın
--minsize ve --maxsize nadir ve baskın dizileri ortadan kaldırmak için.
--topn pozitif tamsayı
Sadece üst çıktı tamsayı diziler (yani en uzun veya en
bolluk).
Kullanıcı Alanları ( --userfields seçeneği tarafından kabul edilen alanlar):
aln M (eşleştirme), D (silme, yani sorgudaki bir boşluk) dizesini yazdırın ve I
(insert, yani hedefte bir boşluk) ikili hizalamayı temsil eder.
Hizalama yoksa boş alan.
alnlen Sorgu hedefi hizalamasının uzunluğunu yazdırın (sütun sayısı). NS
hizalama yoksa alan 0'a ayarlanır.
bit Bit puanı (nükleotid hizalamaları için hesaplanmaz). Her zaman 0'a ayarlayın.
kaln CIGAR formatı kullanılarak ikili hizalamanın kompakt gösterimi
(Kompakt Özgün Boşluklu Hizalama Raporu): M (eşleşme), D (silme)
ve ben (ekleme). Hizalama yoksa boş alan.
değerlendirmek E-değeri (nükleotid hizalamaları için hesaplanmamıştır). Her zaman -1 olarak ayarlayın.
Exts Boşluk uzantısı içeren sütun sayısı (sıfır veya pozitif tam sayı
değeri).
boşluklar Boşluk içeren sütun sayısı (sıfır veya pozitif tam sayı değeri).
id Kimlik yüzdesi (0.0 ile 100.0 arasında değişen gerçek değer). NS
yüzde kimliği 100 * (eşleşen sütunlar) / (hizalama) olarak tanımlanır
uzunluk - terminal boşlukları).
id0 Kimlik yüzdesinin CD-HIT tanımı (gerçek değer arasında değişen
0.0 ila 100.0) ikili olarak en kısa dizinin uzunluğunu kullanarak
payda olarak hizalama: 100 * (eşleşen sütunlar) / (en kısa sıra
uzunluk).
id1 Özdeşlik yüzdesi (0.0 ile 100.0 arasında değişen gerçek değer)
düzenleme mesafesi olarak tanımlandı: 100 * (eşleşen sütunlar) / (hizalama
uzunluk).
id2 Özdeşlik yüzdesi (0.0 ile 100.0 arasında değişen gerçek değer)
terminal boşlukları hariç düzenleme mesafesi olarak tanımlanır. id2 alanı bir
alan kimliği için takma ad.
id3 Kimlik yüzdesinin Marine Biological Lab tanımı (gerçek değer
0.0 ile 100.0 arasında değişen, her bir uzatılmış boşluğu sayarak (dahili veya
terminal) tek bir fark olarak ve en uzun olanın uzunluğunu kullanarak
payda olarak ikili hizalamadaki sıra: 100 * (1.0 -
[(uyumsuzluklar + boşluklar) / (en uzun dizi uzunluğu)]).
id4 Kimlik yüzdesinin BLAST tanımı (arasında değişen gerçek değer
0.0 ila 100.0), küresel ikili bağlamında --iddef 2'ye eşdeğer
hizalaması.
kimlikleri Hizalamadaki eşleşme sayısı (sıfır veya pozitif tamsayı değeri).
aynı Hizalamadaki uyumsuzlukların sayısı (sıfır veya pozitif tamsayı değeri).
açılır Boşluk açıklığı içeren sütun sayısı (sıfır veya pozitif tam sayı
değeri).
çiftleri Yalnızca nükleotidleri içeren sütun sayısı. Bu değer karşılık gelir
hizalamanın uzunluğu eksi boşluk içeren sütunlar (sıfır veya
pozitif tam sayı değeri).
pct boşlukları Yüzdesi olarak ifade edilen boşlukları içeren sütun sayısı
hizalama uzunluğu (0.0 ile 100.0 arasında değişen gerçek değer).
pctpv Pozitif sütunların yüzdesi. Nükleotid dizileriyle çalışırken,
bu, eşleşme yüzdesine eşdeğerdir (gerçek değer
0.0 ila 100.0).
pv Pozitif sütun sayısı. Nükleotid dizileriyle çalışırken, bu
eşleşme sayısına (sıfır veya pozitif tamsayı değeri) eşdeğerdir.
qkov Hedef diziyle hizalanan sorgu dizisinin kesri
(0.0 ile 100.0 arasında değişen gerçek değer). Sorgu kapsamı şu şekilde hesaplanır:
100.0 * (eşleşmeler + uyumsuzluklar) / sorgu dizisi uzunluğu. Dahili veya
terminal boşlukları dikkate alınmaz. Varsa alan 0.0 olarak ayarlanır
hizalama yok.
qframe Sorgu çerçevesi (-3 ila +3). Bu alan yalnızca kodlama dizileriyle ilgilidir ve
tarafından hesaplanmadı vsearch. Her zaman +0 olarak ayarlayın.
qi Hedefle hizalanmış sorgunun son nükleotidi. Her zaman eşittir
ikili hizalamanın uzunluğu. Alan yoksa, alan 0'a ayarlanır.
hizalaması.
kihi Hedefle hizalanmış sorgunun son nükleotidi (terminal yok sayılıyor)
boşluklar). Nükleotid numaralandırması 1'den başlar. Varsa alan 0'a ayarlanır.
hizalama yok.
kilo Hedefle hizalanmış sorgunun ilk nükleotidi (ilk
boşluklar). Nükleotid numaralandırması 1'den başlar. Varsa alan 0'a ayarlanır.
hizalama yok.
ql Sorgu dizisi uzunluğu (pozitif tam sayı değeri). Alan 0 olarak ayarlanırsa
hizalama yok.
qlo Hedefle hizalanmış sorgunun ilk nükleotidi. Her zaman 1'e eşittir
hizalama varsa 0, aksi halde XNUMX.
ok Sorgu segmentinin sırasını ikili hizalamada görüldüğü gibi yazdırın
(yani, gerekirse boşluk eklemeleri ile). yoksa boş alan
hizalaması.
qs Sorgu segmenti uzunluğu. Her zaman sorgu dizisi uzunluğuna eşittir.
qstrand Sorgu ipliği oryantasyonu (+ veya - nükleotid dizileri için). boş alan ise
hizalama yok.
sorgu Sorgu etiketi.
çiğ Ham hizalama puanı (negatif, boş veya pozitif tam sayı değeri). puan
maç ödüllerinin toplamı eksi uyumsuzluk cezaları, boşluk açıklıkları ve boşluk
uzantılar. Hizalama yoksa alan 0'a ayarlanır.
hedef Hedef etiket. Hizalama yoksa alan "*" olarak ayarlanır.
tcov Sorgu dizisiyle hizalanan hedef dizinin oranı
(0.0 ile 100.0 arasında değişen gerçek değer). Hedef kapsamı şu şekilde hesaplanır:
100.0 * (eşleşmeler + uyumsuzluklar) / hedef dizi uzunluğu. Dahili veya
terminal boşlukları dikkate alınmaz. Alan 0.0 olarak ayarlanırsa
hizalama yok.
çerçeve Hedef çerçeve (-3 ila +3). Bu alan yalnızca kodlama dizileriyle ilgilidir ve
tarafından hesaplanmadı vsearch. Her zaman +0 olarak ayarlayın.
thi Sorgu ile hizalanmış hedefin son nükleotidi. Her zaman eşittir
ikili hizalamanın uzunluğu. Alan yoksa, alan 0'a ayarlanır.
hizalaması.
tihi Sorgu ile hizalanmış hedefin son nükleotidi (terminal yok sayılarak)
boşluklar). Nükleotid numaralandırması 1'den başlar. Varsa alan 0'a ayarlanır.
hizalama yok.
Ihlamur ağacı Sorgu ile hizalanmış hedefin ilk nükleotidi (başlangıçtaki
boşluklar). Nükleotid numaralandırması 1'den başlar. Varsa alan 0'a ayarlanır.
hizalama yok.
tl Hedef dizi uzunluğu (pozitif tam sayı değeri). Alan 0 olarak ayarlanırsa
hizalama yok.
TLO Sorgu ile hizalanmış hedefin ilk nükleotidi. Her zaman 1'e eşittir
hizalama varsa 0, aksi halde XNUMX.
mala Hedef segmentin sırasını ikili hizalamada görüldüğü gibi yazdırın
(yani, gerekirse boşluk eklemeleri ile). yoksa boş alan
hizalaması.
ts Hedef segment uzunluğu. Her zaman hedef dizi uzunluğuna eşittir. Alan
hizalama yoksa 0'a ayarlanır.
iki iplikçik Hedef iplik oryantasyonu (+ veya - nükleotid dizileri için). her zaman ayarla
"+", yani ters dizi eşleşmelerinde tstrand "+" ve qstrand "-" bulunur. Boş
hizalama yoksa alan.
KASTEN, KASITLI, PLANLI DEĞİŞİKLİKLER
Bir userarch kullanıcısıysanız, amacımız sizi evinizde hissettirmektir. Bu yüzden vsearch
bir dereceye kadar userarch gibi davranmak üzere tasarlanmıştır. Herhangi bir karmaşık yazılım gibi, usearch da
tuhaflıklardan ve tutarsızlıklardan arınmış değildir. Bazılarını çoğaltmamaya karar verdik ve
tam şeffaflık için, yaptığımız kasıtlı değişiklikleri burada belgelemek için.
usearch ile bir arama sırasında, --blast6out ve --output_no_hits seçeneklerini kullanırken,
Eşleşmeyen sorgular, rapor edilen alanların sayısı 13'tür ve 12 olması gerekir. Bu,
düzeltildi vsearch.
--userfields seçeneğinin ham alanı, kullanımda bilgilendirici değildir. Bu düzeltildi
in vsearch.
qlo, qhi, tlo, thi alanlarının artık karşılıkları (qilo, qihi, tilo, tihi) raporlaması var
hizalama koordinatları, terminal boşluklarını yok sayar.
Usearch'te --output_no_hits seçeneği kullanıldığında, eşleşme almayan sorgular
blast6out dosyasında rapor edildi, ancak hizalama çıktı dosyasında raporlanmadı. Bu düzeltildi
vsearch.
vsearch dizileri azaltarak sıralayan yeni bir --cluster_size komutu sunar.
kümelenmeden önce bolluk.
vsearch kaldırılan --iddef alternatif ikili kimlik tanımlarını yeniden sunar
usearch'tan.
vsearch --topn seçeneğini sıralama komutlarına genişletir.
vsearch --sizein seçeneğini çoğaltma (--derep_fulllength) ve kümelemeye genişletir
(--küme_hızlı).
vsearch replikasyon sırasında T ve U'yu özdeş nükleotidler olarak ele alır.
vsearch sıralama, dizi bolluğu veya dizi etiketleri kullanılarak stabilize edilir.
ikincil veya üçüncül anahtarlar.
YENİLİKLER
vsearch usearch 7'de bulunmayan yeni seçenekler sunar.
Bu kılavuzun "Seçenekler" bölümü. İşte kısa bir liste:
- hizalama genişliği (kimera kontrolü)
- cluster_size (kümeleme)
- fasta_width (genel seçenek)
- iddef (kümeleme, ikili hizalama, arama)
- maxuniquesize (çoğaltma)
- karıştırmak (karıştırmak)
ÖRNEKLER
Bir veritabanındaki tüm dizileri birbiriyle hizalayın ve tüm ikili hizalamaları çıktılayın:
vsearch --allpairs_global veritabanı.fas --hepsi dışarı sonuçlar.aln --hepsini kabul et
Kimeraların varlığını kontrol edin (de yeni); ebeveynler en az 1.5 kat daha fazla olmalı
kimeralardan daha bol. Fasta formatında kimerik olmayan diziler çıktısı alın (sarma yok):
vsearch --uchime_denovo sorgular.fas --kimera olmayanlar sonuçlar.fas --fasta_genişlik 0
--abskew 1.5
%97 benzerlik eşiğine sahip küme, küme ağırlık merkezlerini toplayın ve küme yazın
uclust benzeri bir format kullanan açıklamalar:
vsearch --cluster_fast sorgular.fas --id 0.97 --centroidler merkezler.fas --uc
kümeler.uc
bolluğu hesaba katarak, query.fas'ta yer alan dizileri çoğaltın
bilgi zaten mevcut, yeni bolluk ile çıktı almak için sarılmamış diziler yazın
bilgi, bolluk 1 olan tüm dizileri atın:
vsearch --derep_fulllength sorgular.fas --çıktı query_masked.fas --sizein
--sizeout --fasta_width 0 --miniquesize 2
Giriş fasta dosyasındaki basit tekrarları ve düşük karmaşıklık bölgelerini maskeleyin (maskelenmiş bölgeler
küçük harfle) ve sonuçları çıktı dosyasına yazın:
vsearch --maskfasta sorgular.fas --çıktı query_masked.fas --qmaske tozu
%80 benzerlik eşiğine sahip bir referans veritabanındaki arama sorguları, terminal
ikili benzerlikler hesaplanırken boşluklar dikkate alınır:
vsearch --usearch_global sorgular.fas --db referanslar.fas --hepsi dışarı sonuçlar.aln --İD
0.8 --iddef 1
Bir dizi veri kümesini kendisine karşı arayın (kendi kendine isabetleri yoksayın), en azından tüm eşleşmeleri alın
%60 kimlik ve sonuçları patlama benzeri sekmeyle ayrılmış bir biçimde toplayın:
vsearch --usearch_global sorgular.fas --db sorgular.fas --id 0.6 --kendinden --blast6out
sonuçlar.blast6 --max 0'ı kabul eder --max reddeder 0
Giriş fasta dosyasını tekrarlanabilir bir şekilde karıştırın (dizilerin sırasını değiştirin)
(sabit tohum) ve paketlenmemiş fasta dizilerini çıktı dosyasına yazın:
vsearch --Karıştır sorgular.fas --çıktı sorgular_shuffled.fas --tohum 13 --fasta_width
0
Sorgular.fas'ta bulunan dizilerin bolluğunu azaltarak sıralayın (kullanarak
"boyut=tamsayı" bilgi), bolluğu korurken dizileri yeniden etiketleyin
bilgi ( --sizeout ile), yalnızca bolluğu eşit veya daha büyük olan dizileri tutun
2'den fazla:
vsearch --Boyuta göre sırala sorgular.fas --çıktı sorgular_sorted.fas --relabel örnekA_
--sizeout --minsize 2
YAZARLAR
Torbjørn Rognes ve Tomás Flouri tarafından uygulama, Frédéric Mahé tarafından belgeler.
RAPORLAMA BÖCEK
Önerileri ve hata raporlarını şu adrese gönderin: , gönder
istek üzerine çekmek , veya bir arkadaşça oluşturun veya
Torbjørn Rognes'a garip e-posta[e-posta korumalı]>.
BULUNABİLİRLİK
Kaynak kodu ve ikili dosyalar şu adreste mevcuttur: .
TELİF HAKKI
Telif Hakkı (C) 2014, 2015 Torbjørn Rognes, Frédéric Mahé ve Tomás Flouri.
Bu program ücretsiz bir yazılımdır: onu yeniden dağıtabilir ve/veya aşağıdaki koşullar altında değiştirebilirsiniz.
Özgür Yazılım Vakfı tarafından yayınlanan GNU Affero Genel Kamu Lisansı, ya
Lisansın 3. sürümü veya herhangi bir sonraki sürümü.
Bu program faydalı olması ümidiyle dağıtılmaktadır, ancak HİÇBİR GARANTİ YOKTUR;
SATILABİLİRLİK veya BELİRLİ BİR AMACA UYGUNLUK zımni garantisi bile olmadan.
Daha fazla ayrıntı için GNU Affero Genel Kamu Lisansına bakın.
Bu belgeyle birlikte GNU Affero Genel Kamu Lisansının bir kopyasını almış olmalısınız.
programı. Değilse, bkz.http://www.gnu.org/licenses/>.
vsearch Google'ın Geoff Pike ve Jyrki Alakuijala'nın CityHash projesinin kodunu içerir,
bir MIT lisansı altında bulunan bazı mükemmel karma işlevleri sağlar.
vsearch Kamuya açık olan Tatusov ve Lipman'ın DUST programından türetilen kodu içerir
etki.
vsearch ikili dosyalar, zlib kitaplığından, telif hakkı Jean-Loup Gailly'den ve
Mark Adler.
vsearch ikili dosyalar, telif hakkı Julian R. Seward olan bzip2 kitaplığından kod içerebilir.
onworks.net hizmetlerini kullanarak vsearch-gz'yi çevrimiçi kullanın