Il s'agit de la commande bwa qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
bwa - Outil d'alignement Burrows-Wheeler
SYNOPSIS
indice bwa réf.fa
bwa mem ref.fa reads.fq > aln-se.sam
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
bwa aln ref.fa short_read.fq > aln_sa.sai
bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam
bwa bwasw ref.fa long_read.fq > aln.sam
DESCRIPTION
BWA est un progiciel permettant de cartographier des séquences peu divergentes par rapport à une grande référence
génome, comme le génome humain. Il se compose de trois algorithmes : BWA-backtrack, BWA-SW
et BWA-MEM. Le premier algorithme est conçu pour les lectures de séquences Illumina jusqu'à 100 pb,
tandis que les deux autres pour les séquences plus longues allaient de 70 pb à 1 Mpb. BWA-MEM et BWA-SW partagent
des fonctionnalités similaires telles que la prise en charge de la lecture longue et l'alignement divisé, mais BWA-MEM, qui est le
dernier, est généralement recommandé pour les requêtes de haute qualité car il est plus rapide et plus
exact. BWA-MEM a également de meilleures performances que BWA-backtrack pour 70-100bp Illumina
lit.
Pour tous les algorithmes, BWA doit d'abord construire l'index FM pour le génome de référence
(les indice commander). Les algorithmes d'alignement sont invoqués avec différentes sous-commandes :
ALN/samsé/échantillon pour BWA-backtrack, bwaw pour BWA-SW et Membre pour l'algorithme BWA-MEM.
COMMANDES ET OPTIONS
indice bwa indice [-p préfixe] [-a TypeAlgo] db.fa
Indexer les séquences de la base de données au format FASTA.
OPTIONS :
-p STR Préfixe de la base de données de sortie [identique au nom de fichier db]
-a STR Algorithme de construction de l'indice BWT. BWA implémente deux algorithmes pour
Construction BWT : is et bwtsw. Le premier algorithme est un peu plus rapide
pour petite base de données mais nécessite une grande RAM et ne fonctionne pas pour les bases de données
avec une longueur totale supérieure à 2 Go. Le deuxième algorithme est adapté de
le code source BWT-SW. Il fonctionne en théorie avec une base de données avec des milliards
de socles. Lorsque cette option n'est pas spécifiée, l'algorithme approprié
sera choisi automatiquement.
Membre bwa Membre [-aCHjMpP] [-t nThreads] [-k minSeedLen] [-w bande passante] [-d zDépôt] [-r
SeedSplitRatio] [-c maxOcc] [-D chaîneOmbre] [-m maxMateSW] [-W minSeedMatch] [-A
matchScore] [-B mmPénalité] [-O écartOpenPen] [-E écartExtStylo] [-L clipStylo] [-U
dissocierStylo] [-R Ligne RG] [-H lignes HD] [-v verboseNiveau] db.préfixe lit.fq [copains.fq]
Alignez les séquences de requêtes 70bp-1Mbp avec l'algorithme BWA-MEM. Bref, l'algorithme
fonctionne en semant des alignements avec des correspondances exactes maximales (MEM), puis en étendant
graines avec l'algorithme de Smith-Waterman (SW) affine-gap.
If copains.fq le fichier est absent et l'option -p n'est pas défini, cette commande concerne l'entrée
les lectures sont unilatérales. Si copains.fq est présent, cette commande suppose que i-ème lecture
lit.fq et de la i-ème lecture copains.fq constituent une paire de lecture. Si -p Est utilisé, le
la commande suppose le 2i-ème et le (2i+1)-ième lecture lit.fq constituer une paire de lecture
(un tel fichier d'entrée est dit entrelacé). Dans ce cas, copains.fq est ignoré. Dans
le mode appairé, le Membre commande déduira l'orientation de lecture et l'insertion
distribution de taille à partir d'un lot de lectures.
L'algorithme BWA-MEM effectue un alignement local. Il peut produire plusieurs primaires
alignements pour différentes parties d'une séquence de requête. Il s'agit d'une caractéristique cruciale pour
longues séquences. Cependant, certains outils tels que MarkDuplicates de Picard ne fonctionnent pas
avec des alignements séparés. On peut envisager d'utiliser l'option -M pour signaler les coups fractionnés plus courts
comme secondaire.
ALGORITHME OPTIONS :
-t INT Nombre de fils [1]
-k INT Longueur minimale des graines. Correspondances plus courtes que INT manquera. le
la vitesse d'alignement est généralement insensible à cette valeur à moins qu'elle
s'écarte significativement de 20. [19]
-w INT Largeur de bande. Essentiellement, des écarts plus longs que INT ne sera pas trouvé. Noter
que la longueur maximale de l'écart est également affectée par la matrice de notation et
la longueur du hit, non seulement déterminée par cette option. [100]
-d INT Chute en X hors diagonale (chute en Z). Arrêtez l'extension lorsque la différence
entre le meilleur et le score d'extension actuel est supérieur |i-j|*A+INT,
où i et j sont les positions actuelles de la requête et de la référence,
respectivement, et A est le score correspondant. Z-dropoff est similaire à
Le X-dropoff de BLAST sauf qu'il ne pénalise pas les écarts dans l'un des
séquences dans l'alignement. Z-dropoff évite non seulement inutile
extension, mais réduit également les mauvais alignements à l'intérieur d'un long bon alignement.
-r FLOAT Déclencher le réensemencement pour un MEM plus long que minSeedLen*FLOAT. C'est une clé
paramètre heuristique pour le réglage des performances. Une valeur plus élevée donne moins
graines, ce qui conduit à une vitesse d'alignement plus rapide mais à une précision moindre. [1.5]
-c INT Jeter un MEM s'il a plus de INT apparition dans le génome. C'est un
paramètre insensible. [500]
-D INT Chaînes tombantes plus courtes que FLOAT fraction de la plus longue chaîne qui se chevauche
-m INT Effectuer au maximum INT tours de maté-SW [50]
-W INT Lâchez une chaîne si le nombre de bases dans les graines est inférieur à INT. Ce
L'option est principalement utilisée pour les contigs/lectures plus longues. Lorsqu'il est positif, il est également
affecte le filtrage des graines. [0]
-P En mode appairé, exécutez SW pour récupérer uniquement les hits manquants, mais ne le faites pas.
essayez de trouver des coups qui correspondent à une paire appropriée.
NOTATION OPTIONS :
-A INT Score correspondant. [1]
-B INT Pénalité de non-concordance. Le taux d'erreur de séquence est d'environ : {.75 *
exp [-enregistrer(4) *B/A]}. [4]
-O INT[,INT]
Écart ouvert pénalité. Si deux nombres sont spécifiés, le premier est la pénalité
d'ouvrir une suppression et la seconde d'ouvrir une insertion. [6]
-E INT[,INT]
Pénalité d'extension de l'écart. Si deux nombres sont spécifiés, le premier est le
pénalité pour étendre une suppression et deuxièmement pour étendre une insertion. UNE
l'écart de longueur k coûte O + k*E (c'est-à-dire -O est pour ouvrir une longueur nulle
écart). [1]
-L INT[,INT]
Pénalité d'écrêtage. Lors de l'exécution de l'extension SW, BWA-MEM garde une trace de
le meilleur score atteint la fin de la requête. Si ce score est supérieur à
le meilleur score SW moins la pénalité d'écrêtage, l'écrêtage ne sera pas
appliqué. Notez que dans ce cas, la balise SAM AS rapporte le meilleur SW
But; la pénalité d'écrêtage n'est pas déduite. Si deux nombres sont fournis, le
le premier est pour l'écrêtage de l'extrémité 5' et le second pour l'écrêtage de l'extrémité 3'. [5]
-U INT Pénalité pour une paire de lecture non appariée. BWA-MEM obtient une paire de lecture non appariée
comme scoreRead1+scoreRead2-INT et marque une paire comme
scoreRead1+scoreRead2-insertPenalty. Il compare ces deux scores à
déterminer si nous devons forcer l'appariement. Une valeur plus élevée conduit à plus
paire de lecture agressive. [17]
ENTRÉE / SORTIE OPTIONS :
-p Couplage intelligent. Si deux lectures adjacentes ont le même nom, elles sont
considéré comme formant une paire de lecture. De cette façon, les lectures appariées et simples
peuvent être mélangés dans un seul flux FASTA/Q.
-R STR Terminer la ligne d'en-tête du groupe de lecture. '\t' peut être utilisé dans STR et sera
converti en TAB dans le SAM de sortie. L'ID du groupe de lecture sera joint
à chaque lecture dans la sortie. Un exemple est '@RG\tID:foo\tSM:bar'. [nul]
-H ARG Si ARG commence par @, il est interprété comme une chaîne et est inséré
dans l'en-tête SAM de sortie ; sinon, ARG est interprété comme un fichier avec
toutes les lignes commençant par @ dans le fichier inséré dans l'en-tête SAM.
[nul]
-T INT Ne pas afficher l'alignement avec un score inférieur à INT. Cette option affecte
sortie et occasionnellement SAM flag 2. [30]
-j Traiter les contigs ALT comme faisant partie de l'assemblage primaire (c'est-à-dire ignorer le
db.prefix.alt fichier).
-h INT[,INT2]
Si une requête n'a pas plus de INT hits avec un score supérieur à 80% de la
meilleur résultat, affichez-les tous dans la balise XA. Si INT2 est spécifié, BWA-MEM
sorties jusqu'à INT2 hits si la liste contient un hit vers un contig ALT.
-a Sortir tous les alignements trouvés pour les lectures à une seule extrémité ou à paires non appariées.
Ces alignements seront signalés comme des alignements secondaires.
-C Ajoutez un commentaire FASTA/Q à la sortie SAM. Cette option peut être utilisée pour
transférer les méta-informations lues (par exemple le code-barres) vers la sortie SAM. Noter
que le commentaire FASTA/Q (la chaîne après un espace dans la ligne d'en-tête)
doit être conforme à la spécification SAM (par exemple BC:Z:CGTAC). Les commentaires mal formatés conduisent à
sortie SAM incorrecte.
-Y Utilisez l'opération CIGAR d'écrêtage doux pour des alignements supplémentaires. Par
par défaut, BWA-MEM utilise un écrêtage doux pour l'alignement principal et un
écrêtage pour des alignements supplémentaires.
-M Marquez les hits fractionnés plus courts comme secondaires (pour la compatibilité Picard).
-v INT Contrôlez le niveau verbeux de la sortie. Cette option n'a pas été entièrement
pris en charge dans l'ensemble de BWA. Idéalement, une valeur 0 pour désactiver toutes les sorties
à stderr; 1 pour la sortie des erreurs uniquement ; 2 pour les avertissements et les erreurs ; 3 pour
tous les messages normaux ; 4 ou supérieur pour le débogage. Lorsque cette option prend
valeur 4, la sortie n'est pas SAM. [3]
-I FLOTTANT[,FLOAT[,INT[,INT]]]
Spécifiez la moyenne, l'écart-type (10 % de la moyenne si absent), max (4
sigma de la moyenne si absent) et min (4 sigma si absent) de l'insert
répartition des tailles. Applicable uniquement à l'orientation FR. Par défaut,
BWA-MEM déduit ces nombres et les orientations des paires suffisamment
lit. [inféré]
ALN bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-l seedLen] [-t nThrds] [-cRN] [-M misMsc] [-O gapOsc] [-E gapEsc]
[-q trimQual] >
Trouvez les coordonnées SA des lectures d'entrée. Maximum maxSeedDiff les différences sont
autorisé dans le premier graineLen sous-séquence et maximum maxDiff les différences sont
autorisé dans toute la séquence.
OPTIONS :
-n NUM Distance d'édition maximale si la valeur est INT, ou la fraction de manquant
alignements avec un taux d'erreur de base uniforme de 2% si FLOAT. Dans le dernier cas,
la distance d'édition maximale est automatiquement choisie pour différentes lectures
longueurs. [0.04]
-o INT Nombre maximal d'ouvertures d'espace [1]
-e INT Nombre maximum d'extensions d'écart, -1 pour le mode de différence k (interdisant
de longs écarts) [-1]
-d INT Interdire une longue suppression dans INT pb vers l'extrémité 3' [16]
-i INT Interdire un indel dans INT bp vers les extrémités [5]
-l INT Prenez la première sous-séquence INT comme graine. Si INT est plus grand que la requête
séquence, l'amorçage sera désactivé. Pour les longues lectures, cette option est
variait généralement de 25 à 35 pour « -k 2 ». [inf]
-k INT Distance d'édition maximale dans la graine [2]
-t INT Nombre de threads (mode multi-threading) [1]
-M INT Pénalité de non-concordance. BWA ne recherchera pas les résultats sous-optimaux avec un score
inférieur à (bestScore-misMsc). [3]
-O INT Pénalité d'écart ouvert [11]
-E INT Pénalité d'extension d'écart [4]
-R INT Procédez avec des alignements sous-optimaux s'il n'y a pas plus de INT également
meilleurs coups. Cette option n'affecte que le mappage d'extrémités appariées. Augmenter ce
seuil permet d'améliorer la précision de l'appairage au détriment de la vitesse,
surtout pour les lectures courtes (~32bp).
-c Requête inversée sans la compléter, ce qui est requis pour l'alignement dans
l'espace couleur. (Désactivé depuis la 0.6.x)
-N Désactivez la recherche itérative. Tous les coups avec pas plus de maxDiff différences
sera trouvé. Ce mode est beaucoup plus lent que le mode par défaut.
-q INT Paramètre pour le rognage de lecture. BWA réduit une lecture à
argmax_x{\sum_{i=x+1}^l(INT-q_i)} si q_l
longueur. [0]
-I L'entrée est au format de lecture Illumina 1.3+ (qualité égale à ASCII-64).
-B INT Longueur du code-barres à partir de l'extrémité 5'. Lorsque INT est positif, le
le code-barres de chaque lecture sera coupé avant le mappage et sera écrit
au BC Balise SAM. Pour les lectures appariées, le code-barres des deux extrémités est
concaténé. [0]
-b Spécifiez que le fichier de séquence de lecture d'entrée est au format BAM. Pour les extrémités appariées
données, deux extrémités d'une paire doivent être regroupées et les options -1 or -2
sont généralement appliqués pour spécifier quelle extrémité doit être mappée. Typique
les lignes de commande pour mapper les données de fin de paire au format BAM sont :
bwa aln ref.fa -b1 reads.bam > 1.sai
bwa aln ref.fa -b2 reads.bam > 2.sai
bwa sampe ref.fa 1.sai 2.sai reads.bam reads.bam > aln.sam
-0 Lorsque -b est spécifié, n'utilisez que des lectures asymétriques dans le mappage.
-1 Lorsque -b est spécifié, n'utilise que la première lecture d'une paire de lecture dans le mappage
(sauter les lectures simples et les deuxièmes lectures).
-2 Lorsque -b est spécifié, n'utilisez que la deuxième lecture dans une paire de lecture dans le mappage.
samsé bwa samse [-n maxOcc] >
Générez des alignements au format SAM en fonction des lectures asymétriques. Les coups répétitifs
être choisi au hasard.
OPTIONS :
-n INT Nombre maximal d'alignements à afficher dans la balise XA pour les lectures appariées
correctement. Si une lecture a plus de résultats INT, la balise XA ne sera pas
écrit. [3]
-r STR Spécifiez le groupe de lecture dans un format tel que `@RG\tID:foo\tSM:bar'. [nul]
échantillon bwa échantillon [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>
Générez des alignements au format SAM en fonction des lectures appariées. Paires de lecture répétitives
sera placé au hasard.
OPTIONS :
-a INT Taille d'insertion maximale pour qu'une paire de lecture soit considérée comme étant mappée correctement.
Depuis la 0.4.5, cette option n'est utilisée que lorsqu'il n'y a pas assez de bons
alignement pour déduire la distribution des tailles d'insert. [500]
-o INT Nombre maximal d'occurrences d'une lecture pour l'appariement. Une lecture avec plus d'occurrences
sera traité comme une lecture simple. Réduire ce paramètre permet d'accélérer
appariement. [100000]
-P Chargez l'intégralité de l'index FM en mémoire pour réduire les opérations sur le disque (espace de base
lecture seule). Avec cette option, au moins 1.25 N octets de mémoire sont nécessaires,
où N est la longueur du génome.
-n INT Nombre maximal d'alignements à afficher dans la balise XA pour les lectures appariées
correctement. Si une lecture a plus de INT hits, la balise XA ne sera pas écrite.
-N INT Nombre maximum d'alignements à sortir dans la balise XA pour une lecture discordante
paires (hors singletons). Si une lecture a plus de résultats INT, la balise XA
ne sera pas écrit. [dix]
-r STR Spécifiez le groupe de lecture dans un format tel que `@RG\tID:foo\tSM:bar'. [nul]
bwaw bwa bwasw [-a matchScore] [-b mmPen] [-q gapOpenPen] [-r gapExtPen] [-t nThreads]
[-w largeurbande] [-T seuil] [-s hspIntv] [-z zBest] [-N nHspRev] [-c seuilCoef]
[mate.fq]
Aligner les séquences de requêtes dans le in.fq déposer. Lorsque compagnon.fq est présent, effectuez jumelé-
alignement final. Le mode appairé ne fonctionne que pour les lectures Illumina short-insert
bibliothèques. En mode appairé, BWA-SW peut toujours produire des alignements divisés mais
ils sont tous marqués comme n'étant pas correctement appariés ; les positions de mat ne seront pas écrites
si le mat a plusieurs hits locaux.
OPTIONS :
-a INT Score d'un match [1]
-b INT Pénalité de non-concordance [3]
-q INT Pénalité d'écart ouvert [5]
-r INT Pénalité d'extension de l'écart. La pénalité pour un espace contigu de taille k est
q+k*r. [2]
-t INT Nombre de threads en mode multithread [1]
-w INT Largeur de bande dans l'alignement bagué [33]
-T INT Seuil de score minimum divisé par un [37]
-c FLOAT Coefficient d'ajustement du seuil en fonction de la longueur de la requête. Étant donné un
requête l-long, le seuil pour qu'un hit soit retenu est
a*max{T,c*log(l)}. [5.5]
-z INT Z-meilleure heuristique. Un -z plus élevé augmente la précision au détriment de la vitesse. [1]
-s INT Taille maximale de l'intervalle SA pour le lancement d'une graine. Un -s plus élevé augmente
précision au détriment de la vitesse. [3]
-N INT Nombre minimum de graines prenant en charge l'alignement résultant à ignorer
alignement inversé. [5]
SAM ALIGNEMENT Format
La sortie du 'aln' La commande est binaire et conçue pour une utilisation BWA uniquement. BWA sort le
alignement final au format SAM (Sequence Alignment/Map). Chaque ligne se compose de :
?? ??
│Avec │ Champ │ Description │
?? ??
│ 1 │ QNAME │ Requête (paire) NAME │
│ 2 │ DRAPEAU │ DRAPEAU au niveau du bit │
│ 3 │ RNAME │ Séquence de référence NAME │
│ 4 │ POS │ POSITION/coordonnée la plus à gauche basée sur 1 de la séquence écrêtée │
│ 5 │ MAPQ │ Qualité MAPping (échelle Phred) │
│ 6 │ CIAGR │ chaîne CIGAR étendue │
│ 7 │ MRNM │ Mate Séquence de référence NaMe (`=' si identique à RNAME) │
│ 8 │ MPOS │ Mate POSistion basé sur 1 │
│ 9 │ ISIZE │ Insert inféré TAILLE │
│10 │ SEQ │ requête SEQuence sur le même brin que la référence │
│11 │ QUAL requête QUALité (ASCII-33 donne la qualité de base Phred) │
│12 │ OPT │ champs OPTIONNELS variables au format TAG:VTYPE:VALUE │
?? ??
Chaque bit du champ FLAG est défini comme :
?? ??
│Chr │ Drapeau │ Description │
?? ??
│ p │ 0x0001 │ la lecture est appariée en séquençage │
│ P │ 0x0002 │ la lecture est mappée dans une paire appropriée │
│ u │ 0x0004 │ la séquence de requête elle-même n'est pas mappée │
│ U │ 0x0008 │ la contrainte n'est pas mappée │
│ r │ 0x0010 │ brin de la requête (1 pour l'inverse) │
│ R │ 0x0020 │ brin du compagnon │
│ 1 │ 0x0040 │ la lecture est la première lecture d'une paire │
│ 2 │ 0x0080 │ la lecture est la deuxième lecture d'une paire │
│ s │ 0x0100 │ l'alignement n'est pas primaire │
│ f │ 0x0200 │ Échec du CQ │
│ d │ 0x0400 duplicata optique ou PCR │
│ S │ 0x0800 │ alignement supplémentaire │
?? ??
Veuillez vérifierhttp://samtools.sourceforge.net> pour la spécification du format et le
outils de post-traitement de l'alignement.
BWA génère les champs facultatifs suivants. Les balises commençant par « X » sont spécifiques à BWA.
?? ??
│Jour │ Sens │
?? ??
│NM │ Modifier la distance │
│MD │ Positions/bases discordantes │
│AS │ Score d'alignement │
│BC Séquence de code-barres │
│SA │ Alignements supplémentaires │
?? ??
│X0 │ Nombre de meilleurs hits │
│X1 │ Nombre de hits sous-optimaux trouvés par BWA │
│XN │ Nombre de bases ambiguës dans la référence │
│XM │ Nombre de discordances dans l'alignement │
│XO │ Nombre de fentes ouvertes │
│XG │ Nombre d'extensions d'écart │
│XT │ Type : Unique/Répétition/N/Mate-sw │
│XA Hits alternatifs; format : /(chr,pos,CIGAR,NM;)*/ │
?? ??
│XS │ Score d'alignement sous-optimal │
│XF │ Prise en charge de l'alignement avant/arrière │
│XE │ Nombre de graines de support │
?? ??
Notez que XO et XG sont générés par la recherche BWT tandis que la chaîne CIGAR par Smith-Waterman
alignement. Ces deux balises peuvent être incompatibles avec la chaîne CIGAR. Ce n'est pas un bug.
NOTES ON LECTURE COURTE ALIGNEMENT
Alignement Précision
Lorsque l'amorçage est désactivé, BWA garantit de trouver un alignement contenant un maximum maxDiff
différences, y compris maxGapO écart s'ouvre qui ne se produisent pas dans nIndelFin pb vers
l'une ou l'autre extrémité de la requête. Des écarts plus longs peuvent être trouvés si maxGapE est positif, mais ce n'est pas
garanti de trouver tous les hits. Lorsque l'amorçage est activé, BWA exige en outre que le premier
graineLen la sous-séquence ne contient pas plus de maxSeedDiff différences.
Lorsque l'alignement espacé est désactivé, BWA devrait générer le même alignement qu'Eland
version 1, le programme d'alignement Illumina. Cependant, comme BWA change 'N' dans la base de données
séquence aux nucléotides aléatoires, les hits à ces séquences aléatoires seront également comptés. Comme un
Par conséquent, BWA peut marquer un hit unique comme une répétition, si les séquences aléatoires sont
identiques aux séquences qui devraient être unqiue dans la base de données.
Par défaut, si le meilleur coup n'est pas très répétitif (contrôlé par -R), BWA trouve également
tous les résultats contiennent une incompatibilité supplémentaire ; sinon, BWA ne trouve que tous les hits également meilleurs. Base
la qualité n'est PAS prise en compte dans l'évaluation des hits. En mode appairé, BWA associe tous les hits
il a trouvé. Il effectue en outre l'alignement Smith-Waterman pour les lectures non mappées pour sauver les lectures
avec un taux d'erreur élevé et pour les paires anormales de haute qualité pour corriger l'alignement potentiel
erreurs.
Estimer insérer Taille Distribution
BWA estime la distribution de taille d'insertion par 256*1024 paires de lecture. Il recueille d'abord
paires de lectures avec les deux extrémités mappées avec une qualité à extrémité unique 20 ou supérieure, puis
calcule la médiane (Q2), le quartile inférieur et supérieur (Q1 et Q3). Il estime la moyenne et
la variance de la distribution des tailles d'inserts par rapport aux paires dont les tailles d'inserts se situent dans
intervalle [Q1-2(Q3-Q1), Q3+2(Q3-Q1)]. La distance maximale x pour une paire considérée comme
correctement apparié (indicateur SAM 0x2) est calculé en résolvant l'équation Phi((x-mu)/sigma)=x/L*p0,
où mu est la moyenne, sigma est l'erreur standard de la distribution de taille d'insert, L est
la longueur du génome, p0 est a priori de paire anormale et Phi() est la norme
fonction de distribution cumulative. Pour mapper les lectures d'insertion courte d'Illumina à l'humain
génome, x est à environ 6-7 sigma de la moyenne. Les quartiles, la moyenne, la variance et x seront
imprimé sur la sortie d'erreur standard.
Mémoire Exigence
Avec l'algorithme bwtsw, 5 Go de mémoire sont nécessaires pour indexer le génome humain complet
séquences. Pour les lectures courtes, le ALN commande utilise ~ 3.2 Go de mémoire et le échantillon commande utilise
~5.4 Go.
Vitesse
L'indexation des séquences du génome humain prend 3 heures avec l'algorithme bwtsw. Indexation plus petite
génomes avec des algorithmes IS est plus rapide, mais nécessite plus de mémoire.
La vitesse d'alignement est largement déterminée par le taux d'erreur des séquences de requêtes (r).
Premièrement, BWA s'exécute beaucoup plus rapidement pour les coups presque parfaits que pour les coups avec de nombreuses différences,
et il arrête de rechercher un résultat avec des différences l+2 si un résultat de différence l est trouvé. Cette
signifie que BWA sera très lent si r est élevé car dans ce cas, BWA doit visiter les hits avec
de nombreuses différences et la recherche de ces hits coûte cher. Deuxièmement, l'alignement
l'algorithme derrière rend la vitesse sensible à [k log(N)/m], où k est le maximum autorisé
différences, N la taille de la base de données et m la longueur d'une requête. En pratique, on choisit k
wrt r et donc r est le facteur dominant. Je ne recommanderais pas d'utiliser BWA sur les données
avec r>0.02.
L'appairage est plus lent pour les lectures plus courtes. C'est principalement parce que les lectures plus courtes ont plus
les coups parasites et la conversion des coordonnées SA en coordonnées chromosomiques sont très coûteux.
CHANGEMENTS IN BWA-0.6
Depuis la version 0.6, BWA est capable de travailler avec un génome de référence de plus de 4 Go.
Cette caractéristique permet d'intégrer le génome complémenté en sens direct et en sens inverse dans
un index FM, qui accélère à la fois BWA-short et BWA-SW. En contrepartie, BWA utilise plus
mémoire car il doit conserver toutes les positions et tous les rangs dans des entiers 64 bits, deux fois plus grands
que les entiers 32 bits utilisés dans les versions précédentes.
Le dernier BWA-SW fonctionne également pour les lectures appariées supérieures à 100 pb. Par rapport à BWA-
Bref, BWA-SW a tendance à être plus précis pour les lectures très uniques et plus robuste pour
INDEL relativement longs et variantes structurelles. Néanmoins, BWA-short a généralement plus
pouvoir de distinguer le coup optimal de nombreux coups sous-optimaux. Le choix de la cartographie
L'algorithme peut dépendre de l'application.
Utiliser bwa en ligne en utilisant les services onworks.net