Il s'agit de la commande axe-demux qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
hache - hache Documentation
Ax est un démultiplexeur de lecture, utile dans les situations où les lectures de séquence contiennent le
codes à barres qui distinguent de manière unique les échantillons. Ax utilise un algorithme rapide et précis basé sur
on Hamming mismatch essaie de faire correspondre de manière compétitive le préfixe d'un séquençage lu par rapport à un
ensemble de codes à barres. Axe prend en charge les schémas de codes-barres combinatoires.
Contenu:
AXE UTILISATION
NOTE:
Pour des raisons obscures, le nom du hache binaire changé en hache-démultiplexage avec la version 0.3.0.
Toutes nos excuses pour la gêne occasionnée, cela était nécessaire pour hache installable dans Debian
et ses dérivés. L'utilisation de la ligne de commande n'a pas changé.
Ax a plusieurs modes d'utilisation. La principale distinction est entre les deux alternatives
schémas de codes-barres, codes-barres simples et combinatoires. La correspondance de code-barres unique est utilisée
lorsque seule la première lecture contient des séquences de codes-barres. Le code-barres combinatoire est utilisé lorsque
les deux lectures d'une paire de lectures contiennent des séquences de codes-barres indépendantes (généralement différentes).
Pour une référence concise, l'utilisation de la ligne de commande de hache-démultiplexage est reproduit ci-dessous :
UTILISATION:
axe-demux [-mzc2pt] -b (-f [-r] | -i) (-F [-R] | -I)
axe-demux -h
axe-demux -v
OPTIONS :
-m, --mismatch Discordance de distance de Hamming maximale. [entier, par défaut 1]
-z, --ziplevel Niveau de compression Gzip ou 0 pour le texte brut [int, valeur par défaut 0]
-c, --combinatorial Utiliser la correspondance combinatoire de codes à barres. [drapeau, par défaut OFF]
-p, --permissive Ne pas faire d'erreur en cas de conflit de non-concordance de code-barres, correspondance uniquement
exactement pour les codes-barres de confiscation. [drapeau, par défaut OFF]
-2, --trim-r2 Coupe le code-barres de R2 lu ainsi que R1. [drapeau, par défaut OFF]
-b, --barcodes Fichier de code-barres. Voir --help par exemple. [déposer]
-f, --fwd-in Lecture avant d'entrée. [déposer]
-F, --fwd-out Sortie du préfixe de lecture directe. [déposer]
-r, --rev-in Lecture inversée d'entrée. [déposer]
-R, --rev-out Sortie du préfixe de lecture inversée. [déposer]
-i, --ilfq-in Lectures appariées entrelacées en entrée. [déposer]
-I, --ilfq-out Sortie du préfixe de lectures appariées entrelacées. [déposer]
-t, --table-file Affiche un tableau récapitulatif des statistiques de démultiplexage dans un fichier. [déposer]
-h, --help Affiche cette utilisation ainsi qu'une aide supplémentaire.
-V, --version Affiche la chaîne de version.
-v, --verbose Soyez plus verbeux. Additif, -vv est plus vebeux que -v.
-q, --quiet Soyez très silencieux.
Contributions et Sortie
Quel que soit le mode de lecture, trois schémas d'entrée et de sortie sont pris en charge : les lectures asymétriques,
lectures appariées (fichiers R1 et R2 séparés) et lectures appariées entrelacées (un fichier, avec R1
et R2 en lectures consécutives). Si des lectures simples sont entrées, elles doivent être sorties comme
lectures à une seule extrémité. Si des lectures appariées ou entrelacées sont lues, elles peuvent être
sortie sous forme de lectures appariées ou de lectures appariées entrelacées. Ceci s'applique aux deux
lectures démultiplexées avec succès et lectures qui n'ont pas pu être démultiplexées.
Le -z flag peut être utilisé pour spécifier que les sorties doivent être compressées à l'aide de gzip
compression. Les -z flag prend un argument entier compris entre 0 (valeur par défaut) et 9, où 0
indique une sortie en texte brut (gzopen mode "wT"), et 1-9 indiquent que le
le niveau de compression doit être utilisé, où 1 est le plus rapide et 9 est le plus compact.
Les indicateurs de sortie doivent être des préfixes utilisés pour générer le nom du fichier de sortie en fonction
sur l'ID du code-barres (ou de la paire de codes-barres). Les noms sont générés comme : préfixe + _ + code à barres
ID + _ + lire nombre + .extension. Le fichier de sortie pour les lectures qui n'ont pas pu être
démultiplexé est préfixe + _ + inconnu + _ + lire nombre + .extension. Le nombre lu est
omis sauf si le schéma de fichier de lecture apparié est utilisé, et est "il" pour la sortie entrelacée.
L'extension est "fastq" ; ".gz" est ajouté à l'extension si le -z drapeau est utilisé.
Le correspondant CLI drapeaux sont:
· -f et -F: entrée et sortie de fichier R1 à une seule extrémité ou appariés respectivement.
· -r et -R: entrée et sortie de fichier R2 apparié.
· -i et -I: Entrée et sortie appariées entrelacées.
Le code à barres filet
Le fichier de code-barres est un fichier séparé par des tabulations avec un en-tête facultatif. C'est obligatoire et c'est
toujours fourni en utilisant le -b indicateur de ligne de commande. Le format exact dépend du code-barres
et est décrit plus en détail dans les sections ci-dessous. Si un en-tête est présent, l'en-tête
la ligne doit commencer par Code barres or code à barres, ou il sera interprété comme un code-barres
ligne, conduisant à une erreur d'analyse. Toute ligne commençant par ';' ou '#' est ignoré, permettant
commentaires à ajouter en fonction des codes-barres. Veuillez vous assurer que le logiciel utilisé pour
produire le code-barres utilise l'encodage ASCII et n'insère pas de marque d'ordre d'octet (BoM) comme
de nombreux éditeurs de texte peuvent utiliser en silence des schémas de codage basés sur Unicode. Je recommande l'utilisation de
LibreOffice Calc (faisant partie d'une suite bureautique gratuite et open source) pour générer des tables de codes-barres ;
Microsoft Excel peut également être utilisé.
Décalage niveau sélection
Indépendamment du mode code-barres, le -m le drapeau est utilisé pour sélectionner le Hamming maximum autorisé
distance entre un préfixe de lecture et un code-barres à considérer comme une correspondance. Comme "muté"
les codes-barres doivent être uniques, une distance de Hamming de un est la valeur par défaut comme généralement les codes-barres
sont conçus pour différer par une distance de Hamming d'au moins deux. Facultativement, (à l'aide du -p
flag), ax autorisera des niveaux de non-concordance sélectifs, où, si des conflits sont observés, le
le code-barres ne correspondra qu'avec précision. Cela permet de traiter des ensembles de données avec des codes-barres
qui n'ont pas une distance suffisamment élevée entre eux.
Simple code à barres mode
Le mode code-barres unique est le mode de fonctionnement par défaut. Les codes-barres sont comparés à la lecture
un (ci-après la lecture directe), et le code-barres est coupé à partir de la lecture directe uniquement,
à moins que le -2 un indicateur de ligne de commande est donné, auquel cas un préfixe de la même longueur que le
le code-barres correspondant est également coupé à partir de la deuxième lecture ou lecture inversée. Notez que la séquence de
cette seconde lecture n'est pas vérifiée avant rognage.
En mode code-barres unique, le fichier de code-barres comporte deux colonnes : Code barres et ID.
Combinatoire code à barres mode
Le mode code-barres combinatoire est activé en donnant le -c drapeau sur la ligne de commande. Effronté
les codes à barres lus sont comparés à la lecture directe et les codes à barres à lecture inversée sont comparés
contre la lecture inversée. Les codes-barres optimaux sont sélectionnés indépendamment et le code-barres
paire est sélectionnée parmi ces deux codes-barres. Les codes-barres respectifs sont coupés des deux
lit; les -2 L'indicateur de ligne de commande n'a aucun effet en mode code-barres combinatoire.
En mode code-barres combinatoire, le fichier de code-barres comporte trois colonnes : Code barre1, Code barre2 et
ID. Les codes-barres individuels peuvent apparaître plusieurs fois dans les codes-barres avant et arrière, mais
les paires de codes-barres doivent être des combinaisons uniques.
Le Démultiplexage Statistique Fichier
Le -t L'option permet la sortie du nombre de lectures par échantillon dans un fichier séparé par des tabulations. Les
Le fichier aura un en-tête décrivant son format et comprend une ligne pour les lectures sans code-barres.
AXE CORRESPONDANT À ALGORITHME
Ax utilise un algorithme basé sur la correspondance du préfixe le plus long dans le trie pour correspondre à une longueur variable
dès le début de chaque lecture par rapport à un ensemble de codes-barres « mutés ».
Hamming distance assorti
Alors que pour la plupart des applications dans le séquençage à haut débit, les distances de Hamming sont un
métrique désapprouvée, il est typique que les codes-barres de lecture HTS soient conçus pour tolérer un
certain niveau d'inadéquations de Hamming. Étant donné que ces séquences sont courtes et se produisent généralement
à l'extrémité 5' des lectures, les insertions et les suppressions doivent rarement être envisagées, et le
l'augmentation du taux d'attribution des lectures avec de nombreuses erreurs est compensée par le risque de faussement
attribuer des codes-barres à un échantillon incorrect. Dans tous les cas, lit avec plus de 1-2
les erreurs de séquençage dans leurs premières bases sont susceptibles d'être de mauvaise qualité et
simplement être filtrés lors du contrôle qualité en aval.
Hamming décalage essais
En règle générale, les lectures sont associées à un ensemble de codes à barres en calculant la distance de Hamming
entre le code-barres, et les premières l bases d'une lecture pour un code-barres de longueur l. Les
le code-barres "correct" est alors sélectionné en enregistrant soit le code-barres avec le plus faible
distance à la lecture (matching compétitif) ou en acceptant simplement le premier code-barres avec
une distance de Hamming inférieure à un certain seuil. Ces approches sont à la fois très
calculatoirement coûteux et peut avoir une précision inférieure à celle de l'algorithme que je propose.
De plus, les implémentations de ces méthodes gèrent rarement les codes-barres de longueur différente
et le codage à barres combinatoire bien, voire pas du tout.
Au cœur de l'algorithme d'Axe se trouve le concept d'essais de non-concordance de Hamming. Un trie est un N-aire
arbre pour un alphabet de lettres N. Dans le cas des lectures de séquençage à haut débit, nous avons
l'alphabet AGCT, correspondant aux quatre nucléotides de l'ADN, plus N, utilisé pour représenter
appels de base ambigus. Au lieu de faire correspondre chaque code-barres à chaque lecture, nous pré-calculons tous
séquences autorisées à chaque niveau de non-concordance, et les stocker dans des essais par niveau. Pour
exemple, pour correspondre à une distance de Hamming de 2, nous créons trois essais : Un contenant tous
codes à barres, mot à mot, et deux essais où chaque séquence dans une distance de Hamming de 1 et
2 de chaque code-barres respectivement. Ci-après, ces essais sont appelés les 0, 1 et
Essais de 2 mm, pour une distance de Hamming (mismatch) de 0, 1 et 2. Ensuite, on trouve le plus long
préfixe dans chaque séquence lu dans le trie 0mm. Si ce préfixe n'est pas une feuille valide dans le
trie 0mm, on trouve le préfixe le plus long dans le trie 1mm, et ainsi de suite pour tous les essais en ascendant
ordre. Si aucun préfixe de la lecture n'est une séquence complète dans un trie, la lecture est affectée
dans un fichier de sortie "sans code-barres".
Cet algorithme garantit une correspondance optimale des codes-barres à bien des égards, mais il est également extrêmement rapide.
Dans les situations avec des codes-barres de longueur différente, nous nous assurons que le le plus long acceptable
le code-barres à une distance de Hamming donnée est choisi ; en supposant que la séquence est aléatoire après le
code-barres, la probabilité de fausses affectations avec cette méthode est faible. Nous assurons également
que les correspondances parfaites courtes sont préférées aux correspondances inexactes plus longues, car nous
considérez les codes-barres sans erreur, puis 1 erreur, et ainsi de suite. Cela garantit que les lectures avec
codes à barres suivis d'une séquence aléatoire qui correspond de manière inexacte à une plus longue
code-barres du jeu ne sont pas faussement attribués à ce code-barres plus long.
La vitesse de cet algorithme est en grande partie due à l'algorithme d'appariement en temps constant avec
par rapport au nombre de codes-barres à faire correspondre. Le temps nécessaire pour faire correspondre chaque lecture est
proportionnel au lieu à la longueur des codes-barres, comme pour un code-barres de longueur l, au plus
l + 1 descentes de niveau trie sont nécessaires pour trouver une entrée dans le trie. Comme cette longueur est
plus ou moins constant et petit, la complexité globale de l'algorithme d'axe est O(n) pour n
lectures, par opposition à O(nm) pour n lectures et m codes-barres comme c'est le cas pour les
algorithmes de correspondance
· génindex
Utiliser axe-demux en ligne en utilisant les services onworks.net