Amazon Best VPN GoSearch

Icône de favori OnWorks

soapdenovo-31mer - En ligne dans le Cloud

Exécutez soapdenovo-31mer dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande soapdenovo-31mer qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


soapdenovo - Méthode d'assemblage à lecture courte qui peut créer un assemblage de brouillon de novo

SYNOPSIS


savondenovo_31mer savondenovo_63mer savondenovo_127mer

Introduction


SOAPdenovo est une nouvelle méthode d'assemblage à lecture courte qui peut créer un assemblage de brouillon de novo
pour les génomes à taille humaine. Le programme est spécialement conçu pour assembler Illumina GA
lectures courtes. Il crée de nouvelles opportunités pour la construction de séquences de référence et la réalisation
des analyses précises de génomes inexplorés de manière rentable.

1) Prend en charge les grands kmer jusqu'à 127 pour utiliser de longues lectures. Trois versions sont fournies.
I. La version 31mer ne prend en charge que kmer <=31.
II. La version 63mer ne prend en charge que kmer <=63 et double la consommation de mémoire que
Version 31mer, même utilisée avec kmer <=31.
III. La version 127mer ne prend en charge que kmer <=127 et double la consommation de mémoire que
Version 63mer, même utilisée avec kmer <=63.

Veuillez noter qu'avec un kmer plus long, la quantité de nœuds diminuerait considérablement,
ainsi, la consommation de mémoire est généralement inférieure au double avec la version décalée.

2) Nouveau paramètre ajouté dans le module "pregraph". Ce paramètre initie la mémoire
hypothèse pour éviter de nouvelles réaffectations. L'unité du paramètre est le Go. Sans plus
réallocation, SOAPdenovo s'exécute plus rapidement et offre la possibilité de consommer toute la mémoire de
la machine. Par exemple, si la station de travail fournit 50 g de mémoire libre, utilisez -a 50 in
étape de prégraphe, une quantité statique de 50 g de mémoire serait allouée avant le traitement
lit. Cela peut également éviter d'être interrompu par d'autres utilisateurs partageant la même machine.

3) Les bases remplies d'espaces sont maintenant représentées par des caractères minuscules dans le fichier 'scafSeq'.

4) Introduction des instructions SIMD pour augmenter les performances.

Configuration filet


Pour les grands projets de génome avec séquençage en profondeur, les données sont généralement organisées en plusieurs
lire les fichiers de séquence générés à partir de plusieurs bibliothèques. Le fichier de configuration indique au
assembleur où trouver ces fichiers et les informations pertinentes. « exemple.config » est un
exemple d'un tel fichier.

Le fichier de configuration a une section pour les informations globales, puis plusieurs bibliothèques
sections. À l'heure actuelle, seul « max_rd_len » est inclus dans la section d'informations globales. Tout
read plus long que max_rd_len sera coupé à cette longueur.

Les informations de la bibliothèque et les informations des données de séquençage générées à partir de la bibliothèque
devraient être organisés dans la section correspondante de la bibliothèque. Chaque section de bibliothèque commence
avec la balise [LIB] et comprend les éléments suivants :

moy_ins
Cette valeur indique la taille moyenne d'insert de cette bibliothèque ou la valeur de crête
position dans la figure de distribution de taille de plaquette.

inverse_seq
Cette option prend la valeur 0 ou 1. Elle indique à l'assembleur si les séquences de lecture ont besoin
à renverser de manière complémentaire. Illumima GA produit deux types d'extrémités appariées
bibliothèques : a) avant-arrière, générées à partir d'extrémités d'ADN fragmentées avec des
taille de l'insert inférieure à 500 pb ; b) forward-forward, généré à partir de la circularisation
bibliothèques avec une taille d'insertion typique supérieure à 2 Ko. Le paramètre « reverse_seq »
doit être réglé pour indiquer ceci : 0, avant-arrière ; 1, avant-avant.

asm_flags=3
Cet indicateur décide dans quelle(s) partie(s) les lectures sont utilisées. Il prend la valeur 1 (seulement
assemblage contig), 2 (uniquement assemblage d'échafaudage), 3 (assemblage contig et échafaudage),
ou 4 (uniquement la fermeture de l'espace).

rd_len_cutoff
L'assembleur coupera les lectures de la bibliothèque actuelle à cette longueur.

rank Il prend des valeurs entières et décide dans quel ordre les lectures sont utilisées pour l'échafaudage
Assemblée. Les bibliothèques avec le même « rang » sont utilisées en même temps pendant l'échafaudage
Assemblée.

paire_num_cutoff
Ce paramètre est la valeur de coupure du numéro de paire pour une connexion fiable entre
deux contigs ou pré-échafaudages.

map_len
Cela prend effet dans l'étape « map » et correspond à la longueur d'alignement minimale entre un
read et un contig requis pour un emplacement de lecture fiable.

L'assembleur accepte les fichiers en lecture sous deux formats : FASTA ou FASTQ. Relation de couple
pourrait être indiqué de deux manières : deux fichiers de séquence avec des lectures dans le même ordre appartenant
à une paire, ou deux lectures adjacentes dans un seul fichier (FASTA uniquement) appartenant à une paire.

Dans le fichier de configuration, les fichiers à une seule extrémité sont indiqués par « f=/chemin/nom de fichier » ou
"q=/pah/filename" pour les formats fasta ou fastq séparément. Lectures appariées en deux fasta
les fichiers de séquence sont indiqués par "f1=" et "f2=". Alors que les lectures appariées dans deux séquences fastq
les fichiers sont indiqués par "q1=" et "q2=". Les lectures appariées dans un seul fichier de séquence fasta sont
indiqué par l'élément « p=".

Tous les éléments ci-dessus dans chaque section de la bibliothèque sont facultatifs. L'assembleur affecte par défaut
valeurs pour la plupart d'entre eux. Si vous ne savez pas comment définir un paramètre, vous pouvez le supprimer
à partir de votre fichier de configuration.

Obtenez it j'ai commencé


Une fois le fichier de configuration disponible, une manière typique d'exécuter l'assembleur est : ${bin}
tous –s fichier_config –K 63 –R –o préfixe_graphique

L'utilisateur peut également choisir d'exécuter le processus d'assemblage étape par étape en tant que : ${bin} pregraph
\[u2013]s fichier_config \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]o graph_prefix
${bin} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} map \[u2013]s
fichier_config \[u2013]g graph_prefix [-p] ${bin} scaff \[u2013]g graph_prefix [\[u2013]F -u
-G -p]

Options


-a INT Initie l'hypothèse de mémoire (Go) pour éviter une réallocation supplémentaire

-s fichier de configuration STR

-o Préfixe du fichier graphique de sortie STR

-g STR préfixe du fichier graphique d'entrée

-K INT K-mer taille [par défaut 23, min 13, max 127]

-p INT multithreads, n threads [par défaut 8]

-R utilise des lectures pour résoudre de minuscules répétitions [par défaut non]

-d INT supprime les K-mers basse fréquence avec une fréquence ne dépassant pas [par défaut 0]

-D INT supprime les bords dont la couverture n'est pas supérieure à [1 par défaut]

-M INT force de fusionner des séquences similaires pendant la contiging [par défaut 1, min 0, max
3]

-F fermeture de l'espace intra-échafaudage [par défaut non]

-u démasquer les contigs à haute couverture avant l'échafaudage [masque par défaut]

-G INT a permis la différence de longueur entre l'espace estimé et rempli

-L longueur minimale des contigs utilisée pour l'échafaudage

Sortie fichiers


Ces fichiers sont générés en tant que résultats d'assemblage :

une. *.contig

séquences contig sans utiliser les informations de paires de partenaires

b. *.scafSeq

séquences d'échafaudage (les séquences contig finales peuvent être extraites en décomposant l'échafaudage
séquences au niveau des régions d'espacement)

Il existe d'autres fichiers qui fournissent des informations utiles pour les utilisateurs avancés, qui sont
énumérés à l'annexe B.

QFP


Comment la à set K-mer Taille?
Le programme accepte les nombres impairs entre 13 et 31. Les K-mers plus grands auraient un taux de
l'unicité dans le génome et rendrait le graphique plus simple, mais cela nécessite un séquençage approfondi
profondeur et longueur de lecture plus longue pour garantir le chevauchement à n'importe quel emplacement génomique.

Comment la à set bibliothèque rang?
SOAPdenovo utilisera les bibliothèques de fin de paire avec une taille d'insert de plus petite à plus grande à
construire des échafaudages. Les bibliothèques de même rang seraient utilisées en même temps. Pour
exemple, dans un jeu de données d'un génome humain, nous définissons cinq rangs pour cinq bibliothèques avec insert
taille 200 pb, 500 pb, 2 Ko, 5 Ko et 10 Ko, séparément. Il est souhaitable que les paires en
chaque rang fournit une couverture physique adéquate du génome.

ANNEXE A: an exemple.config


#longueur de lecture maximale
max_rd_len=50
[LIB]
#taille moyenne d'insertion
moy_ins=200
#si la séquence doit être inversée
inverse_seq=0
#dans quelle(s) partie(s) les lectures sont utilisées
asm_flags=3
#utiliser uniquement les 50 premiers bps de chaque lecture
rd_len_cutoff=50
#dans quel ordre les lectures sont utilisées lors de l'échafaudage
rang=1
# coupure du numéro de paire pour une connexion fiable (par défaut 3)
paire_num_cutoff=3
# longueur minimale alignée aux contigs pour un emplacement de lecture fiable (32 par défaut)
map_len=32
#fichier fastq pour la lecture 1
q1=/chemin/**LIBNAMEA**/fastq_read_1.fq
Le fichier #fastq pour la lecture 2 suit toujours le fichier fastq pour la lecture 1
q2=/chemin/**LIBNAMEA**/fastq_read_2.fq
#fichier fasta pour la lecture 1
f1=/chemin/**LIBNAMEA**/fasta_read_1.fa
Le fichier #fastq pour la lecture 2 suit toujours le fichier fastq pour la lecture 1
f2=/chemin/**LIBNAMEA**/fasta_read_2.fa
Fichier #fastq pour les lectures simples
q=/chemin/**LIBNAMEA**/fastq_read_single.fq
Fichier #fasta pour les lectures simples
f=/chemin/**LIBNAMEA**/fasta_read_single.fa
#un seul fichier fasta pour les lectures appariées
p=/chemin/**LIBNAMEA**/pairs_in_one_file.fa
[LIB]
moy_ins=2000
inverse_seq=1
asm_flags=2
rang=2
# coupure du numéro de paire pour une connexion fiable
#(par défaut 5 pour une grande taille d'insertion)
paire_num_cutoff=5
# longueur alignée minimale aux contigs pour un emplacement de lecture fiable
#(par défaut 35 pour une grande taille d'insertion)
map_len=35
q1=/chemin/**LIBNAMEB**/fastq_read_1.fq
q2=/chemin/**LIBNAMEB**/fastq_read_2.fq
q=/chemin/**LIBNAMEB**/fastq_read_single.fq
f=/chemin/**LIBNAMEB**/fasta_read_single.fa

Appendice B: sortie fichiers


1. Fichiers de sortie de la commande « pregraph »

une. *.kmerFreq

Chaque ligne indique le nombre de Kmers avec une fréquence égale au numéro de ligne.

b. *.bord

Chaque enregistrement donne l'information d'une arête dans le pré-graphe : longueur, Kmers aux deux extrémités,
couverture kmer moyenne, qu'elle soit inverse-complémentairement identique et la séquence.

c. *.markOnEdge & *.path

Ces deux fichiers sont destinés à utiliser les lectures pour résoudre les petites répétitions

e. *.preArc

Connexions entre les arêtes qui sont établies par les chemins de lecture.

F. *.sommet

Kmers aux extrémités des bords.

g. *.preGraphBasic

Quelques informations de base sur le pré-graphe : nombre de sommets, valeur K, nombre d'arêtes,
longueur de lecture maximale, etc.

2. Fichiers de sortie à partir de la commande « contig »

une. *.contig

Informations contig: indice de bord correspondant, longueur, couverture kmer, qu'il s'agisse de pointe et
la séquence. Soit un contig, soit son homologue de complémentarité inverse est inclus. Chaque
l'index contig complémentaire inverse est indiqué dans le fichier *.ContigIndex.

b. *.Arc

Arcs sortant de chaque bord et leur couverture correspondante par lectures

c. *.mis à jour.edge

Quelques informations pour chaque arête du graphique : longueur, Kmers aux deux extrémités, différence d'indice
entre le bord inverse-complémentaire et celui-ci.

ré. *.ContigIndex

Chaque enregistrement donne des informations sur chaque contig dans le *.contig : c'est l'index de bord, la longueur,
la différence d'indice entre son homologue inversement complémentaire et lui-même.

3. Fichiers de sortie à partir de la commande « map »

une. *.peGrads

Informations pour chaque bibliothèque de clones : taille d'insertion, limite supérieure de l'index de lecture, rang et paire
numéro de coupure pour un lien fiable.

Ce fichier peut être révisé manuellement pour le réglage de l'échafaudage.

b. *.readOnContig

Lire les emplacements sur les contigs. Ici, les contigs sont référencés par leur indice de bord. Cependant à propos
la moitié d'entre eux ne sont pas répertoriés dans le fichier *.contig pour leur complémentarité inverse
les homologues sont déjà inclus.

c. *.readInGap

Ce fichier comprend des lectures qui pourraient se trouver dans les espaces entre les contigs. Cette information
sera utilisé pour combler les lacunes dans les échafaudages.

4. Fichiers de sortie de la commande "scaff"

une. *.newContigIndex

Les contigs sont triés selon leur longueur avant échafaudage. Leur nouvel index est répertorié
dans ce fichier. Ceci est utile si l'on veut faire correspondre les contigs dans *.contig avec ceux
dans *.links.

b. *.liens

Liens entre contigs qui sont établis par des paires de lecture. De nouveaux index sont utilisés.

c. *.scaf_gap

Contigs dans les espaces trouvés par le graphique de contig généré par la procédure de contig. Ici nouvel indice
sont utilisés.

ré. *.scaf

Contigs pour chaque échafaudage : index de contig (concordant à l'index en *.contig), approximatif
position de départ sur l'échafaudage, orientation, longueur de contig et ses liens avec les autres.

e. *.gapSeq

Séquences d'espace entre les contigs.

F. *.scafSeq

Séquence de chaque échafaudage.

Utilisez soapdenovo-31mer en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.