Il s'agit de la commande cdhit-est qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
cdhit-est - exécute l'algorithme CD-HIT sur des séquences d'ARN/ADN
SYNOPSIS
cdhit-est [Options]
DESCRIPTION
====== CD-HIT version 4.6 (construit le 23 janvier 2016) ======
Options
-i saisir le nom du fichier au format fasta, requis
-o nom du fichier de sortie, requis
-c seuil d'identité de séquence, par défaut 0.9 c'est le "global
identité de séquence" calculée comme : nombre d'acides aminés identiques en alignement
divisé par la longueur totale de la séquence la plus courte
-G utiliser l'identité de séquence globale, 1 par défaut si défini sur 0, puis utiliser la séquence locale
identité, calculée comme : nombre d'acides aminés identiques en alignement divisé par
la longueur de l'alignement NOTE !!! ne pas utiliser -G 0 sauf si vous utilisez l'alignement
contrôles de couverture voir options -Al, -AL, -comme, -COMME
-b bande_largeur d'alignement, valeur par défaut 20
-M limite de mémoire (en Mo) pour le programme, par défaut 800 ; 0 pour illimité ;
-T nombre de threads, par défaut 1 ; avec 0, tous les processeurs seront utilisés
-n word_length, défaut 10, voir le guide de l'utilisateur pour le choisir
-l longueur de throw_away_sequences, par défaut 10
-d longueur de la description dans le fichier .clstr, par défaut 20 s'il est défini sur 0, il prend le fasta
defline et s'arrête au premier espace
-s coupure de différence de longueur, 0.0 par défaut s'il est défini sur 0.9, les séquences les plus courtes doivent
être d'au moins 90 % de la longueur du représentant du cluster
-S coupure de différence de longueur en acides aminés, par défaut 999999 si elle est définie sur 60, la longueur
différence entre les séquences les plus courtes et le représentant du cluster peut
ne pas être plus grand que 60
-Al couverture d'alignement pour la séquence la plus longue, 0.0 par défaut s'il est défini sur 0.9, le
l'alignement doit couvrir 90% de la séquence
-AL contrôle de couverture d'alignement pour la séquence la plus longue, par défaut 99999999 si défini sur 60,
et la longueur de la séquence est de 400, alors l'alignement doit être >= 340 (400-60)
résidus
-comme couverture d'alignement pour la séquence la plus courte, 0.0 par défaut si elle est définie sur 0.9, le
l'alignement doit couvrir 90% de la séquence
-COMME contrôle de couverture d'alignement pour la séquence la plus courte, par défaut 99999999 si défini sur 60,
et la longueur de la séquence est de 400, alors l'alignement doit être >= 340 (400-60)
résidus
-A contrôle de couverture d'alignement minimal pour les deux séquences, l'alignement 0 par défaut doit
cover >= cette valeur pour les deux séquences
-uL pourcentage maximum sans correspondance pour la séquence la plus longue, valeur par défaut de 1.0 si elle est définie sur 0.1,
la région non appariée (à l'exclusion des écarts de tête et de queue) ne doit pas dépasser 10 %
de la séquence
-nous pourcentage maximum sans correspondance pour la séquence la plus courte, valeur par défaut de 1.0 si elle est définie sur 0.1,
la région non appariée (à l'exclusion des écarts de tête et de queue) ne doit pas dépasser 10 %
de la séquence
-U longueur maximale sans correspondance, par défaut 99999999 si défini sur 10, la région sans correspondance
(à l'exclusion des espaces avant et arrière) ne doit pas dépasser 10 bases
-B 1 ou 0, par défaut 0, par défaut, les séquences sont stockées dans la RAM si elle est définie sur 1, séquence
sont stockés sur le disque dur, il est recommandé d'utiliser -B 1 pour les énormes bases de données
-p 1 ou 0, 0 par défaut si défini sur 1, chevauchement d'alignement d'impression dans le fichier .clstr
-g 1 ou 0, 0 par défaut par l'algorithme par défaut de cd-hit, une séquence est regroupée sur le
premier cluster qui atteint le seuil (cluster rapide). S'il est réglé sur 1, le programme
regroupez-le dans le cluster le plus similaire qui atteint le seuil (précis mais lent
mode) mais 1 ou 0 ne changera pas les représentants des clusters finaux
-r 1 ou 0, par défaut 1, par défaut faire les deux alignements +/+ & +/- s'il est défini sur 0, uniquement +/+
alignement des brins
-masque lettres de masquage (par ex. -masque NX, pour masquer à la fois 'N' et 'X')
-rencontre score correspondant, par défaut 2 (1 pour TU et NN)
-décalage
score non concordant, par défaut -2
-écart score d'ouverture d'écart, par défaut -6
-écart-ext
score d'extension d'écart, par défaut -1
-poubelle écrire le fichier de cluster de sauvegarde (1 ou 0, par défaut 0)
-h imprimer cette aide
Questions, bugs, contactez Limin Fu à [email protected], ou Weizhong Li à [email protected]
Pour des versions mises à jour et des informations, veuillez visiter : http://cd-hit.org
le serveur web cd-hit est également disponible à partir de http://cd-hit.org
Si vous trouvez cd-hit utile, merci de citer :
« Regroupement de séquences hautement homologues pour réduire la taille des grandes protéines
base de données", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatique, (2001)
17:282-283 "Cd-hit : un programme rapide pour regrouper et comparer de grands ensembles de
séquences protéiques ou nucléotidiques", Weizhong Li & Adam Godzik. Bioinformatique, (2006)
22: 1658-1659
Utilisez cdhit-est en ligne en utilisant les services onworks.net