InglésFrancésEspañol

icono de página de OnWorks

transterm - Online en la nube

Ejecute transterm en el proveedor de alojamiento gratuito de OnWorks a través de Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el transtérmino de comando que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


transterm: encuentra terminadores de transcripción independientes de rho en genomas bacterianos.

SINOPSIS


transterm -p expterm.dat seq.fasta annotation.ptt> output.tt

DESCRIPCIÓN


Se puede enumerar cualquier cantidad de archivos fasta y de anotaciones, pero los archivos fasta deben ir antes
archivos de anotaciones. El tipo de archivo está determinado por la extensión:

.ptt un archivo de anotación ptt de GenBank
.coords o .crd un archivo de anotación simple

Cada línea de un archivo .coords o .crd tiene el formato:

gene_name inicio final chrom_id

El chrom_id especifica a qué secuencia se debe aplicar la anotación. Para un archivo .ptt, el
chrom_id se toma como el nombre de archivo con la ruta y la extensión eliminadas. Un nombre de archivo con
se asume que cualquier otra extensión es un archivo fasta.

Al procesar una anotación para un cromosoma con id = ID, la primera palabra del '>'
Las líneas de las secuencias de entrada se buscan en busca de ID. Porque no existe un buen estándar para
cómo se formatea la línea '>', se intentan varias heurísticas para encontrar ID en la línea '>'. En
el orden probado, son:

> ID
> basura | cmr: ID | basura o basura | ID | basura
> basura | gi | ID | basura o> basura | gi | ID.junk | basura
> basura: ID

La opción '-p expterm.dat' usa el esquema de confianza más reciente, donde expterm.dat es el
ruta al archivo con ese nombre proporcionado con TransTermHP. Si se omite '-p expterm.dat',
Se utiliza el esquema de confianza de la versión 1.0. Consulte la sección 'OPCIONES DE LÍNEA DE COMANDO' para obtener más información.
detalle.

FORMATO OF EL TRANSTERMINO SALIDA
Los genes del organismo se enumeran ordenados por su coordenada final y los terminadores se generan
entre ellos. Una entrada de terminador se ve así:

PLAZO 19 15310-15327 - F 99-12.7 -4.0 | bidir
(nombre) (inicio - fin) (sentido) (loc) (conf) (hp) (cola) (notas)

donde 'conf' es el puntaje de confianza general, 'hp' es el puntaje de horquilla y 'tail' es el
puntuación de cola. 'Conf' (que va de 0 a 100) es lo que probablemente quiera usar para evaluar
la calidad de un terminador. Más alto es mejor. La confianza, puntaje de hp y puntajes de cola
se describen en el documento citado anteriormente. 'Loc' da el tipo de región en la que se encuentra el terminador:

'G' = en el interior de un gen (al menos 50 pb de un extremo),
'F' = entre dos genes de cadena +,
'R' = entre genes de dos cadenas,
'T' = entre los extremos de un gen de cadena + y un gen de cadena,
'H' = entre los inicios de un gen de cadena + y un gen de cadena,
'N' = ninguno de los anteriores (para el inicio y el final del ADN)

Debido a cómo se manejan los genes superpuestos, estas designaciones no son exclusivas. 'GRAMO',
'F' o 'R' también se pueden dar en minúsculas, lo que indica que el terminador está en el
hebra opuesta como la región. A menos que se proporcione la opción --all-context, solo candidato
se emiten terminadores que parecen estar en un contexto genómico apropiado (por ejemplo, T, F, R).

Siguiendo la línea TERM es la secuencia de la horquilla y las colas de 5 'y 3', siempre
escrito de 5 'a 3'.

TRANSTERMINO COMANDO LÍNEA OPCIONES
También puede establecer qué tan grande debe ser una horquilla para ser considerada:

--min-stem = n El tallo debe tener una longitud de n nucleótidos
--min-loop = n La porción de bucle de la horquilla debe tener al menos n de largo

También puede establecer el tamaño máximo de la horquilla que se encontrará:

--max-len = n Extensión total de la horquilla <= n NT de largo
--max-loop = n La porción del bucle no puede ser más larga que n

La longitud máxima es la longitud total de la porción de horquilla (2 tallos, 1 bucle) y no
No incluye la cola en U. Se mide en nucleótidos en la secuencia de entrada, por lo que debido a
huecos, la estructura real puede ser más larga que max-len. Max-len debe ser menor que el
constante compilada REALLY_MAX_UP (que por defecto es 1000). Para aumentar el tamaño de
las estructuras encontradas se recompilan después de aumentar esta constante.

TransTermHP asigna una puntuación a las porciones de horquilla y cola de los terminadores potenciales.
Las puntuaciones más bajas se consideran mejores. Muchas de las constantes utilizadas en la puntuación de horquillas pueden ser
establecer desde la línea de comando:

--gc = f Puntuación de un par GC
--au = f Puntuación de un par AU
--gu = f Puntuación de un par GU
--mm = f Puntuación de cualquier otro par
--gap = f Puntuación de una brecha en la horquilla

El costo de los bucles de varias longitudes se puede establecer mediante:

--loop-penalty=f1,f2,f3,f4,f5,...fn

donde f1 es el costo de un bucle de longitud --min-loop, f2 es el costo de un bucle de longitud
--min-loop + 1, así sucesivamente. Si hay muy pocos términos para cubrir hasta el bucle máximo, el último término
se repite. Por lo tanto, --loop-Penalty = 0,2 asignaría un costo 0 a cualquier bucle de longitud min-loop,
y 2 a cualquier bucle más largo (hasta el bucle máximo, después de lo cual los bucles más largos reciben infinitos
puntuaciones). Se ignoran los términos adicionales.

Tenga en cuenta que si está utilizando el esquema de confianza --pval-conf (ver más abajo), debe
regenere el archivo expterm.dat si cambia alguna de las constantes anteriores.

Para eliminar cualquier terminador potencial con puntajes de cola o horquilla que sean demasiado grandes,
puede utilizar las siguientes opciones:

--max-hp-score = f Puntuación de horquilla máxima permitida
--max-tail-score = f Puntuación final máxima permitida

Las horquillas Terminator deben estar adyacentes a una región "rica en U". Puedes ajustar las constantes
definir lo que constituye una región rica en U. Usando las opciones:

--uwin-size = s
--uwin-require = r

requiere que haya al menos r 'U' nucleótidos en la ventana de s-nucleótidos
adyacente a la horquilla. Nuevamente, si cambia estas constantes, debe regenerar
expterms.dat.

Antes de la salida principal, TransTermHP generará los valores de las opciones anteriores en un
formato adecuado para ser utilizado en la línea de comando.

Además de las puntuaciones de cola y horquilla, a cada posible terminador se le asigna un
confianza --- un valor entre 0 y 100 que indica la probabilidad de que la secuencia
es un terminador. El esquema de puntuación necesita un archivo de fondo (suministrado con TransTermHP)
que se especifica usando:

--pval-conf expterms.dat

Esto usará la distribución en el archivo expterms.dat como fondo. (Usted puede
abreivar esto como "-p expterms.dat".) Aunque el archivo expterms.dat suministrado se deriva
a partir de secuencias aleatorias, se puede utilizar cualquier distribución de fondo proporcionando su propia
archivo expterms.dat. Consulte a continuación el formato de expterms.dat. Los valores en expterms.dat
dependen de las constantes de puntuación, la definición de regiones ricas en U y el máximo permitido
puntajes de cola y hp. Por lo tanto, si cambia cualquiera de estas constantes usando las opciones anteriores,
debe regenerar expterms.dat.

La salida principal de TransTermHP es una lista de terminadores intercalados entre una lista de
las anotaciones genéticas que se proporcionaron como entrada. Esta salida se puede personalizar en unos pocos
formas:

-S No emite las secuencias del terminador
--min-conf = n Solo terminadores de salida con confianza> = n (puede
abreviar esto como -cn; el predeterminado es 76.)

Se pueden obtener resultados de análisis adicionales con las siguientes opciones:

--bag-output file.bag Genera el mejor terminador después de Gene
--t2t-perf file.t2t Muestra un resumen de qué regiones de cola a cola
tener buenos terminadores

RECALIBRANDO USO DIFERENTE PARÁMETROS
Como se mencionó anteriormente, si cambia alguna de las funciones básicas de puntuación y los parámetros de búsqueda
y está utilizando el esquema de confianza de la versión 2.0 (recomendado), entonces debe volver a calcular
los valores del archivo expterm.dat. Si tiene Python instalado, esto es fácil (aunque
quizás requiera mucho tiempo). Puede emitir el comando:

% calibrate.sh newexpterms.dat [OPCIONES PARA TRANSTERMAR]

donde "[OPTIONS TO TRANSTERM]" son las opciones de TransTermHP (discutidas anteriormente) que establecen el
parámetros a lo que desea que sean. Después de que calibrate.sh finalice, newexpterms.dat
estar en el directorio actual y puede servir como argumento para -p cuando se usa el mismo
parámetros que pasó a calibrate.sh.

Tenga en cuenta que para que newexpterms.dat sea válido, debe proporcionar los mismos parámetros básicos
a TransTermHP en ejecuciones posteriores. TransTerm (o newexpterms.dat) no recordará estos
parámetros para usted. La mejor manera de manejar esto es hacer un envoltorio de script de shell
transterm que siempre pasa sus nuevos parámetros.

Los parámetros de formato de salida no requieren la regeneración de expterms.dat --- ver discusión
arriba para los parámetros de los que depende expterm.dat.

calibrate.sh se puede encontrar en el directorio / usr / share / doc / transtermhp / examples.

FORMATO OF EL EXPTERMOS.DAT ARCHIVO
El esquema de confianza 'pval-conf', seleccionado con la opción "--pval-conf expterms.dat" (o
'-p expterms.dat') calcula la confianza de un terminador con HP energy E y tail
energía T como sigue. Primero, los rangos de energías de HP y energías de cola son uniformes
dividido en contenedores, y los contenedores apropiados eyt se encuentran para E y T.Entonces el
la confianza se calcula como se describe en [2].

La primera línea de expterms.dat contiene 6 números:

secuencia num_bins

Los rangos (low_hp, high_hp) y (low_tail, high_tail) dan los límites en la horquilla y
puntuaciones de cola. El entero num_bins da el número de bins del mismo tamaño en los que
los rangos están divididos. Seqlen da la longitud de la secuencia aleatoria que se utilizó para
generar los datos en el resto del archivo.

Siguiendo esta línea hay cualquier número de (at, R, M) triples, donde 'at' es el contenido de AT, R
es una tupla de 4 (low_hp, high_hp, low_tail, high_tail) que proporciona el rango de HP y tail
puntuaciones observadas en secuencias aleatorias de este contenido de AT, y M es la matriz de distribución.
Estos triples (at, R, M) se formatean de la siguiente manera:

a low_hp high_hp low_tail high_tail
n11 n12 n13 n14 ... n1, núm_bins
n21...
...
n_num_bins, 1 ...

El término mu_r (e, t) se calcula seleccionando la matriz con el valor t más cercano al
calcula el% AT de la región r. Si la longitud total de la secuencia de la región r es L_r, entonces

mu_r (e, t) = n_t_e * L_r / seqlen

donde n_t_e es la entrada en la t-ésima fila y e-ésima columna de la matriz seleccionada, y
seqlen es el primer número de la primera línea del archivo.

Use transterm en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

  • 1
    Avogadro
    Avogadro
    Avogadro es un molecular avanzado
    editor diseñado para uso multiplataforma
    en química computacional, molecular
    modelado, bioinformática, materiales
    ciencia y ...
    Descargar Avogadro
  • 2
    XML TV
    XML TV
    XMLTV es un conjunto de programas para procesar
    Listados de TV (tvguide) y ayuda a administrar
    su visualización de TV, almacenando listados en un
    Formato basado en XML. Hay utilidades para
    hacer...
    Descargar XML TV
  • 3
    huelga
    huelga
    Proyecto Strikr Free Software. Artefactos
    publicado bajo un 'basado en la intención'
    licencia dual: AGPLv3 (comunidad) y
    CC-BY-NC-ND 4.0 internacional
    (comercial)...
    descargar strikr
  • 5
    GIFLIB
    GIFLIB
    giflib es una biblioteca para leer y
    escribiendo imágenes gif. Es API y ABI
    compatible con libungif que estaba en
    amplio uso mientras que la compresión LZW
    el algoritmo fue...
    Descargar GIFLIB
  • 6
    Alt-F
    Alt-F
    Alt-F proporciona un código abierto y gratuito
    firmware alternativo para DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F tiene Samba y NFS;
    soporta ext2 / 3/4 ...
    Descargar Alt-F
  • Más "

Comandos de Linux

Ad