Jest to transterm poleceń, który można uruchomić w darmowym dostawcy usług hostingowych OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS
PROGRAM:
IMIĘ
transterm - Znajduje terminatory transkrypcji niezależne od rho w genomach bakteryjnych.
STRESZCZENIE
transterm -p expterm.dat seq.fasta annotation.ptt > output.tt
OPIS
Można wyświetlić dowolną liczbę plików fasta i adnotacji, ale pliki fasta powinny znajdować się wcześniej
pliki adnotacji. Typ pliku określa rozszerzenie:
.ptt plik adnotacji GenBank ptt
.coords lub .crd prosty plik adnotacji
Każda linia pliku .coords lub .crd ma format:
nazwa_genu początek koniec chrom_id
Chrom_id określa, do której sekwencji powinna odnosić się adnotacja. W przypadku pliku .ptt plik
chrom_id to nazwa pliku z usuniętą ścieżką i rozszerzeniem. Nazwa pliku z
zakłada się, że każde inne rozszerzenie jest plikiem fasta.
Podczas przetwarzania adnotacji dla chromosomu z id = ID pierwsze słowo znaku „>”
wiersze sekwencji wejściowych są przeszukiwane pod kątem identyfikatora. Bo nie ma dobrego standardu
jak sformatowana jest linia „>”, kilka heurystyk próbuje znaleźć identyfikator w linii „>”. W
zamówienie wypróbowane, są to:
> ID
>śmieci|cmr:ID|śmieci lub śmieci|ID|śmieci
>śmieci|gi|ID|śmieci lub >śmieci|gi|ID.śmieci|śmieci
> śmieci: identyfikator
Opcja '-p expterm.dat' używa najnowszego schematu ufności, gdzie expterm.dat jest
ścieżkę do pliku o tej nazwie dostarczonego z TransTermHP. Jeśli pominięto „-p expterm.dat”,
używany jest schemat ufności w wersji 1.0. Zobacz sekcję „OPCJE WIERSZA POLECEŃ”, aby uzyskać więcej informacji
Szczegół.
FORMAT OF THE TRANSTERM WYDAJNOŚĆ
Geny organizmu są wymienione posortowane według ich współrzędnych końcowych i wyprowadzane są terminatory
między nimi. Wpis terminatora wygląda następująco:
TERM 19 15310 - 15327 - F 99 -12.7 -4.0 |bidir
(nazwa) (początek - koniec) (sens)(loc) (conf) (hp) (ogon) (notatki)
gdzie „conf” to ogólny wynik zaufania, „hp” to wynik spinki do włosów, a „ogień” to wynik
wynik ogona. „Conf” (które waha się od 0 do 100) jest tym, czego prawdopodobnie chcesz użyć do oceny
jakość terminatora. Wyżej jest lepiej. Zaufanie, wynik HP i wyniki ogona
zostały opisane w cytowanym wyżej artykule. „Loc” określa typ regionu, w którym znajduje się terminator:
„G” = we wnętrzu genu (co najmniej 50 pz od końca),
„F” = między dwoma +niciowymi genami,
„R” = między genami dwuniciowymi,
„T” = między końcami genu nici + i genu nici -,
„H” = między początkiem genu nici + i genu nici -,
„N” = żadne z powyższych (dla początku i końca DNA)
Ze względu na sposób obsługi nakładających się genów te oznaczenia nie są wyłączne. 'G',
„F” lub „R” można również zapisać małymi literami, wskazując, że terminator jest włączony
przeciwna nić jako region. O ile nie podano opcji --all-context, tylko kandydat
wyprowadzane są terminatory, które wydają się być w odpowiednim kontekście genomu (np. T, F, R).
Po linii TERM zawsze występuje sekwencja spinki do włosów oraz ogonów 5' i 3'
napisane od 5' do 3'.
TRANSTERM COMMAND LINE OPCJE
Możesz także ustawić, jak duża musi być spinka do włosów, aby została wzięta pod uwagę:
--min-stem=n Rdzeń musi mieć długość n nukleotydów
--min-loop=n Pętla spinki do włosów musi mieć co najmniej n długości
Możesz także ustawić maksymalny rozmiar spinki do włosów, która zostanie znaleziona:
--max-len=n Całkowity zasięg szpilki do włosów <= n NT long
--max-loop=n Część pętli nie może być dłuższa niż n
Maksymalna długość to całkowita długość spinki do włosów (2 łodygi, 1 pętelka) i nie
Nie obejmuje U-tail. Jest mierzony w nukleotydach w sekwencji wejściowej, więc z powodu
luki, rzeczywista struktura może być dłuższa niż max-len. Maksymalna długość musi być mniejsza niż
wkompilowana stała REALLY_MAX_UP (która domyślnie wynosi 1000). Aby zwiększyć rozmiar
znalezione struktury rekompilują się po zwiększeniu tej stałej.
TransTermHP przypisuje punktację częściom spinki do włosów i ogona potencjalnych terminatorów.
Niższe wyniki są uważane za lepsze. Wiele stałych używanych w ocenianiu spinek do włosów może być
ustaw z wiersza poleceń:
--gc=f Wynik pary GC
--au=f Wynik pary AU
--gu=f Wynik pary GU
--mm=f Wynik dowolnej innej pary
--gap=f Wynik przerwy w spince do włosów
Koszt pętli o różnej długości można ustawić za pomocą:
--loop-penalty=f1,f2,f3,f4,f5,...fn
gdzie f1 to koszt pętli o długości --min-pętla, f2 to koszt pętli o długości
--min-loop+1, itd. Jeśli jest zbyt mało terminów, aby pokryć max-loop, ostatni termin
jest powtorzone. Tak więc --loop-penalty=0,2 przypisałby koszt 0 dowolnej pętli o długości min-loop,
i 2 do dowolnej dłuższej pętli (do max-loop, po której dłuższe pętle otrzymują nieskończoność
wyniki). Dodatkowe warunki są ignorowane.
Zauważ, że jeśli używasz schematu ufności --pval-conf (patrz poniżej), musisz
wygeneruj ponownie plik expterm.dat, jeśli zmienisz którąkolwiek z powyższych stałych.
Aby wyeliminować potencjalnego terminatora z wynikami ogona lub spinki do włosów, które są zbyt duże, ty
może skorzystać z następujących opcji:
--max-hp-score=f Maksymalny dopuszczalny wynik spinki do włosów
--max-tail-score=f Maksymalny dopuszczalny wynik ogona
Spinki terminatora muszą przylegać do regionu „bogatego w U”. Możesz dostosować stałe
zdefiniuj, co stanowi region bogaty w U. Korzystanie z opcji:
--uwin-rozmiar=s
--uwin-require=r
wymaga, aby w oknie o długości s-nukleotydu było co najmniej r nukleotydów „U”.
obok spinki do włosów. Ponownie, jeśli zmienisz te stałe, powinieneś się zregenerować
exterms.dat.
Przed głównym wyjściem TransTermHP wyświetli wartości powyższych opcji w formacie a
format odpowiedni do użycia w wierszu poleceń.
Oprócz wyników ogona i spinki do włosów, każdemu możliwemu terminatorowi przypisuje się
pewność --- wartość z przedziału od 0 do 100, która wskazuje, jakie jest prawdopodobieństwo, że sekwencja
jest terminatorem. Schemat oceniania wymaga pliku w tle (dostarczanego z TransTermHP)
to jest określone za pomocą:
--pval-conf exterms.dat
Spowoduje to użycie dystrybucji w pliku exterms.dat jako tła. (Możesz
skróć to jako "-p expterms.dat".) Chociaż dostarczony plik expterms.dat pochodzi
z losowych sekwencji można użyć dowolnej dystrybucji tła, podając własną
plik exterms.dat. Zobacz poniżej format pliku exterms.dat. Wartości w pliku exterms.dat
zależą od stałych punktacji, definicji regionów bogatych w u i dozwolonego maksimum
wyniki ogona i hp. Tak więc, jeśli zmienisz którąkolwiek z tych stałych za pomocą powyższych opcji,
powinieneś zregenerować plik exterms.dat.
Głównym wyjściem TransTermHP jest lista terminatorów przeplatanych między listą
adnotacje genów, które zostały dostarczone jako dane wejściowe. To wyjście można dostosować w kilka
sposoby:
-S Nie wyświetlaj sekwencji terminatora
--min-conf=n Wyprowadza tylko terminatory z pewnością >= n (can
skróć to jako -cn; wartość domyślna to 76.)
Dodatkowe wyniki analizy można uzyskać za pomocą następujących opcji:
--bag-output file.bag Wypisuje najlepszy terminator po genie
--t2t-perf file.t2t Wypisuje podsumowanie, które regiony od ogona do ogona
mieć dobre terminatory
REKALIBRACJA ZA POMOCĄ RÓŻNE PARAMETRY
Jak wspomniano powyżej, jeśli zmienisz którąkolwiek z podstawowych funkcji oceniania i parametrów wyszukiwania
i używasz schematu ufności w wersji 2.0 (zalecane), musisz ponownie obliczyć
wartości w pliku exterm.dat. Jeśli masz zainstalowany python, jest to łatwe (chociaż
być może czasochłonne). Możesz wydać polecenie:
% calibrate.sh newexpterms.dat [OPCJE TRANSTERMU]
gdzie „[OPCJE DO TRANSTERMU]” to opcje TransTermHP (omówione powyżej), które ustawiają
parametry do tego, jakie chcesz, aby były. Po zakończeniu calibrate.sh plik newexpterms.dat będzie działał
znajdować się w bieżącym katalogu i może służyć jako argument opcji -p, gdy jest używany
parametry, które przekazałeś do calibrate.sh.
Zauważ, że aby plik newexpterms.dat był ważny, musisz podać te same podstawowe parametry
do TransTermHP przy kolejnych uruchomieniach. TransTerm (lub newexpterms.dat) ich nie zapamięta
parametry dla Ciebie Najlepszym sposobem na poradzenie sobie z tym jest utworzenie opakowania skryptu powłoki
transterm, który zawsze przekazuje nowe parametry.
Parametry formatowania danych wyjściowych nie wymagają regeneracji pliku exterms.dat --- patrz dyskusja
powyżej, dla których parametrów expterm.dat zależy.
calibrate.sh można znaleźć w katalogu /usr/share/doc/transtermhp/examples.
FORMAT OF THE EXPTERMS.DAT FILE
Schemat ufności „pval-conf”, wybrany za pomocą opcji „--pval-conf expterms.dat” (lub
'-p expterms.dat') oblicza pewność terminatora z energią HP E i ogonem
energię T w następujący sposób. Po pierwsze, zakresy energii HP i energii ogona są równe
podzielone na przedziały, a odpowiednie przedziały e i t zostaną znalezione dla E i T. Następnie
ufność oblicza się w sposób opisany w [2].
Pierwsza linia exterms.dat zawiera 6 liczb:
kolejne num_bins
Zakresy (low_hp, high_hp) i (low_tail, high_tail) wyznaczają granice spinki do włosów i
wyniki ogona. Liczba całkowita num_bins podaje liczbę pojemników o jednakowej wielkości, w których znajdują się te
zakresy są podzielone. Seqlen podaje długość losowej sekwencji, do której przywykliśmy
wygenerować dane w pozostałej części pliku.
Po tej linii następuje dowolna liczba trójek (at, R, M), gdzie „at” to zawartość AT, R
to 4-krotka (low_hp, high_hp, low_tail, high_tail) dająca zakres HP i ogona
wyniki obserwowane w losowych sekwencjach tej zawartości AT, a M jest macierzą dystrybucji.
Te trójki (w, R, M) są sformatowane w następujący sposób:
przy low_hp high_hp low_tail high_tail
n11 n12 n13 n14 ... n1,liczba_przedziałów
n21...
...
n_liczba_pojemników,1 ...
Składnik mu_r(e,t) jest obliczany przez wybranie macierzy z wartością at najbliższą a
obliczony %AT regionu r. Jeżeli całkowita długość sekwencji regionu r wynosi L_r, to
mu_r(e,t) = n_t_e * L_r/nast.dł
gdzie n_t_e jest wpisem w t-tym wierszu i e-tej kolumnie wybranej macierzy, oraz
seqlen to pierwsza liczba w pierwszym wierszu pliku.
Korzystaj z transterm online, korzystając z usług onworks.net