Dit is de opdracht hmmscan die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online-emulator of MAC OS online-emulator
PROGRAMMA:
NAAM
hmmscan - zoek eiwitsequentie(s) tegen een database met eiwitprofielen
KORTE INHOUD
hmmscan [Opties]
PRODUCTBESCHRIJVING
hmmscan wordt gebruikt om eiwitsequenties te doorzoeken op verzamelingen eiwitprofielen. Voor
elke reeks erin , gebruik die queryreeks om de doeldatabase van te doorzoeken
profielen in , en uitvoer gerangschikte lijsten van de profielen met de meest significante
komt overeen met de volgorde.
De kan meer dan één queryreeks bevatten. Het kan in FASTA-indeling zijn, of
verschillende andere gangbare sequentiebestandsindelingen (onder andere genbank, embl en uniprot), of
in uitlijningsbestandsindelingen (stockholm, uitgelijnde fasta en andere). Zie de --qformat optie
voor een complete lijst.
De moet worden ingedrukt met behulp van hmmdruk voordat er mee gezocht kan worden hmmscan.
Dit creëert vier binaire bestanden, met het achtervoegsel .h3{fimp}.
De vraag kan '-' zijn (een streepje), in welk geval de zoekreeksen dat zijn
lees van a pijp in plaats van uit een bestand. De kan niet worden gelezen van a
stream, omdat het die vier aanvullende binaire bestanden nodig heeft die zijn gegenereerd door
hmmdruk.
Het uitvoerformaat is ontworpen om door mensen leesbaar te zijn, maar is vaak zo omvangrijk dat
lezen is onpraktisch, en het ontleden is lastig. De --tblout en --domtblout opties
bewaar uitvoer in eenvoudige tabelindelingen die beknopt en gemakkelijker te ontleden zijn. De -o optie
maakt het mogelijk om de hoofduitvoer om te leiden, inclusief het weggooien in /dev/null.
OPTIES
-h Helpen; print een korte herinnering aan het gebruik van de opdrachtregel en alle beschikbare opties.
OPTIES VOOR CONTROLEREN OUTPUT
-o Leid de belangrijkste door mensen leesbare uitvoer naar een bestand in plaats van de standaard stdout.
--tblout
Sla een eenvoudig tabelbestand (door spaties gescheiden) op met een samenvatting van de uitvoer per doel,
met één datalijn per gevonden homoloog doelmodel.
--domtblout
Sla een eenvoudig tabelbestand (door spaties gescheiden) op met een samenvatting van de uitvoer per domein,
met één dataregel per homoloog domein gedetecteerd in een queryreeks voor elk
homoloog model.
--pfamtblout
Sla een bijzonder beknopt bestand in tabelvorm (door spaties gescheiden) op met een samenvatting van de per-
doeluitvoer, met één dataregel per gevonden homoloog doelmodel.
--volgens Gebruik aanwinsten in plaats van namen in de hoofduitvoer, indien beschikbaar voor profielen
en/of reeksen.
--noali
Laat het uitlijningsgedeelte weg uit de hoofduitvoer. Dit kan de output sterk verminderen
volume.
--geentekstw
Unlimit de lengte van elke regel in de hoofduitvoer. De standaard is een limiet van 120
tekens per regel, wat helpt bij het netjes weergeven van de uitvoer op terminals en
in editors, maar kan de beschrijvingsregels van het doelprofiel afkappen.
--tekstw
Stel de lijnlengtelimiet van de hoofduitgang in op tekens per regel. De standaardwaarde is
120.
OPTIES VOOR RAPPORTAGE DREMPELS
Rapporteringsdrempels bepalen welke treffers worden gerapporteerd in uitvoerbestanden (de hoofduitvoer,
--tblout en --domtblout).
-E Rapporteer in de uitvoer per doel doelprofielen met een E-waarde van <= . De
standaard is 10.0, wat betekent dat er gemiddeld ongeveer 10 fout-positieven worden gerapporteerd
per zoekopdracht, zodat u de top van de ruis kunt zien en zelf kunt beslissen of dat zo is
echt lawaai.
-T In plaats van de uitvoer per profiel op E-waarde te drempelen, rapporteer in plaats daarvan het doel
profielen met een bitscore van >= .
--koepel
In de uitvoer per domein, voor doelprofielen die al aan de per-
profiel rapportagedrempel, rapporteer individuele domeinen met een voorwaardelijke E-waarde
van <= . De standaardwaarde is 10.0. Een voorwaardelijke E-waarde betekent het verwachte aantal
van extra vals-positieve domeinen in de kleinere zoekruimte daarvan
vergelijkingen die al voldeden aan de rapportagedrempel per profiel (en dus
moet al ten minste één homoloog domein hebben).
--domT
In plaats van de output per domein te drempelen op E-waarde, rapporteer in plaats daarvan domeinen met een
bitscore van >= .
OPTIES VOOR INCLUSIE DREMPELS
Opnamedrempels zijn strenger dan meldingsdrempels. Controle van opnamedrempels
welke treffers betrouwbaar genoeg worden geacht om te worden opgenomen in een uitvoeruitlijning of a
volgende zoekronde. In hmmscan, die geen uitlijnuitvoer heeft (zoals
hmmzoeken or phmmer) noch enige iteratieve zoekstappen (zoals jackhmmer), opnamedrempels
weinig effect hebben. Ze hebben alleen invloed op welke domeinen worden gemarkeerd als significant (!) of
twijfelachtig (?) in domeinuitvoer.
--incl
Gebruik een E-waarde van <= als de opnamedrempel per doel. De standaardwaarde is
0.01, wat betekent dat er gemiddeld ongeveer 1 fout-positief in elke test zou worden verwacht
100 zoekopdrachten met verschillende zoekopdrachtreeksen.
--incl
Gebruik in plaats van E-waarden voor het instellen van de opnamedrempel een bit
score van >= als de opnamedrempel per doel. Het zou ongebruikelijk zijn om te gebruiken
bitscore drempels met hmmscan, omdat je geen enkele score verwacht
drempel om voor verschillende profielen te werken; verschillende profielen hebben iets
verschillende verwachte scoreverdelingen.
--incdomE
Gebruik een voorwaardelijke E-waarde van <= als de opnamedrempel per domein, in
doelen die al voldoen aan de algemene opnamedrempel per doel.
De standaardwaarde is 0.01.
--incdomT
Gebruik in plaats van E-waarden een bitscore van >= als per domein
opnamedrempel. Zoals met --incl hierboven, zou het ongebruikelijk zijn om een enkele bit te gebruiken
scoredrempel in hmmscan.
OPTIES VOOR MODELSPECIFIEK SCORE DREMPEL
Samengestelde profieldatabases kunnen voor elk profiel specifieke bitscoredrempels definiëren,
vervangt elke drempelwaarde die alleen op statistische significantie is gebaseerd.
Om deze opties te gebruiken, moet het profiel de juiste (GA, TC en/of NC)
optionele annotatie voor scoredrempel; dit wordt opgepikt door hmm bouwen van Stockholm formaat
uitlijning bestanden. Elke drempeloptie heeft twee scores: de per-reeksdrempel
en de drempel per domein Deze doen alsof -T --incl --domT
--incdomT is specifiek toegepast met behulp van de samengestelde drempels van elk model.
--cut_ga
Gebruik de GA (verzamelen) bitscores in het model om per-reeks (GA1) en per-
domein (GA2) rapportage- en opnamedrempels. GA-drempels zijn over het algemeen
beschouwd als de betrouwbare samengestelde drempels die het gezinslidmaatschap definiëren; voor
In Pfam definiëren deze drempels bijvoorbeeld wat wordt opgenomen in Pfam Full
uitlijningen op basis van zoekopdrachten met Pfam Seed-modellen.
--cut_nc
Gebruik de NC-bitscoredrempels (noise cutoff) in het model om per reeks in te stellen
(NC1) en per domein (NC2) rapportage- en opnamedrempels. NC-drempels zijn
algemeen beschouwd als de score van de hoogst scorende bekende vals-positieve.
--cut_tc
Gebruik de NC-bitscoredrempels (trusted cutoff) in het model om per reeks in te stellen
(TC1) en per domein (TC2) rapportage- en opnamedrempels. TC-drempels zijn
algemeen beschouwd als de score van de laagst scorende bekende echte positieve dat
is vooral bekende valse positieven.
CONTROL OF HET VERSNELLING PIJPLEIDING
HMMER3-zoekopdrachten worden versneld in een driestapsfilterpijplijn: het MSV-filter, het
Viterbi-filter en het Forward-filter. Het eerste filter is het snelst en het meest
bij benadering; de laatste is het volledige Forward scoring-algoritme. Er is ook een biasfilter
stap tussen MSV en Viterbi. Doelen die alle stappen in de versnellingspijplijn doorlopen
worden vervolgens onderworpen aan postprocessing - domeinidentificatie en scoren met behulp van de
Algoritme vooruit/achteruit.
Als u filterdrempels wijzigt, worden alleen doelen verwijderd of opgenomen; veranderen
filterdrempels veranderen niets aan bitscores, E-waarden of uitlijningen, die dat allemaal zijn
uitsluitend bepaald in de nabewerking.
--max Schakel alle filters uit, inclusief het biasfilter, en draai volledig vooruit/achteruit
nabewerking op elk doel. Dit verhoogt de gevoeligheid enigszins, in het algemeen
kosten in snelheid.
--F1
Stel de P-waardedrempel voor de MSV-filterstap in. De standaardwaarde is 0.02, wat betekent
dat ongeveer 2% van de hoogst scorende niet-homologe doelen naar verwachting zal slagen
het filter.
--F2
Stel de P-waardedrempel in voor de Viterbi-filterstap. De standaardwaarde is 0.001.
--F3
Stel de P-waardedrempel in voor de filterstap Vooruit. De standaardwaarde is 1e-5.
--nobias
Schakel het biasfilter uit. Dit verhoogt de gevoeligheid enigszins, maar kan op een
hoge snelheidskosten, vooral als de query een vertekende residusamenstelling heeft (zoals
een repetitieve sequentieregio, of als het een membraaneiwit is met grote regio's van
hydrofobiciteit). Zonder het biasfilter kunnen te veel sequenties het filter passeren
met bevooroordeelde query's, wat leidt tot langzamer dan verwachte prestaties als de
rekenintensieve Forward/Backward-algoritmen dragen een abnormaal zware taak
te laden.
ANDERE OPTIES
--nul2
Schakel de nul2-scorecorrecties uit voor eenzijdige compositie.
-Z Stel dat het totale aantal doelen in uw zoekopdrachten is , voor de doeleinden
van per-reeks E-waardeberekeningen, in plaats van het daadwerkelijke aantal doelen
gezien.
--domZ
Stel dat het totale aantal doelen in uw zoekopdrachten is , voor de doeleinden
van voorwaardelijke E-waardeberekeningen per domein, in plaats van het aantal doelen
die de meldingsdrempels hebben overschreden.
--zaad
Stel het willekeurige nummer in op . Sommige stappen in de nabewerking vereisen Monte
Carlo-simulatie. De standaard is om een vaste seed (42) te gebruiken, zodat de resultaten zijn
precies reproduceerbaar. Elk ander positief geheel getal geeft een andere (maar ook
reproduceerbare) resultaten. Een keuze van 0 gebruikt een willekeurig gekozen seed.
--qformat
Bevestig dat het queryreeksbestand de juiste indeling heeft . Geaccepteerde formaten zijn onder meer:
vasten, embl, genbank, ddbj, eenzijdig, Stockholm, pfam, a2m en afa.
--processor
Stel het aantal parallelle worker-threads in op . HMMER stelt dit standaard in op
het aantal CPU-kernen dat het in uw machine detecteert - dat wil zeggen, het probeert te maximaliseren
het gebruik van uw beschikbare processorkernen. Instelling hoger dan het aantal
beschikbare kernen is van weinig of geen waarde, maar misschien wilt u het ergens op instellen
minder. U kunt dit aantal ook regelen door een omgevingsvariabele in te stellen,
HMMER_NCPU.
Deze optie is alleen beschikbaar als HMMER is gecompileerd met ondersteuning voor POSIX-threads.
Dit is de standaardinstelling, maar het kan zijn uitgeschakeld voor uw site of machine
een of andere reden.
--kraam
Voor het debuggen van de MPI master/worker-versie: pauzeer na het starten om de
ontwikkelaar om foutopsporingsprogramma's te koppelen aan de lopende master- en werkprocessen. Versturen
SIGCONT-signaal om de pauze op te heffen. (Onder gdb: (GDB) signaal VOLGENDE)
(Alleen beschikbaar als optionele MPI-ondersteuning was ingeschakeld tijdens het compileren.)
--mpi Uitvoeren in MPI master/worker-modus, met behulp van mpirun.
(Alleen beschikbaar als optionele MPI-ondersteuning was ingeschakeld tijdens het compileren.)
Gebruik hmmscan online met behulp van onworks.net-services