นี่คือคำสั่ง nhmmscan ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
nhmmscan - ค้นหาลำดับนิวคลีโอไทด์เทียบกับฐานข้อมูลโปรไฟล์นิวคลีโอไทด์
เรื่องย่อ
อืมสแกน [ตัวเลือก]
DESCRIPTION
อืมสแกน ใช้เพื่อค้นหาลำดับนิวคลีโอไทด์กับคอลเล็กชันของนิวคลีโอไทด์
โปรไฟล์ สำหรับแต่ละลำดับใน , ใช้ลำดับการค้นหานั้นเพื่อค้นหาเป้าหมาย
ฐานข้อมูลของโปรไฟล์ใน และเอาท์พุตจัดอันดับรายการโปรไฟล์ที่มีมากที่สุด
การจับคู่ที่สำคัญกับลำดับ
งานวิ่งการกุศล อาจมีลำดับการสืบค้นมากกว่าหนึ่งลำดับ สามารถอยู่ในรูปแบบ FASTA หรือ
รูปแบบไฟล์ลำดับทั่วไปอื่นๆ หลายรูปแบบ (genbank, embl และ uniprot เป็นต้น) หรือ
ในรูปแบบไฟล์การจัดตำแหน่ง (สตอกโฮล์ม จัดแนว fasta และอื่นๆ) ดู --qรูปแบบ ตัวเลือก
สำหรับรายการทั้งหมด
งานวิ่งการกุศล ต้องกดใช้ ฮึ่ม ก่อนจึงจะสามารถสืบค้นได้ด้วย อืมสแกน.
สิ่งนี้จะสร้างไฟล์ไบนารีสี่ไฟล์ ต่อท้าย .h3{fimp}
แบบสอบถาม อาจเป็น '-' (เครื่องหมายขีด) ซึ่งในกรณีนี้ ลำดับการสืบค้นคือ
อ่านจาก ไปป์แทนจากไฟล์ NS ไม่สามารถอ่านได้จาก
สตรีม เพราะต้องมีไฟล์ไบนารีเสริมสี่ไฟล์ที่สร้างโดย
ฮึ่ม.
รูปแบบเอาต์พุตได้รับการออกแบบมาให้มนุษย์อ่านได้ แต่มักมีมากมายจน
อ่านแล้วมันทำไม่ได้จริงและการแยกวิเคราะห์มันเป็นความเจ็บปวด NS --tblout ตัวเลือกบันทึกเอาต์พุตใน a
รูปแบบตารางอย่างง่ายที่กระชับและแยกวิเคราะห์ได้ง่ายขึ้น NS -o ตัวเลือกช่วยให้
เปลี่ยนเส้นทางเอาต์พุตหลักรวมถึงการทิ้งใน /dev/null
OPTIONS
-h ช่วย; พิมพ์การแจ้งเตือนสั้นๆ เกี่ยวกับการใช้บรรทัดคำสั่งและตัวเลือกที่มีทั้งหมด
OPTIONS สำหรับ การควบคุม เอาท์พุท
-o กำหนดเอาต์พุตหลักที่มนุษย์อ่านได้ไปยังไฟล์ แทนที่จะเป็น stdout เริ่มต้น
--tblout
บันทึกไฟล์ตารางอย่างง่าย (คั่นด้วยช่องว่าง) ซึ่งสรุปผลลัพธ์ต่อ Hit ด้วย
พบบรรทัดข้อมูลหนึ่งบรรทัดต่อการเข้าชมแบบจำลองเป้าหมายที่คล้ายคลึงกัน
--dfamtblout
บันทึกไฟล์ตาราง (คั่นด้วยช่องว่าง) ที่สรุปผลลัพธ์ต่อ Hit คล้ายกับ
--tblout แต่กระชับกว่า
--aliscoresout
บันทึกเพื่อยื่นรายการคะแนนต่อตำแหน่งสำหรับการตีแต่ละครั้ง สิ่งนี้มีประโยชน์สำหรับ
ตัวอย่าง ในการระบุบริเวณที่มีความหนาแน่นของคะแนนสูงเพื่อใช้ในการแก้ไข
ฮิตทับซ้อนจากรุ่นต่างๆ
--ตาม ใช้การภาคยานุวัติแทนชื่อในเอาต์พุตหลัก หากมีให้สำหรับโปรไฟล์
และ/หรือลำดับ
--โนอาลี
ละเว้นส่วนการจัดตำแหน่งจากเอาต์พุตหลัก สิ่งนี้สามารถลดเอาต์พุตได้อย่างมาก
ปริมาณ
--notew
ไม่จำกัดความยาวของแต่ละบรรทัดในเอาต์พุตหลัก ค่าเริ่มต้นคือขีดจำกัด 120
อักขระต่อบรรทัด ซึ่งช่วยในการแสดงผลบนเทอร์มินัลและ
ในเอดิเตอร์ แต่สามารถตัดบรรทัดรายละเอียดโปรไฟล์เป้าหมายได้
--textw
ตั้งค่าขีดจำกัดความยาวบรรทัดของเอาต์พุตหลักเป็น ตัวอักษรต่อบรรทัด ค่าเริ่มต้นคือ
120.
OPTIONS สำหรับ รายงาน เกณฑ์
เกณฑ์การรายงานจะควบคุมว่าจะรายงาน Hit ใดในไฟล์เอาต์พุต (เอาต์พุตหลัก
--tbloutและ --dfamtblout). Hit จะจัดอันดับตามนัยสำคัญทางสถิติ (E-value)
-E รายงานโปรไฟล์เป้าหมายด้วยค่า E <= . ค่าเริ่มต้นคือ 10.0 หมายถึง
โดยเฉลี่ยแล้วจะมีการรายงานผลบวกปลอมประมาณ 10 รายการต่อหนึ่งข้อความค้นหา ดังนั้นคุณจึงสามารถ
ดูด้านบนของเสียงและตัดสินใจด้วยตัวเองว่าเสียงจริงหรือไม่
-T แทนที่จะกำหนดเอาต์พุตตามค่า E ให้รายงานโปรไฟล์เป้าหมายด้วย a . แทน
คะแนนบิตของ >= .
OPTIONS สำหรับ รวม เกณฑ์
เกณฑ์การรวมเข้มงวดกว่าเกณฑ์การรายงาน การควบคุมเกณฑ์การรวม
ซึ่งการตีนั้นถือว่ามีความน่าเชื่อถือเพียงพอที่จะรวมอยู่ในการจัดตำแหน่งเอาต์พุตหรือa
รอบการค้นหาต่อไป ใน อืมสแกนซึ่งไม่มีเอาต์พุตการจัดตำแหน่ง (like
หืม) เกณฑ์การรวมมีผลเพียงเล็กน้อย มีผลเฉพาะกับ Hit ที่ถูกทำเครื่องหมายเป็น
สำคัญ (!) หรือน่าสงสัย (?) ในการตีออก
--incE
ใช้ค่า E ของ <= เป็นเกณฑ์การรวม ค่าเริ่มต้นคือ 0.01 หมายถึง
โดยเฉลี่ยแล้ว คาดว่าจะมีการตรวจพบเท็จประมาณ 1 ครั้งในทุกๆ 100 การค้นหา
ด้วยลำดับการสืบค้นที่แตกต่างกัน
--incT
แทนที่จะใช้ค่า E ในการตั้งค่าเกณฑ์การรวม ให้ใช้คะแนนบิตของ
>= เป็นเกณฑ์การรวม เป็นเรื่องปกติที่จะใช้เกณฑ์คะแนนบิต
กับ อืมสแกนเนื่องจากคุณไม่ได้คาดหวังว่าเกณฑ์คะแนนเดียวจะทำงานให้
โปรไฟล์ที่แตกต่างกัน โปรไฟล์ที่แตกต่างกันมีคะแนนที่คาดหวังแตกต่างกันเล็กน้อย
การแจกแจง
OPTIONS สำหรับ รุ่นเฉพาะ คะแนน เกณฑ์
ฐานข้อมูลโปรไฟล์ที่ดูแลอาจกำหนดเกณฑ์คะแนนบิตเฉพาะสำหรับแต่ละโปรไฟล์
แทนที่การจำกัดขอบเขตตามนัยสำคัญทางสถิติเพียงอย่างเดียว
หากต้องการใช้ตัวเลือกเหล่านี้ โปรไฟล์ต้องมีข้อมูลที่เหมาะสม (GA, TC และ/หรือ NC)
คำอธิบายประกอบเกณฑ์คะแนนทางเลือก; นี้หยิบขึ้นมาโดย อืมสร้าง จากรูปแบบสตอกโฮล์ม
ไฟล์การจัดตำแหน่ง สำหรับแบบจำลองนิวคลีโอไทด์ แต่ละตัวเลือกขีดจำกัดจะมีค่าต่อครั้ง
เกณฑ์ สิ่งนี้ทำราวกับว่า -T --incT ถูกนำไปใช้โดยเฉพาะโดยใช้แต่ละ
เกณฑ์การดูแลของโมเดล
--cut_ga
ใช้เกณฑ์คะแนนบิต GA (การรวบรวม) ในโมเดลเพื่อตั้งค่าการรายงานต่อ Hit
และเกณฑ์การรวม เกณฑ์ GA โดยทั่วไปถือว่าเชื่อถือได้
เกณฑ์การดูแลที่กำหนดสมาชิกภาพครอบครัว ตัวอย่างเช่น ใน Dfam สิ่งเหล่านี้
เกณฑ์ถูกนำมาใช้เมื่อทำหมายเหตุประกอบจีโนมด้วยแบบจำลองของครอบครัวที่รู้จัก
จะพบได้ในสิ่งมีชีวิตนั้น พวกเขาอาจอนุญาตให้มีการค้นพบเท็จที่คาดไว้น้อยที่สุด
อัตรา
--cut_nc
ใช้เกณฑ์คะแนนบิต NC (จุดตัดเสียงรบกวน) ในโมเดลเพื่อตั้งค่าการรายงานต่อครั้ง
และเกณฑ์การรวม เกณฑ์ NC นั้นเข้มงวดน้อยกว่า GA; ในบริบท
ของ Pfam โดยทั่วไปจะใช้เก็บคะแนนของคะแนนสูงสุดที่รู้จัก
บวกเท็จ
--cut_tc
ใช้เกณฑ์คะแนนบิต NC (ตัดที่เชื่อถือได้) ในโมเดลเพื่อตั้งค่า per-hit
เกณฑ์การรายงานและการรวม เกณฑ์ TC นั้นเข้มงวดกว่า GA และ
โดยทั่วไปถือว่าเป็นคะแนนของผลบวกที่แท้จริงที่ทราบคะแนนต่ำสุด
ซึ่งเหนือสิ่งอื่นใดที่ทราบผลบวกลวง; ตัวอย่างเช่น ใน Dfam เกณฑ์เหล่านี้คือ
ใช้เมื่อใส่คำอธิบายประกอบของจีโนมด้วยแบบจำลองของครอบครัวที่ไม่พบใน
สิ่งมีชีวิตนั้น
ควบคุม OF DIE เร่ง ไปป์ไลน์
การค้นหา HMMER3 ถูกเร่งในไปป์ไลน์ตัวกรองสามขั้นตอน: ตัวกรองการสแกน-SSV
ตัวกรอง Viterbi และตัวกรองไปข้างหน้า ตัวกรองแรกนั้นเร็วและมากที่สุด
โดยประมาณ; สุดท้ายคืออัลกอริธึมการให้คะแนนไปข้างหน้าแบบเต็ม นอกจากนี้ยังมีตัวกรองอคติ
ขั้นตอนระหว่าง SSV และ Viterbi เป้าหมายที่ผ่านขั้นตอนทั้งหมดในท่อเร่งความเร็ว
จากนั้นจะถูกประมวลผลภายหลัง -- การระบุโดเมนและการให้คะแนนโดยใช้
อัลกอริทึมไปข้างหน้า/ย้อนกลับ
การเปลี่ยนเกณฑ์การกรองจะลบหรือรวมเป้าหมายออกจากการพิจารณาเท่านั้น การเปลี่ยนแปลง
เกณฑ์การกรองไม่เปลี่ยนแปลงคะแนนบิต ค่า E หรือการจัดตำแหน่ง ซึ่งทั้งหมดคือ
กำหนดไว้เฉพาะในการประมวลผลภายหลัง
--สูงสุด ปิด (เกือบ) ตัวกรองทั้งหมด รวมทั้งตัวกรองอคติ และเรียกใช้เต็ม
ไปข้างหน้า/หลังการประมวลผลภายหลังในลำดับเป้าหมายส่วนใหญ่ ตรงกันข้ามกับ
อืมสแกน โดยที่แฟล็กนี้ปิดตัวกรองโดยสิ้นเชิง --สูงสุด ธง
in อืมสแกน ตั้งค่าเกณฑ์ตัวกรองการสแกน-SSV เป็น 0.4 ไม่ใช่ 1.0 การใช้สิ่งนี้
แฟล็กเพิ่มความอ่อนไหวบ้างโดยใช้ความเร็วมาก
--F1
ตั้งค่าขีดจำกัดค่า P สำหรับขั้นตอนตัวกรอง MSV ค่าเริ่มต้นคือ 0.02 หมายถึง
ที่คาดว่าจะผ่านประมาณ 2% ของเป้าหมายที่ไม่คล้ายคลึงกันที่มีคะแนนสูงสุด
ตัวกรอง
--F2
ตั้งค่าเกณฑ์ P-value สำหรับขั้นตอนตัวกรอง Viterbi ค่าเริ่มต้นคือ 0.001
--F3
ตั้งค่าขีดจำกัดค่า P สำหรับขั้นตอนตัวกรองไปข้างหน้า ค่าเริ่มต้นคือ 1e-5
--โนเบีย
ปิดตัวกรองอคติ สิ่งนี้จะเพิ่มความไวเล็กน้อย แต่สามารถมาที่a
ความเร็วสูงโดยเฉพาะอย่างยิ่งถ้าแบบสอบถามมีองค์ประกอบตกค้างลำเอียง (เช่น
บริเวณที่มีลำดับซ้ำๆ หรือถ้าเป็นโปรตีนเมมเบรนที่มีบริเวณขนาดใหญ่ของ
ไม่ชอบน้ำ) หากไม่มีตัวกรองอคติ ลำดับมากเกินไปอาจผ่านตัวกรอง
ด้วยข้อความค้นหาที่ลำเอียง ส่งผลให้ประสิทธิภาพการทำงานช้ากว่าที่คาดไว้เนื่องจาก
อัลกอริธึม Forward/Backward แบบเข้มข้นเชิงคำนวณรองรับการทำงานหนักอย่างผิดปกติ
ภาระ
อื่น ๆ OPTIONS
--ไม่มีค่าว่าง2
ปิดการแก้ไขคะแนน null2 สำหรับองค์ประกอบที่ลำเอียง
-Z ยืนยันว่าจำนวนเป้าหมายทั้งหมดในการค้นหาของคุณคือ , เพื่อวัตถุประสงค์
ของการคำนวณค่า E ตามลำดับ แทนที่จะเป็นจำนวนเป้าหมายจริง
เห็น.
--เมล็ด
ตั้งค่าเมล็ดสุ่มเลขเป็น . บางขั้นตอนในการประมวลผลภายหลังต้องใช้ Monte
การจำลองคาร์โล ค่าเริ่มต้นคือการใช้เมล็ดพันธุ์คงที่ (42) เพื่อให้ผลลัพธ์เป็น
ทำซ้ำได้อย่างแน่นอน จำนวนเต็มบวกอื่น ๆ จะให้ความแตกต่าง (แต่ยัง
ทำซ้ำได้) ผลลัพธ์ ตัวเลือก 0 ใช้เมล็ดพันธุ์ที่เลือกโดยพลการ
--qรูปแบบ
ยืนยันว่าไฟล์ลำดับการสืบค้นอยู่ในรูปแบบ . รูปแบบที่ยอมรับ ได้แก่
อดอาหาร, สัญลักษณ์, เกนแบงค์, dbj, ยูนิโปร, สตอกโฮล์ม, แพม, a2mและ คุณปู่. ค่าเริ่มต้นคือ
เพื่อตรวจหารูปแบบของไฟล์โดยอัตโนมัติ
--w_beta
มวลหางความยาวหน้าต่าง ขอบเขตบน, W, ในความยาวที่ nhmmer คาดหวัง
เพื่อหาตัวอย่างของแบบจำลองที่กำหนดให้เศษส่วนของลำดับทั้งหมด
สร้างโดยโมเดลที่มีความยาว >= W น้อยกว่า . ค่าเริ่มต้นคือ 1e-7
แฟล็กนี้อาจใช้เพื่อแทนที่ค่าของ W จัดตั้งขึ้นสำหรับโมเดลโดย
อืมสร้าง.
--w_length
แทนที่ขอบเขตบนของความยาวอินสแตนซ์ของโมเดล Wซึ่งถูกควบคุมโดย
--w_beta. ควรใหญ่กว่าความยาวของรุ่น คุณค่าของ W ใช้อย่างล้ำลึก
ในท่อเร่งและการเปลี่ยนแปลงเล็กน้อยจะไม่ส่งผลกระทบต่อผลลัพธ์
(แม้ว่าค่า W ทำให้เวลาทำงานนานขึ้น) แฟล็กนี้อาจใช้เพื่อ
แทนที่ค่าของ W จัดตั้งขึ้นสำหรับโมเดลโดย อืมสร้าง.
--toponly
ค้นหาเฉพาะสาระด้านบน โดยค่าเริ่มต้นทั้งลำดับการสืบค้นและการย้อนกลับ
มีการค้นหาส่วนเติมเต็ม
--ด้านล่างเท่านั้น
ค้นหาเฉพาะเกลียวด้านล่าง (ส่วนเสริมย้อนกลับ) โดยค่าเริ่มต้นทั้งแบบสอบถาม
ลำดับและองค์ประกอบย้อนกลับจะถูกค้นหา
--ซีพียู
ตั้งค่าจำนวนเธรดของผู้ปฏิบัติงานแบบขนานเป็น . ตามค่าเริ่มต้น HMMER จะตั้งค่านี้เป็น
จำนวนคอร์ CPU ที่ตรวจพบในเครื่องของคุณ นั่นคือพยายามขยายให้ใหญ่สุด
การใช้คอร์โปรเซสเซอร์ที่มีอยู่ของคุณ การตั้งค่า สูงกว่าจำนวน
คอร์ที่มีอยู่นั้นมีค่าเพียงเล็กน้อย แต่คุณอาจต้องการตั้งค่าเป็นบางอย่าง
น้อย. คุณยังสามารถควบคุมตัวเลขนี้ได้โดยการตั้งค่าตัวแปรสภาพแวดล้อม
HMMER_NCPU.
ตัวเลือกนี้จะใช้ได้ก็ต่อเมื่อ HMMER ถูกคอมไพล์ด้วยการสนับสนุนเธรด POSIX
นี่เป็นค่าเริ่มต้น แต่อาจถูกปิดสำหรับไซต์หรือเครื่องของคุณสำหรับ
เหตุผลบางอย่าง.
--แผงลอย
สำหรับการดีบักเวอร์ชันต้นแบบ/ผู้ปฏิบัติงานของ MPI: หยุดชั่วคราวหลังจากเริ่มต้น เพื่อเปิดใช้งาน
นักพัฒนาเพื่อแนบดีบักเกอร์กับมาสเตอร์และกระบวนการของผู้ปฏิบัติงาน ส่ง
SIGCONT สัญญาณเพื่อปล่อยการหยุดชั่วคราว (ภายใต้ gdb: (gdb) สัญญาณ ซิกคอน)
(ใช้ได้เฉพาะเมื่อเปิดใช้งานการรองรับ MPI เสริมในขณะคอมไพล์)
--mpi เรียกใช้ในโหมดต้นแบบ/ผู้ปฏิบัติงานของ MPI โดยใช้ มปีรัน.
(ใช้ได้เฉพาะเมื่อเปิดใช้งานการรองรับ MPI เสริมในขณะคอมไพล์)
ใช้ nhmmscan ออนไลน์โดยใช้บริการ onworks.net