ນີ້ແມ່ນຄໍາສັ່ງ gmt-music-bmr-calc-covgp ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
gmt music bmr calc-covg - ໃຊ້ calcRoiCovg.c ເພື່ອນັບຖານທີ່ຄອບຄຸມຕໍ່ພັນທຸກໍາ.
ຄູ່ tumor-ປົກກະຕິຂອງ BAMs ທີ່ໄດ້ຮັບ.
ເວີຊັ່ນ
ເອກະສານນີ້ອະທິບາຍ gmt music bmr calc-covg version 0.04 (2016-01-01 at 23:10:19)
ສະຫຼຸບສັງລວມ
gmt ດົນຕີ bmr calc-covg --gene-covg-dir=? --roi-file=? --reference-sequence=? --bam-list=?
--output-dir=? [--cmd-list-file=?] [--cmd-prefix=?] [--normal-min-depth=?]
[--tumor-min-depth=?] [--min-mapq=?]
ການນໍາໃຊ້ທົ່ວໄປ:
... ດົນຕີ bmr calc-covg \
--bam-list input_dir/bam_list \
--output-dir output_dir/ \
--reference-sequence input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
ເພື່ອສ້າງບັນຊີລາຍຊື່ຂອງຄໍາສັ່ງທີ່ຈະອະນຸຍາດໃຫ້ປະມວນຜົນຂອງແຕ່ລະ tumor-ປົກກະຕິຄູ່ໃນ
ຂະຫນານກັບຕາຕະລາງວຽກ LSF:
... ດົນຕີ bmr calc-covg \
--bam-list input_dir/bam_list \
--output-dir output_dir/ \
--reference-sequence input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv \
--cmd_list_file parallelizable_commands \
--cmd_prefix bsub
ໃນກໍລະນີຂ້າງເທິງ, ຄໍາສັ່ງທີ່ພິມເຂົ້າໄປໃນໄຟລ໌ຜົນຜະລິດ "parallelizable_commands" ສາມາດ
ດໍາເນີນການຂະຫນານ. ຫຼັງຈາກທີ່ພວກເຂົາເຈົ້າສໍາເລັດສົມບູນ, rerun script ນີ້ທີ່ພິມອອກໂດຍກົງຂ້າງລຸ່ມນີ້
(--cmd_list_file ແລະ --cmd_prefix ຖືກລຶບອອກແລ້ວ) ເພື່ອຮວມຕົວຂະໜານ
ການຄິດໄລ່:
... ດົນຕີ bmr calc-covg \
--bam-list input_dir/bam_list \
--output-dir output_dir/ \
--reference-sequence input_dir/all_sequences.fa \
--roi-file input_dir/all_coding_exons.tsv
ຕ້ອງການ ການໂຕ້ຖຽງ
gene-covg-dir ຂໍ້ຄວາມ
ໄດເລກະທໍລີທີ່ໄຟລ໌ການຄຸ້ມຄອງ gene ຕໍ່ຕົວຢ່າງແມ່ນຕັ້ງຢູ່
roi-ໄຟລ໌ ຂໍ້ຄວາມ
Tab delimited list of ROIs [chr start stop gene_name] (ເບິ່ງລາຍລະອຽດ)
ລຳດັບການອ້າງອີງ ຂໍ້ຄວາມ
ເສັ້ນທາງໄປຫາລໍາດັບອ້າງອີງໃນຮູບແບບ FASTA
bam-ບັນຊີລາຍຊື່ ຂໍ້ຄວາມ
ແຖບ delimited ບັນຊີລາຍຊື່ຂອງໄຟລ໌ BAM [sample_name normal_bam tumor_bam] (ເບິ່ງລາຍລະອຽດ)
ຜົນຜະລິດ-dir ຂໍ້ຄວາມ
ໄດເລກະທໍລີທີ່ໄຟລ໌ຜົນຜະລິດແລະໄດເລກະທໍລີຍ່ອຍຈະຖືກຂຽນ
ທາງເລືອກ ການໂຕ້ຖຽງ
cmd-list-file ຂໍ້ຄວາມ
ໄຟລ໌ທີ່ຈະຂຽນຄໍາສັ່ງ calcRoiCovg ກັບ (ເບິ່ງລາຍລະອຽດ)
cmd-prefix ຂໍ້ຄວາມ
ຄໍາສັ່ງທີ່ສົ່ງວຽກໄປຫາກຸ່ມຂອງທ່ານ (ເບິ່ງລາຍລະອຽດ)
normal-min-depth Integer
ຄວາມເລິກອ່ານຕໍາ່ສຸດທີ່ເພື່ອພິຈາລະນາພື້ນຖານ BAM ປົກກະຕິຕາມທີ່ໄດ້ກວມເອົາ
tumor-min-depth Integer
ຄວາມເລິກອ່ານຕໍາ່ສຸດທີ່ເພື່ອພິຈາລະນາພື້ນຖານ Tumor BAM ຕາມທີ່ໄດ້ກວມເອົາ
min-mapq Integer
ຄຸນນະພາບການສ້າງແຜນທີ່ຂັ້ນຕ່ຳຂອງການອ່ານເພື່ອພິຈາລະນາຕໍ່ກັບການນັບຄວາມເລິກຂອງການອ່ານ
ລາຍລະອຽດ
script ນີ້ນັບຖານທີ່ມີການຄຸ້ມຄອງພຽງພໍໃນ ROIs ຂອງແຕ່ລະ gene ໃນທີ່ໃຫ້
ຄູ່ຂອງໄຟລ໌ tumor-ປົກກະຕິ BAM ແລະຈັດປະເພດພວກມັນເປັນ - AT, CG (ບໍ່ແມ່ນ CpG), ແລະ CpG
ນັບ. ມັນຍັງເພີ່ມຈໍານວນພື້ນຖານເຫຼົ່ານີ້ໃນທົ່ວ ROIs ຂອງແຕ່ລະ gene ສໍາລັບແຕ່ລະຕົວຢ່າງ,
ແຕ່ຖານທີ່ກວມເອົາທີ່ຢູ່ພາຍໃນ ROIs ທັບຊ້ອນກັນບໍ່ໄດ້ຖືກນັບຫຼາຍກວ່າຫນຶ່ງຄັ້ງຕໍ່
ຈໍານວນທັງຫມົດເຫຼົ່ານີ້.
ໂດຍຄ່າເລີ່ມຕົ້ນ, script ນີ້ແລ່ນເຄື່ອງມື C-based ທີ່ມີຊື່ວ່າ calcRoiCovg ສໍາລັບແຕ່ລະຕົວຢ່າງຫຼັງຈາກນັ້ນ
ອີກອັນຫນຶ່ງ, ໃຊ້ເວລາ ~ 30 ນາທີຕໍ່ຕົວຢ່າງເພື່ອສ້າງການນັບພື້ນຖານທີ່ໄດ້ຮັບການຄຸ້ມຄອງຕໍ່ ROI. ຖ້າ
ຜົນໄດ້ຮັບຂອງ calcRoiCovg ສໍາລັບຕົວຢ່າງທີ່ມີຢູ່ແລ້ວໃນໄດເລກະທໍລີຍ່ອຍຜົນຜະລິດ roi_covgs,
ການຄິດໄລ່ຄືນໃໝ່ແມ່ນຂ້າມໄປ. ນີ້ອະນຸຍາດໃຫ້ທ່ານດໍາເນີນການວຽກ calcRoiCovg ຂອງທ່ານເອງໃນຂະຫນານຫຼື
ຢູ່ໃນຫຼາຍເຄື່ອງ (ສືບຕໍ່ອ່ານ).
ເລັ່ງສິ່ງຕ່າງໆໂດຍການແລ່ນວຽກ calcRoiCovg ໃນຂະໜານກັນ: ຖ້າເປັນກຸ່ມຄອມພິວເຕີ ຫຼືຫຼາຍອັນ
ເຄື່ອງມີຢູ່, ແລ່ນສະຄຣິບນີ້ສອງເທື່ອຕໍ່ໄປນີ້:
·ກໍານົດ cmd-list-file ແລະ cmd-prefix ເພື່ອສ້າງໄຟລ໌ທີ່ມີຄໍາສັ່ງທີ່ສາມາດເປັນ
ສົ່ງໄປຫາກຸ່ມ ຫຼືດໍາເນີນການດ້ວຍຕົນເອງ. ວຽກເຫຼົ່ານີ້ຈະຂຽນການນັບຖານຕໍ່ ROI ໃນ a
ໄດເລກະທໍລີຍ່ອຍ roi_covgs.
· ຫຼັງຈາກທີ່ທັງຫມົດວຽກເຮັດງານທໍາ calcRoiCovg ຂະຫນານແມ່ນສໍາເລັດ, ດໍາເນີນການ script ນີ້ອີກເທື່ອຫນຶ່ງເພື່ອ
ເພີ່ມພວກມັນຂຶ້ນ ແລະສ້າງການນັບຖານຕໍ່ເຊື້ອອັນສຸດທ້າຍໃນບັນຊີຍ່ອຍ gene_covgs.
ຢ່າລືມເອົາ cmd-list-file ແລະ cmd-prefix arguments ອອກໄປ ຫຼືເຈົ້າຈະຖືກ re-
ການສ້າງບັນຊີລາຍຊື່ຂອງຄໍາສັ່ງ.
ການໂຕ້ຖຽງ
--roi-file
ພາກພື້ນທີ່ມີຄວາມສົນໃຈ (ROIs) ຂອງແຕ່ລະ gene ໂດຍທົ່ວໄປແມ່ນເຂດທີ່ຖືກເປົ້າຫມາຍ
sequencing ຫຼືຖືກລວມເຂົ້າ exon loci (ຈາກການຖອດຂໍ້ຄວາມຫຼາຍສະບັບ) ຂອງ genes ກັບ 2-bp
flanks (splice junctions). ROIs ຈາກໂຄໂມໂຊມດຽວກັນຈະຕ້ອງຖືກລະບຸໄວ້ຢູ່ໃກ້ຄຽງ
ເຊິ່ງກັນແລະກັນໃນໄຟລ໌ນີ້. ນີ້ອະນຸຍາດໃຫ້ລະຫັດພື້ນຖານ C-based ສາມາດດໍາເນີນການໄດ້ຫຼາຍ
ມີປະສິດທິພາບແລະຫຼີກເວັ້ນການນັບຄືນຖານທີ່ເຫັນໃນ ROIs ທັບຊ້ອນ (ສໍາລັບການຄຸ້ມຄອງໂດຍລວມ
ການນັບຖານ). ສຳລັບການນັບຖານຕໍ່ພັນທຸກໍາ, ພື້ນຖານທີ່ທັບຊ້ອນກັນຈະຖືກນັບໃນແຕ່ລະຄັ້ງ
ມັນປາກົດຢູ່ໃນ ROI ຂອງເຊື້ອສາຍດຽວກັນ. ເພື່ອຫຼີກເວັ້ນການນີ້, ໃຫ້ແນ່ໃຈວ່າຈະລວມເຂົ້າກັນ
ROIs ທີ່ທັບຊ້ອນກັນຂອງ gene ດຽວກັນ. BEDtools' mergeBed ສາມາດຊ່ວຍໄດ້ຖ້າໃຊ້ຕໍ່ພັນທຸກໍາ.
--reference-ລໍາດັບ
ລຳດັບການອ້າງອີງໃນຮູບແບບ FASTA. ຖ້າບໍ່ພົບດັດສະນີລໍາດັບອ້າງອີງ
ຕໍ່ໄປກັບໄຟລ໌ນີ້ (ໄຟລ໌ .fai), ມັນຈະຖືກສ້າງຂຶ້ນ.
--bam-ບັນຊີລາຍຊື່
ໃຫ້ໄຟລ໌ທີ່ມີຊື່ຕົວຢ່າງ ແລະສະຖານທີ່ປົກກະຕິ/ເນື້ອງອກ BAM ສໍາລັບແຕ່ລະຄົນ. ໃຊ້
ແຖບ- ຮູບແບບທີ່ຂັ້ນດ້ວຍ [sample_name normal_bam tumor_bam] ຕໍ່ແຖວ. ເພີ່ມເຕີມ
ຖັນເຊັ່ນຂໍ້ມູນທາງຄລີນິກໄດ້ຮັບອະນຸຍາດ, ແຕ່ຖືກລະເລີຍ. sample_name ຈະຕ້ອງຄືກັນ
ເປັນຊື່ຕົວຢ່າງ tumor ທີ່ໃຊ້ໃນໄຟລ໌ MAF (ຄໍລໍາທີ 16, ມີສ່ວນຫົວ
Tumor_Sample_Barcode).
--output-dir
ລະບຸໄດເລກະທໍລີຜົນຜະລິດທີ່ສິ່ງຕໍ່ໄປນີ້ຈະຖືກສ້າງ/ຂຽນ: roi_covgs:
ໄດເລກະທໍລີຍ່ອຍທີ່ປະກອບດ້ວຍການນັບຖານທີ່ກວມເອົາຕໍ່ ROI ສໍາລັບແຕ່ລະຕົວຢ່າງ. gene_covgs:
ໄດເລກະທໍລີຍ່ອຍທີ່ປະກອບດ້ວຍການນັບຖານທີ່ກວມເອົາຕໍ່ພັນທຸກໍາສໍາລັບແຕ່ລະຕົວຢ່າງ. total_covgs:
ໄຟລ໌ທີ່ປະກອບມີການຄຸ້ມຄອງທີ່ບໍ່ທັບຊ້ອນກັນຕໍ່ຕົວຢ່າງ.
--cmd-list-file
ລະບຸໄຟລ໌ທີ່ລາຍຊື່ວຽກ calcRoiCovg ຈະຖືກຂຽນໃສ່. ເຫຼົ່ານີ້ສາມາດ
ກໍານົດໃນຂະຫນານ, ແລະຈະຂຽນຕໍ່ ROI ກວມເອົາພື້ນຖານ - ນັບເຂົ້າໄປໃນຜົນຜະລິດ
subdirectory roi_covgs. ຖ້າ cmd-list-file ຖືກປະໄວ້ໂດຍບໍ່ໄດ້ລະບຸ, script ນີ້ແລ່ນ
calcRoiCovg ຕໍ່ຕົວຢ່າງຫນຶ່ງຫຼັງຈາກນັ້ນ, ໃຊ້ເວລາ ~ 30 ນາທີຕໍ່ຕົວຢ່າງ, ແຕ່ມັນຂ້າມ
ຕົວຢ່າງທີ່ມີຜົນຜະລິດຢູ່ໃນ roi_covgs ແລ້ວ.
--cmd-prefix
ລະບຸຄໍາສັ່ງສົ່ງວຽກທີ່ຈະຖືກນໍາຫນ້າແຕ່ລະຄໍາສັ່ງໃນ cmd-list-
ໄຟລ໌. ນີ້ເຮັດໃຫ້ການຍື່ນສະເຫນີ batch ງ່າຍຂຶ້ນ. ພຽງແຕ່ດໍາເນີນການໄຟລ໌ cmd-list-file ເປັນ shell
script ເພື່ອສົ່ງວຽກ. cmd-prefix ແມ່ນ "bsub" ຖ້າກຸ່ມຂອງທ່ານໃຊ້ວຽກ LSF
ຕາຕະລາງ, ຫຼື "qsub" ໃນ Torque. ເພີ່ມການໂຕ້ຖຽງຕາມຄວາມຈໍາເປັນ. ຕົວຢ່າງ, "bsub -M 4GB"
ກໍານົດຂອບເຂດຄວາມຈໍາອ່ອນຂອງ 4GB.
ໃຊ້ gmt-music-bmr-calc-covgp ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net