এটি হল bwa কমান্ড যা আমাদের একাধিক বিনামূল্যের অনলাইন ওয়ার্কস্টেশন যেমন উবুন্টু অনলাইন, ফেডোরা অনলাইন, উইন্ডোজ অনলাইন এমুলেটর বা MAC OS অনলাইন এমুলেটর ব্যবহার করে OnWorks ফ্রি হোস্টিং প্রদানকারীতে চালানো যেতে পারে।
কার্যক্রম:
NAME এর
bwa - বারোজ-হুইলার অ্যালাইনমেন্ট টুল
সাইনোপিসিস
bwa সূচক ref.fa
bwa mem ref.fa reads.fq > aln-se.sam
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam
bwa aln ref.fa short_read.fq > aln_sa.sai
bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam
bwa bwasw ref.fa long_read.fq > aln.sam
বর্ণনাঃ
BWA হল একটি সফ্টওয়্যার প্যাকেজ যা একটি বৃহৎ রেফারেন্সের বিপরীতে লো-ডিভারজেন্ট সিকোয়েন্স ম্যাপ করার জন্য
জিনোম, যেমন মানব জিনোম। এটি তিনটি অ্যালগরিদম নিয়ে গঠিত: BWA-ব্যাকট্র্যাক, BWA-SW
এবং BWA-MEM। প্রথম অ্যালগরিদমটি 100bp পর্যন্ত ইলুমিনা সিকোয়েন্স পড়ার জন্য ডিজাইন করা হয়েছে,
বাকি দুটি দীর্ঘ ক্রমানুসারে 70bp থেকে 1Mbp পর্যন্ত। BWA-MEM এবং BWA-SW ভাগ
অনুরূপ বৈশিষ্ট্য যেমন দীর্ঘ পড়া সমর্থন এবং বিভক্ত প্রান্তিককরণ, কিন্তু BWA-MEM, যা
সর্বশেষ, সাধারণত উচ্চ-মানের প্রশ্নের জন্য সুপারিশ করা হয় কারণ এটি দ্রুত এবং আরও বেশি
সঠিক BWA-MEM-এর 70-100bp ইলুমিনার জন্য BWA-ব্যাকট্র্যাকের থেকেও ভালো পারফরম্যান্স রয়েছে
পড়ে।
সমস্ত অ্যালগরিদমের জন্য, BWA কে প্রথমে রেফারেন্স জিনোমের জন্য FM-সূচক তৈরি করতে হবে
(দ্য সূচক আদেশ)। সারিবদ্ধকরণ অ্যালগরিদমগুলি বিভিন্ন উপ-কমান্ডের সাথে আহ্বান করা হয়:
aln/samse/স্যাম্প BWA-ব্যাকট্র্যাকের জন্য, bwasw BWA-SW এর জন্য এবং Mem BWA-MEM অ্যালগরিদমের জন্য।
কম্যান্ডস এবং বিকল্প
সূচক bwa সূচক [-p উপসর্গ] [-a algo টাইপ] db.fa
FASTA বিন্যাসে সূচক ডাটাবেস ক্রম।
বিকল্পগুলি:
-p STR আউটপুট ডাটাবেসের উপসর্গ [ডিবি ফাইলের নাম হিসাবে একই]
-a STR BWT সূচক নির্মাণের জন্য অ্যালগরিদম। BWA এর জন্য দুটি অ্যালগরিদম প্রয়োগ করে
BWT নির্মাণ: is এবং bwtsw. প্রথম অ্যালগরিদম একটু দ্রুত
ছোট ডাটাবেসের জন্য কিন্তু বড় RAM প্রয়োজন এবং ডাটাবেসের জন্য কাজ করে না
মোট দৈর্ঘ্য 2GB এর বেশি। দ্বিতীয় অ্যালগরিদম থেকে অভিযোজিত হয়
BWT-SW সোর্স কোড। তাত্ত্বিকভাবে এটি ট্রিলিয়ন ডাটাবেসের সাথে কাজ করে
ঘাঁটিগুলির এই বিকল্পটি নির্দিষ্ট করা না হলে, উপযুক্ত অ্যালগরিদম
স্বয়ংক্রিয়ভাবে নির্বাচিত হবে।
Mem bwa Mem [-aCHjMpP] [-t n থ্রেড] [-k minSeedLen] [-w ব্যান্ডউইথ] [-d zDropoff] [-r
বীজ বিভাজন অনুপাত] [-c maxOcc] [-D চেইন শ্যাডো] [-m maxMateSW] [-W minSeedMatch] [-A
ম্যাচ স্কোর] [-B এমএম পেনাল্টি] [-O gapOpenPen] [-E gapExtPen] [-L ক্লিপপেন] [-U
পেন আনপেন] [-R আরজিলাইন] [-H এইচডিলাইন] [-v ভার্বোস লেভেল] db. উপসর্গ reads.fq [mates.fq]
BWA-MEM অ্যালগরিদমের সাথে 70bp-1Mbp ক্যোয়ারী সিকোয়েন্স সারিবদ্ধ করুন। সংক্ষেপে, অ্যালগরিদম
সর্বাধিক সঠিক মিল (MEMs) এর সাথে সারিবদ্ধকরণ এবং তারপর প্রসারিত করে কাজ করে
অ্যাফাইন-গ্যাপ স্মিথ-ওয়াটারম্যান অ্যালগরিদম (SW) সহ বীজ।
If mates.fq ফাইলটি অনুপস্থিত এবং বিকল্প -p সেট করা নেই, এই কমান্ডটি ইনপুট সংক্রান্ত
পড়া একক শেষ হয়. যদি mates.fq বর্তমান, এই কমান্ড অনুমান করে i-ম পড়া
reads.fq এবং i-ম পড়া mates.fq একটি পঠিত জোড়া গঠন. যদি -p ব্যবহৃত হয়
কমান্ড 2 অনুমান করেi-ম এবং (2i+1)-ম পঠিত reads.fq একটি পঠিত জোড়া গঠন
(এই ধরনের ইনপুট ফাইলকে বলা হয় ইন্টারলিভড)। এক্ষেত্রে, mates.fq উপেক্ষা করা হয়। ভিতরে
পেয়ারড-এন্ড মোড, Mem কমান্ড পঠিত অভিযোজন এবং সন্নিবেশ অনুমান করবে
পাঠের একটি ব্যাচ থেকে আকার বিতরণ।
BWA-MEM অ্যালগরিদম স্থানীয় প্রান্তিককরণ সম্পাদন করে। এটি একাধিক প্রাথমিক উত্পাদন করতে পারে
একটি ক্যোয়ারী সিকোয়েন্সের বিভিন্ন অংশের জন্য প্রান্তিককরণ। এই জন্য একটি গুরুত্বপূর্ণ বৈশিষ্ট্য
দীর্ঘ ক্রম যাইহোক, কিছু টুল যেমন Picard এর markDuplicates কাজ করে না
বিভক্ত প্রান্তিককরণ সহ। এক বিকল্প ব্যবহার বিবেচনা করতে পারেন -M ছোট বিভক্ত হিট পতাকাঙ্কিত করতে
গৌণ হিসাবে
অ্যালগরিথ বিকল্পগুলি:
-t INT থ্রেড সংখ্যা [1]
-k INT ন্যূনতম বীজ দৈর্ঘ্য। এর চেয়ে ছোট মেলে INT মিস করা হবে. দ্য
প্রান্তিককরণ গতি সাধারণত এই মানের প্রতি সংবেদনশীল নয় যদি না এটি
উল্লেখযোগ্যভাবে 20 থেকে বিচ্যুত হয়। [19]
-w INT ব্যান্ড প্রস্থ। মূলত, এর চেয়ে দীর্ঘ ব্যবধান INT পাওয়া যাবে না। বিঃদ্রঃ
যে সর্বোচ্চ ফাঁক দৈর্ঘ্য স্কোরিং ম্যাট্রিক্স দ্বারা প্রভাবিত হয় এবং
হিট দৈর্ঘ্য, শুধুমাত্র এই বিকল্প দ্বারা নির্ধারিত হয় না। [100]
-d INT অফ-ডায়াগনাল এক্স-ড্রপঅফ (জেড-ড্রপঅফ)। পার্থক্য যখন এক্সটেনশন বন্ধ করুন
সেরা এবং বর্তমান এক্সটেনশন স্কোরের মধ্যে উপরে |i-j|*A+INT,
কোথায় i এবং j ক্যোয়ারী এবং রেফারেন্সের বর্তমান অবস্থান,
যথাক্রমে এবং A হল ম্যাচিং স্কোর। জেড-ড্রপঅফ অনুরূপ
ব্লাস্টের এক্স-ড্রপঅফ ব্যতীত এটি যেকোনও একটিতে ব্যবধানকে শাস্তি দেয় না
প্রান্তিককরণে ক্রম। জেড-ড্রপঅফ শুধুমাত্র অপ্রয়োজনীয় এড়ায় না
এক্সটেনশন, কিন্তু একটি দীর্ঘ ভাল প্রান্তিককরণের ভিতরে দুর্বল প্রান্তিককরণ হ্রাস করে।
[100]
-r ভাসা একটি MEM এর থেকে দীর্ঘ সময়ের জন্য পুনরায় বীজ ট্রিগার করুন minSeedLen*ভাসা. এটি একটি চাবিকাঠি
পারফরম্যান্স টিউন করার জন্য হিউরিস্টিক প্যারামিটার। বড় মান কম ফলন
বীজ, যা দ্রুত প্রান্তিককরণ গতির দিকে নিয়ে যায় কিন্তু সঠিকতা কম। [১.৫]
-c INT একটি MEM এর বেশি থাকলে তা বাতিল করুন INT জিনোমে ঘটনা। এই হল একটি
সংবেদনশীল পরামিতি। [৫০০]
-D INT থেকে ছোট চেইন ড্রপ ভাসা দীর্ঘতম ওভারল্যাপিং চেইনের ভগ্নাংশ
[0.5]
-m INT সর্বোচ্চ পারফর্ম করুন INT সঙ্গীর রাউন্ড-SW [50]
-W INT যদি বীজের ঘাঁটির সংখ্যা তার থেকে কম হয় তবে একটি চেইন ফেলে দিন INT. এই
বিকল্পটি প্রাথমিকভাবে দীর্ঘ কন্টিগ/পড়ার জন্য ব্যবহৃত হয়। ইতিবাচক হলে, এটিও
বীজ ফিল্টারিং প্রভাবিত করে। [০]
-P পেয়ারড-এন্ড মোডে, শুধুমাত্র হারিয়ে যাওয়া হিটগুলি উদ্ধার করতে SW সঞ্চালন করুন কিন্তু করবেন না
একটি সঠিক জুড়ি মাপসই হিট খুঁজে বের করার চেষ্টা করুন.
স্কোরিং বিকল্পগুলি:
-A INT ম্যাচিং স্কোর। [১]
-B INT অমিল পেনাল্টি। ক্রম ত্রুটির হার প্রায়: {.75 *
মেয়াদ[-লগ ইন করুন(4) * B/A]}। [৪]
-O INT[,INT]
গ্যাপ ওপেন পেনাল্টি। যদি দুটি সংখ্যা নির্দিষ্ট করা হয়, প্রথমটি হল জরিমানা
একটি অপসারণ খোলার এবং দ্বিতীয়টি একটি সন্নিবেশ খোলার জন্য। [৬]
-E INT[,INT]
গ্যাপ এক্সটেনশন পেনাল্টি। যদি দুটি সংখ্যা নির্দিষ্ট করা হয়, প্রথমটি হল
একটি অপসারণ বাড়ানোর শাস্তি এবং একটি সন্নিবেশ বাড়ানোর জন্য দ্বিতীয়। ক
দৈর্ঘ্যের ব্যবধান k এর দাম O + k*E (যেমন -O একটি শূন্য দৈর্ঘ্য খোলার জন্য হয়
ফাঁক)। [১]
-L INT[,INT]
ক্লিপিং পেনাল্টি। SW এক্সটেনশন সম্পাদন করার সময়, BWA-MEM ট্র্যাক রাখে
ক্যোয়ারী শেষে পৌঁছানোর সেরা স্কোর। এই স্কোর এর চেয়ে বড় হলে
সেরা SW স্কোর বিয়োগ ক্লিপিং পেনাল্টি, ক্লিপিং হবে না
প্রয়োগ করা মনে রাখবেন যে এই ক্ষেত্রে, SAM AS ট্যাগ সেরা SW রিপোর্ট করে
স্কোর; ক্লিপিং জরিমানা অনুমান করা হয় না. দুটি সংখ্যা প্রদান করা হলে,
প্রথমটি 5'-এন্ড ক্লিপিংয়ের জন্য এবং দ্বিতীয়টি 3'-এন্ড ক্লিপিংয়ের জন্য। [৫]
-U INT একটি unpaired পঠিত জোড়া জন্য শাস্তি. BWA-MEM একটি জোড়াবিহীন পঠিত জোড়া স্কোর করে
স্কোররিড1+স্কোররিড2- হিসাবেINT এবং একটি জোড়া হিসাবে স্কোর
scoreRead1+scoreRead2-ইনসার্টপেনাল্টি। এটি এই দুটি স্কোরের সাথে তুলনা করে
আমরা জোড়া লাগাতে বাধ্য করা উচিত কিনা তা নির্ধারণ করুন। একটি বড় মান আরো বাড়ে
আক্রমনাত্মক পড়া জোড়া [১৭]
ইনপুট আউটপুট বিকল্পগুলি:
-p স্মার্ট পেয়ারিং। যদি দুটি সংলগ্ন রিডের একই নাম থাকে, তবে তারা
একটি পঠিত জোড়া গঠন হিসাবে বিবেচনা করা হয়। এইভাবে, পেয়ারড-এন্ড এবং একক-এন্ড রিড হয়
একটি একক FASTA/Q স্ট্রীমে মিশ্রিত করা যেতে পারে।
-R STR সম্পূর্ণ পড়া গ্রুপ হেডার লাইন. '\t' ব্যবহার করা যেতে পারে STR এবং হবে
আউটপুট SAM-এ একটি TAB-এ রূপান্তরিত। রিড গ্রুপ আইডি সংযুক্ত করা হবে
আউটপুটে প্রতিটি পড়ার জন্য। একটি উদাহরণ হল '@RG\tID:foo\tSM:bar'। [খালি]
-H ARG যদি ARG @ দিয়ে শুরু হয়, তাহলে এটি একটি স্ট্রিং হিসাবে ব্যাখ্যা করা হয় এবং সন্নিবেশ করা হয়
আউটপুট SAM হেডারে; অন্যথায়, ARG এর সাথে একটি ফাইল হিসাবে ব্যাখ্যা করা হয়
SAM হেডারে ঢোকানো ফাইলে @ দিয়ে শুরু হওয়া সমস্ত লাইন।
[খালি]
-T INT এর চেয়ে কম স্কোর সহ আউটপুট প্রান্তিককরণ করবেন না INT. এই বিকল্পটি প্রভাবিত করে
আউটপুট এবং মাঝে মাঝে SAM পতাকা 2। [30]
-j প্রাথমিক সমাবেশের অংশ হিসাবে ALT কনটিগসকে বিবেচনা করুন (অর্থাৎ উপেক্ষা করুন
db.prefix.alt ফাইল)।
-h INT[,INT2]
যদি কোন প্রশ্নের বেশি না থাকে INT 80% এর বেশি স্কোর সহ হিট
সেরা হিট, XA ট্যাগে সেগুলিকে আউটপুট করুন। যদি INT2 নির্দিষ্ট করা হয়েছে, BWA-MEM
পর্যন্ত আউটপুট INT2 যদি তালিকায় একটি ALT কনটিগের হিট থাকে।
[5,200]
-a একক-এন্ড বা আন-পেয়ারড-এন্ড রিডের জন্য পাওয়া সমস্ত প্রান্তিককরণ আউটপুট করুন।
এই প্রান্তিককরণগুলি গৌণ প্রান্তিককরণ হিসাবে পতাকাঙ্কিত হবে৷
-C SAM আউটপুটে FASTA/Q মন্তব্য যুক্ত করুন। এই বিকল্প ব্যবহার করা যেতে পারে
পঠিত মেটা তথ্য (যেমন বারকোড) SAM আউটপুটে স্থানান্তর করুন। বিঃদ্রঃ
যে FASTA/Q মন্তব্য (হেডার লাইনে একটি স্থানের পরে স্ট্রিং)
SAM স্পেক মেনে চলতে হবে (যেমন BC:Z:CGTAC)। বিকৃত মন্তব্য বাড়ে
ভুল SAM আউটপুট।
-Y পরিপূরক প্রান্তিককরণের জন্য নরম ক্লিপিং CIGAR অপারেশন ব্যবহার করুন। দ্বারা
ডিফল্ট, BWA-MEM প্রাথমিক প্রান্তিককরণের জন্য নরম ক্লিপিং ব্যবহার করে এবং হার্ড
সম্পূরক প্রান্তিককরণের জন্য ক্লিপিং।
-M ছোট বিভক্ত হিটগুলিকে গৌণ হিসাবে চিহ্নিত করুন (পিকার্ড সামঞ্জস্যের জন্য)।
-v INT আউটপুটের ভার্বোস স্তর নিয়ন্ত্রণ করুন। এই বিকল্পটি পুরোপুরি হয়নি
BWA জুড়ে সমর্থিত। আদর্শভাবে, সমস্ত আউটপুট নিষ্ক্রিয় করার জন্য একটি মান 0
to stderr; 1 শুধুমাত্র আউটপুট ত্রুটির জন্য; 2 সতর্কতা এবং ত্রুটির জন্য; জন্য 3
সমস্ত স্বাভাবিক বার্তা; ডিবাগিংয়ের জন্য 4 বা উচ্চতর। যখন এই অপশন লাগে
মান 4, আউটপুট SAM নয়। [৩]
-I ফ্লোট[,ফ্লোট[,INT[,INT]]]
গড়, মানক বিচ্যুতি (অনুপস্থিত থাকলে গড়ের 10%), সর্বোচ্চ (4
অনুপস্থিত থাকলে গড় থেকে সিগমা এবং সন্নিবেশের মিন (অনুপস্থিত থাকলে 4 সিগমা)
আকার বন্টন. শুধুমাত্র FR স্থিতিবিন্যাস প্রযোজ্য. গতানুগতিক,
BWA-MEM এই সংখ্যাগুলি এবং যথেষ্ট প্রদত্ত জোড়া অভিযোজন অনুমান করে৷
পড়ে [অনুমানিত]
aln bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-l seedLen] [-t nThrds] [-cRN] [-M misMsc] [-O gapOsc] [-E gapEsc]
[-q trimQual] >
ইনপুট রিডের SA স্থানাঙ্কগুলি খুঁজুন। সর্বোচ্চ maxSeedDiff পার্থক্য হয়
প্রথমটিতে অনুমোদিত seedLen পরবর্তী এবং সর্বোচ্চ maxDiff পার্থক্য হয়
পুরো ক্রমানুসারে অনুমোদিত।
বিকল্পগুলি:
-n NUM টি মানটি INT হলে বা অনুপস্থিত ভগ্নাংশ হলে সর্বাধিক সম্পাদনা দূরত্ব৷
ফ্লোট হলে সারিবদ্ধকরণ 2% ইউনিফর্ম বেস ত্রুটি হার। পরেরটির ক্ষেত্রে,
সর্বাধিক সম্পাদনা দূরত্ব স্বয়ংক্রিয়ভাবে বিভিন্ন পড়ার জন্য নির্বাচিত হয়
দৈর্ঘ্য [০.০৪]
-o INT সর্বাধিক সংখ্যক ফাঁক খোলে [1]
-e INT সর্বোচ্চ সংখ্যক গ্যাপ এক্সটেনশন, কে-ডিফারেন্স মোডের জন্য -1 (অনুমতি দেওয়া হচ্ছে
দীর্ঘ ফাঁক) [-১]
-d INT 3'-এন্ডের দিকে INT bp এর মধ্যে একটি দীর্ঘ মুছে ফেলার অনুমতি দিন [16]
-i INT শেষের দিকে INT bp-এর মধ্যে একটি ইনডেল অনুমোদন না করুন [5]
-l INT বীজ হিসাবে প্রথম INT পরের অংশ নিন। যদি INT কোয়েরির চেয়ে বড় হয়
ক্রম, বীজ বপন নিষ্ক্রিয় করা হবে. দীর্ঘ পড়ার জন্য, এই বিকল্পটি
সাধারণত `-k 25'-এর জন্য 35 থেকে 2 পর্যন্ত। [inf]
-k INT বীজের মধ্যে সর্বাধিক সম্পাদনা দূরত্ব [2]
-t INT থ্রেডের সংখ্যা (মাল্টি-থ্রেডিং মোড) [১]
-M INT অমিল পেনাল্টি। BWA একটি স্কোর সহ সাবঅপ্টিমাল হিট অনুসন্ধান করবে না
এর চেয়ে কম (সেরাস্কোর-মিসএমএসসি)। [৩]
-O INT গ্যাপ ওপেন পেনাল্টি [১১]
-E INT গ্যাপ এক্সটেনশন পেনাল্টি [৪]
-R INT যদি সমানভাবে INT-এর বেশি না থাকে তাহলে সাবঅপ্টিমাল অ্যালাইনমেন্ট নিয়ে এগিয়ে যান
সেরা হিট এই বিকল্পটি শুধুমাত্র পেয়ারড-এন্ড ম্যাপিংকে প্রভাবিত করে। এই বৃদ্ধি
থ্রেশহোল্ড গতির খরচে জোড়ার নির্ভুলতা উন্নত করতে সাহায্য করে,
বিশেষ করে ছোট পড়ার জন্য (~32bp)।
-c রিভার্স কোয়েরি কিন্তু পরিপূরক নয়, যা সারিবদ্ধ করার জন্য প্রয়োজন
রঙের স্থান। (0.6.x থেকে অক্ষম)
-N পুনরাবৃত্ত অনুসন্ধান অক্ষম করুন। এর বেশি না সহ সমস্ত হিট maxDiff পার্থক্য
পাওয়া যাবে এই মোড ডিফল্ট তুলনায় অনেক ধীর.
-q INT রিড ট্রিমিংয়ের জন্য পরামিতি। বিডব্লিউএ ট্রিম করে একটি রিড ডাউন
argmax_x{\sum_{i=x+1}^l(INT-q_i)} যদি q_l
দৈর্ঘ্য [০]
-I ইনপুটটি ইলুমিনা 1.3+ রিড ফরম্যাটে রয়েছে (গুণমান ASCII-64 এর সমান)।
-B INT বারকোডের দৈর্ঘ্য 5'-এন্ড থেকে শুরু হয়। কখন INT ইতিবাচক,
প্রতিটি রিডের বারকোড ম্যাপিংয়ের আগে ছাঁটাই করা হবে এবং লেখা হবে
এ BC SAM ট্যাগ। পেয়ারড-এন্ড রিডের জন্য, উভয় প্রান্ত থেকে বারকোড
সংযুক্ত [০]
-b ইনপুট রিড সিকোয়েন্স ফাইলটি বিএএম ফরম্যাট উল্লেখ করুন। পেয়ারড-এন্ডের জন্য
ডেটা, একটি জোড়ার দুটি প্রান্তকে একসাথে গোষ্ঠীবদ্ধ করতে হবে এবং বিকল্পগুলি -1 or -2
সাধারণত কোন প্রান্ত ম্যাপ করা উচিত তা নির্দিষ্ট করতে প্রয়োগ করা হয়। সাধারণ
BAM ফরম্যাটে পেয়ার-এন্ড ডেটা ম্যাপ করার জন্য কমান্ড লাইনগুলি হল:
bwa aln ref.fa -b1 reads.bam > 1.sai
bwa aln ref.fa -b2 reads.bam > 2.sai
bwa sampe ref.fa 1.sai 2.sai reads.bam reads.bam > aln.sam
-0 কখন -b নির্দিষ্ট করা আছে, ম্যাপিংয়ে শুধুমাত্র একক-এন্ড রিড ব্যবহার করুন।
-1 কখন -b নির্দিষ্ট করা আছে, ম্যাপিংয়ে শুধুমাত্র পঠিত জোড়ায় প্রথম পঠিতটি ব্যবহার করুন
(একক-এন্ড রিড এবং দ্বিতীয় পড়া এড়িয়ে যান)।
-2 কখন -b নির্দিষ্ট করা আছে, ম্যাপিং-এ পঠিত জোড়ায় শুধুমাত্র দ্বিতীয় পঠিতটি ব্যবহার করুন।
samse bwa samse [-n maxOcc] >
একক-এন্ড রিড দেওয়া SAM বিন্যাসে প্রান্তিককরণ তৈরি করুন। পুনরাবৃত্তিমূলক হিট হবে
এলোমেলোভাবে নির্বাচিত করা।
বিকল্পগুলি:
-n INT পঠিত জোড়ার জন্য XA ট্যাগে আউটপুট করার জন্য সর্বাধিক সংখ্যক প্রান্তিককরণ
সঠিকভাবে যদি কোনো রিডে INT-এর বেশি হিট থাকে, তাহলে XA ট্যাগ হবে না
লিখিত [৩]
-r STR রিড গ্রুপটিকে `@RG\tID:foo\tSM:bar'-এর মতো বিন্যাসে নির্দিষ্ট করুন। [খালি]
স্যাম্প bwa sampe [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>
পেয়ারড-এন্ড রিড দেওয়া SAM ফর্ম্যাটে সারিবদ্ধকরণ তৈরি করুন। পুনরাবৃত্তিমূলক পঠিত জোড়া
এলোমেলোভাবে স্থাপন করা হবে।
বিকল্পগুলি:
-a INT একটি পঠিত জোড়ার জন্য সর্বাধিক সন্নিবেশের আকার সঠিকভাবে ম্যাপ করা হয়েছে বলে বিবেচিত হবে৷
0.4.5 থেকে, এই বিকল্পটি শুধুমাত্র তখনই ব্যবহার করা হয় যখন যথেষ্ট ভাল না থাকে
সন্নিবেশ মাপের বন্টন অনুমান করতে প্রান্তিককরণ। [৫০০]
-o INT পেয়ারিংয়ের জন্য একটি পড়ার সর্বাধিক ঘটনা। আরো ঘটনা সহ একটি পড়া
একটি একক শেষ পড়া হিসাবে গণ্য করা হবে. এই পরামিতি হ্রাস দ্রুত সাহায্য করে
পেয়ারিং [100000]
-P ডিস্ক অপারেশন (বেস-স্পেস) কমাতে মেমরিতে সম্পূর্ণ এফএম-সূচক লোড করুন
শুধুমাত্র পড়ে)। এই বিকল্পের সাথে, কমপক্ষে 1.25N বাইট মেমরি প্রয়োজন,
যেখানে N হল জিনোমের দৈর্ঘ্য।
-n INT পঠিত জোড়ার জন্য XA ট্যাগে আউটপুট করার জন্য সর্বাধিক সংখ্যক প্রান্তিককরণ
সঠিকভাবে যদি কোনো রিডে INT-এর বেশি হিট থাকে, তাহলে XA ট্যাগ লেখা হবে না।
[3]
-N INT অসঙ্গতিপূর্ণ পড়ার জন্য XA ট্যাগে আউটপুট করার জন্য সর্বাধিক সংখ্যক প্রান্তিককরণ
জোড়া (singletons বাদে)। যদি কোনো রিডে INT-এর বেশি হিট থাকে, তাহলে XA ট্যাগ
লেখা হবে না। [১০]
-r STR রিড গ্রুপটিকে `@RG\tID:foo\tSM:bar'-এর মতো বিন্যাসে নির্দিষ্ট করুন। [খালি]
bwasw bwa bwasw [-a matchScore] [-b mmPen] [-q gapOpenPen] [-r gapExtPen] [-t n থ্রেডস]
[-w ব্যান্ডউইথ] [-T থ্রেস] [-s hspIntv] [-z zBest] [-N nHspRev] [-c thresCoef]
[mate.fq]
ক্যোয়ারী ক্রম সারিবদ্ধ করুন in.fq ফাইল কখন mate.fq উপস্থিত আছে, জুটিবদ্ধভাবে সঞ্চালন-
শেষ প্রান্তিককরণ। পেয়ারড-এন্ড মোড শুধুমাত্র ইলুমিনা শর্ট-ইনসার্ট পড়ার জন্য কাজ করে
লাইব্রেরি পেয়ারড-এন্ড মোডে, BWA-SW এখনও বিভক্ত প্রান্তিককরণ আউটপুট করতে পারে কিন্তু
তারা সব সঠিকভাবে জোড়া না হিসাবে চিহ্নিত করা হয়; সঙ্গীর পদ লেখা হবে না
যদি সঙ্গীর একাধিক স্থানীয় হিট থাকে।
বিকল্পগুলি:
-a INT একটি ম্যাচের স্কোর [1]
-b INT পেনাল্টি মেলেনি [৩]
-q INT গ্যাপ ওপেন পেনাল্টি [১১]
-r INT গ্যাপ এক্সটেনশন পেনাল্টি। k আকারের সংলগ্ন ব্যবধানের শাস্তি হল৷
q+k*r [২]
-t INT মাল্টি-থ্রেডিং মোডে থ্রেডের সংখ্যা [১]
-w INT ব্যান্ডেড অ্যালাইনমেন্টে ব্যান্ড প্রস্থ [৩৩]
-T INT ন্যূনতম স্কোর থ্রেশহোল্ড একটি [37] দ্বারা বিভক্ত
-c ভাসা কোয়েরি দৈর্ঘ্য অনুযায়ী থ্রেশহোল্ড সামঞ্জস্যের জন্য গুণাঙ্ক। একটি দেওয়া
l-দীর্ঘ ক্যোয়ারী, একটি হিট ধরে রাখার থ্রেশহোল্ড হল
a*সর্বোচ্চ{T,c*log(l)}। [৫.৫]
-z INT Z- সেরা হিউরিস্টিকস। উচ্চতর -z গতির খরচে নির্ভুলতা বাড়ায়। [১]
-s INT একটি বীজ শুরু করার জন্য সর্বাধিক SA ব্যবধানের আকার। উচ্চতর -গুলি বৃদ্ধি পায়
গতির খরচে নির্ভুলতা। [৩]
-N INT বাদ দেওয়ার জন্য ফলস্বরূপ প্রান্তিককরণ সমর্থনকারী বীজের ন্যূনতম সংখ্যা
বিপরীত প্রান্তিককরণ। [৫]
স্যাম শ্রেণীবিন্যাস বিন্যাসে
এর আউটপুট 'আলন' কমান্ডটি বাইনারি এবং শুধুমাত্র BWA ব্যবহারের জন্য ডিজাইন করা হয়েছে। BWA আউটপুট
SAM (সিকোয়েন্স অ্যালাইনমেন্ট/মানচিত্র) বিন্যাসে চূড়ান্ত প্রান্তিককরণ। প্রতিটি লাইন গঠিত:
┌────┬───────┬──────────────────────────────────── ──────────────────────┐
│পর্বতমালার টোল │ ক্ষেত্র │ বিবরণ │
├────┼───────┼──────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ প্রশ্ন (জোড়া) NAME │
│ 2 │ ফ্ল্যাগ │ বিটওয়াইজ ফ্ল্যাগ │
│ 3 │ RNAME │ রেফারেন্স সিকোয়েন্স NAME │
│ 4 │ POS │ ক্লিপ করা অনুক্রমের 1-ভিত্তিক বাম অবস্থান/স্থানাঙ্ক │
│ 5 │ MAPQ │ ম্যাপিং গুণমান (ফ্রেড-স্কেলড) │
│ 6 │ CIAGR │ বর্ধিত CIGAR স্ট্রিং │
│ 7 │ MRNM │ মেট রেফারেন্স সিকোয়েন্স NaMe (`=' যদি RNAME এর মতো হয়) │
│ 8 │ MPOS │ 1-ভিত্তিক মেট পজিশন │
│ 9 │ ISIZE │ অনুমিত সন্নিবেশ সাইজ │
│10 │ SEQ │ কোয়েরি SEQuence একই স্ট্র্যান্ডে রেফারেন্স হিসাবে │
│11 │ QUAL │ ক্যোয়ারী কোয়ালিটি (ASCII-33 ফ্রেড বেস কোয়ালিটি দেয়) │
│12 │ OPT │ পরিবর্তনশীল ঐচ্ছিক ক্ষেত্র ফরম্যাটে TAG:VTYPE:VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘
FLAG ক্ষেত্রের প্রতিটি বিট এইভাবে সংজ্ঞায়িত করা হয়েছে:
┌────┬────────┬─────────────────────────────────── ────┐
│chr │ পতাকা │ বিবরণ │
├────┼────────┼─────────────────────────────────── ────┤
│ p │ 0x0001 │ পঠনটি ক্রমানুসারে জোড়া হয়েছে │
│ P │ 0x0002 │ রিডটি একটি সঠিক জোড়ায় ম্যাপ করা হয়েছে │
│ u │ 0x0004 │ ক্যোয়ারী ক্রম নিজেই আনম্যাপ করা হয়েছে │
│ U │ 0x0008 │ সঙ্গীটি আনম্যাপ করা হয়েছে │
│ r │ 0x0010 │ প্রশ্নের স্ট্র্যান্ড (বিপরীতের জন্য 1) │
│ R │ 0x0020 │ সঙ্গীর স্ট্র্যান্ড │
│ 1 │ 0x0040 │ পঠিতটি একটি জোড়ায় প্রথম পঠিত │
│ 2 │ 0x0080 │ রিড হল একটি জোড়ায় দ্বিতীয় পঠিত │
│ s │ 0x0100 │ প্রান্তিককরণ প্রাথমিক নয় │
│ f │ 0x0200 │ QC ব্যর্থতা │
│ d │ 0x0400 │ অপটিক্যাল বা PCR ডুপ্লিকেট │
│ S │ 0x0800 │ সম্পূরক প্রান্তিককরণ │
└────┴────────┴─────────────────────────────────── ────┘
অনুগ্রহ করে চেক করুনhttp://samtools.sourceforge.net> বিন্যাস স্পেসিফিকেশন এবং জন্য
সারিবদ্ধকরণ পোস্ট-প্রসেসিংয়ের জন্য সরঞ্জাম।
BWA নিম্নলিখিত ঐচ্ছিক ক্ষেত্র তৈরি করে। `X' দিয়ে শুরু হওয়া ট্যাগগুলি BWA-এর জন্য নির্দিষ্ট।
┌────┬──────────────────────────────────────────── ──────┐
│ট্যাগ │ Meaning │
├────┼──────────────────────────────────────────── ──────┤
│NM │ দূরত্ব সম্পাদনা করুন │৷
│MD │ অমিল অবস্থান/বেস │
│AS │ প্রান্তিককরণ স্কোর │
│BC │ বারকোড ক্রম │
│SA │ সম্পূরক প্রান্তিককরণ │
├────┼──────────────────────────────────────────── ──────┤
│X0 │ সেরা হিটের সংখ্যা │৷
│X1 │ BWA দ্বারা পাওয়া সাবঅপ্টিমাল হিটের সংখ্যা │৷
│XN │ রেফারেন্সে অস্পষ্ট ঘাঁটির সংখ্যা │
│XM │ প্রান্তিককরণে অমিলের সংখ্যা │
│XO │ ফাঁক খোলার সংখ্যা │
│XG │ গ্যাপ এক্সটেনশনের সংখ্যা │
│XT │ প্রকার: অনন্য/পুনরাবৃত্তি/N/Mate-sw │
│XA │ বিকল্প হিট; বিন্যাস: /(chr,pos,CIGAR,NM;)*/ │
├────┼──────────────────────────────────────────── ──────┤
│XS │ সাবঅপ্টিমাল অ্যালাইনমেন্ট স্কোর │
│XF │ ফরোয়ার্ড/রিভার্স অ্যালাইনমেন্ট থেকে সমর্থন │
│XE │ সহায়ক বীজের সংখ্যা │
└────┴──────────────────────────────────────────── ──────┘
মনে রাখবেন যে XO এবং XG BWT অনুসন্ধানের দ্বারা তৈরি করা হয়েছে যখন Smith-Waterman দ্বারা CIGAR স্ট্রিং
প্রান্তিককরণ এই দুটি ট্যাগ CIGAR স্ট্রিং এর সাথে অসামঞ্জস্যপূর্ণ হতে পারে। এটি একটি বাগ না।
নোট ON সংক্ষিপ্ত-পড়ুন শ্রেণীবিন্যাস
শ্রেণীবিন্যাস সঠিকতা
যখন বীজ বপন অক্ষম করা হয়, তখন বিডব্লিউএ সর্বাধিক সমন্বিত একটি প্রান্তিককরণ খুঁজে পাওয়ার গ্যারান্টি দেয় maxDiff
পার্থক্য সহ maxGapO ফাঁক খোলে যা ভিতরে ঘটবে না nIndelEnd bp দিকে
কোয়েরির হয় শেষ। দীর্ঘ ব্যবধান পাওয়া যেতে পারে যদি maxGapE ইতিবাচক, কিন্তু তা নয়
সব হিট খুঁজে নিশ্চিত. যখন বীজ বপন সক্ষম করা হয়, তখন BWA এর আরও প্রয়োজন যে প্রথমটি
seedLen পরবর্তীতে এর বেশি নেই maxSeedDiff পার্থক্য
যখন ফাঁকা প্রান্তিককরণ নিষ্ক্রিয় করা হয়, তখন BWA ইল্যান্ডের মতো একই প্রান্তিককরণ তৈরি করবে বলে আশা করা হচ্ছে
সংস্করণ 1, ইলুমিনা অ্যালাইনমেন্ট প্রোগ্রাম। যাইহোক, BWA ডাটাবেসে `N' পরিবর্তন করে
এলোমেলো নিউক্লিওটাইডের সিকোয়েন্স, এই এলোমেলো সিকোয়েন্সের হিটও গণনা করা হবে। হিসেবে
ফলস্বরূপ, BWA একটি অনন্য হিটকে পুনরাবৃত্তি হিসাবে চিহ্নিত করতে পারে, যদি এলোমেলো ক্রমগুলি ঘটে
ক্রম অনুরূপ যা ডাটাবেসের মধ্যে unqiue হওয়া উচিত.
ডিফল্টরূপে, যদি সেরা হিট অত্যন্ত পুনরাবৃত্তিমূলক না হয় (-R দ্বারা নিয়ন্ত্রিত), BWA এছাড়াও খুঁজে পায়
সমস্ত হিট আরও একটি অমিল রয়েছে; অন্যথায়, BWA শুধুমাত্র সমানভাবে সেরা হিটগুলি খুঁজে পায়। বেস
হিট মূল্যায়নে গুণমান বিবেচনা করা হয় না। পেয়ারড-এন্ড মোডে, BWA জোড়া সব হিট
এটা পাওয়া গেছে এটি রেসকিউ রিডের জন্য আনম্যাপড রিডের জন্য স্মিথ-ওয়াটারম্যান সারিবদ্ধকরণ সম্পাদন করে
একটি উচ্চ ত্রুটির হার সহ, এবং সম্ভাব্য প্রান্তিককরণ ঠিক করতে উচ্চ-মানের অস্বাভাবিক জোড়ার জন্য
ত্রুটি।
আনুমানিক হিসাব সন্নিবেশ আয়তন বিতরণ
BWA অনুমান করে 256*1024 পঠিত জোড়া প্রতি সন্নিবেশ আকার বিতরণ। এটি প্রথমে সংগ্রহ করে
একক-এন্ড মানের 20 বা উচ্চতর এবং তারপরে ম্যাপ করা উভয় প্রান্তের সাথে জোড়া পাঠ
মধ্যমা গণনা করে (Q2), নিম্ন এবং উচ্চতর চতুর্থাংশ (Q1 এবং Q3)। এটা গড় অনুমান এবং
জোড়া থেকে সন্নিবেশের আকার বন্টনের বৈচিত্র্য যার সন্নিবেশের আকারের মধ্যে রয়েছে
ব্যবধান [Q1-2(Q3-Q1), Q3+2(Q3-Q1)]। বিবেচিত একটি জোড়ার জন্য সর্বাধিক দূরত্ব x
সঠিকভাবে জোড়া (SAM পতাকা 0x2) সমীকরণ Phi((x-mu)/sigma)=x/L*p0 সমাধান করে গণনা করা হয়,
যেখানে mu হল গড়, সিগমা হল ইনসার্ট সাইজ ডিস্ট্রিবিউশনের স্ট্যান্ডার্ড ত্রুটি, L হল
জিনোমের দৈর্ঘ্য, p0 অস্বাভাবিক জোড়ার আগে এবং Phi() হল মান
ক্রমবর্ধমান বিতরণ ফাংশন। ম্যাপিংয়ের জন্য ইলুমিনা শর্ট-ইনসার্ট মানুষের কাছে পড়ে
জিনোম, x গড় থেকে প্রায় 6-7 সিগমা দূরে। কোয়ার্টাইল, গড়, প্রকরণ এবং x হবে
স্ট্যান্ডার্ড ত্রুটি আউটপুট মুদ্রিত.
স্মৃতি প্রয়োজন
bwtsw অ্যালগরিদমের সাথে, সম্পূর্ণ মানব জিনোম সূচীকরণের জন্য 5GB মেমরি প্রয়োজন
ক্রম সংক্ষিপ্ত পড়ার জন্য, aln কমান্ড ~3.2GB মেমরি ব্যবহার করে এবং স্যাম্প কমান্ড ব্যবহার করে
~5.4GB
গতি
bwtsw অ্যালগরিদম সহ মানুষের জিনোম সিকোয়েন্সগুলিকে সূচীকরণে 3 ঘন্টা সময় লাগে৷ ইনডেক্সিং ছোট
আইএস অ্যালগরিদম সহ জিনোমগুলি দ্রুততর, তবে আরও মেমরির প্রয়োজন৷
প্রান্তিককরণের গতি মূলত ক্যোয়ারী সিকোয়েন্স (r) এর ত্রুটির হার দ্বারা নির্ধারিত হয়।
প্রথমত, বিডব্লিউএ অনেক পার্থক্য সহ হিটের চেয়ে কাছাকাছি নিখুঁত হিটের জন্য অনেক দ্রুত চলে,
এবং এটি l+2 পার্থক্য সহ একটি হিট অনুসন্ধান করা বন্ধ করে যদি একটি l- পার্থক্য হিট পাওয়া যায়। এই
মানে r বেশি হলে BWA খুব ধীর হবে কারণ এই ক্ষেত্রে BWA-কে হিটগুলি দেখতে হবে
অনেক পার্থক্য এবং এই হিট খুঁজছেন ব্যয়বহুল. দ্বিতীয়ত, প্রান্তিককরণ
পিছনের অ্যালগরিদম গতিকে [k log(N)/m] এর প্রতি সংবেদনশীল করে তোলে, যেখানে k সর্বাধিক অনুমোদিত
পার্থক্য, N ডাটাবেসের আকার এবং m একটি প্রশ্নের দৈর্ঘ্য। অনুশীলনে, আমরা k নির্বাচন করি
wrt r এবং তাই r হল অগ্রণী ফ্যাক্টর। আমি ডেটাতে BWA ব্যবহার করার সুপারিশ করব না
সঙ্গে r>0.02।
সংক্ষিপ্ত পড়ার জন্য পেয়ারিং ধীর। এটি প্রধানত কারণ ছোট পঠিত আরো আছে
নকল হিট এবং SA স্থানাঙ্ককে ক্রোমোসোমাল স্থানাঙ্কে রূপান্তর করা অত্যন্ত ব্যয়বহুল।
পরিবর্তন IN BWA -0.6
সংস্করণ 0.6 থেকে, BWA 4GB-এর চেয়ে দীর্ঘ রেফারেন্স জিনোমের সাথে কাজ করতে সক্ষম হয়েছে।
এই বৈশিষ্ট্যটি সামনে এবং বিপরীত সম্পূরক জিনোমকে সংহত করা সম্ভব করে তোলে
একটি FM-সূচক, যা BWA-শর্ট এবং BWA-SW উভয়ের গতি বাড়ায়। একটি ট্রেডঅফ হিসাবে, BWA আরো ব্যবহার করে
মেমরি কারণ এটিকে 64-বিট পূর্ণসংখ্যার মধ্যে সমস্ত অবস্থান এবং র্যাঙ্ক রাখতে হবে, দ্বিগুণ বড়
পূর্ববর্তী সংস্করণে ব্যবহৃত 32-বিট পূর্ণসংখ্যার চেয়ে।
সর্বশেষ BWA-SW এছাড়াও 100bp-এর থেকে দীর্ঘ পেয়ার-এন্ড রিডের জন্য কাজ করে। BWA এর তুলনায়-
সংক্ষেপে, BWA-SW উচ্চ অনন্য পাঠের জন্য আরও নির্ভুল এবং আরও শক্তিশালী হওয়ার প্রবণতা রয়েছে
আপেক্ষিক দীর্ঘ INDEL এবং কাঠামোগত রূপ। তবুও, BWA-শর্ট সাধারণত বেশি থাকে
অনেক সাবঅপ্টিমাল হিট থেকে সর্বোত্তম হিটকে আলাদা করার ক্ষমতা। ম্যাপিং এর পছন্দ
অ্যালগরিদম প্রয়োগের উপর নির্ভর করতে পারে।
onworks.net পরিষেবা ব্যবহার করে bwa অনলাইন ব্যবহার করুন