murasaki-mpi - آنلاین در ابر

murasaki-mpi را در ارائه دهنده هاست رایگان OnWorks از طریق Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا کنید.

این دستور murasaki-mpi است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.

در اوبونتو اجرا شود در فدورا اجرا کنید در ویندوز سیم اجرا شود در MACOS Sim اجرا کنید

برنامه:

نام

murasaki - لنگرها را بین چندین دنباله محاسبه کنید

خلاصه

murasaki [OPTIONS] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #محاسبه لنگر بین seq1.fa و seq2.gbk با استفاده از [pattern]
mpirun murasaki [OPTIONS] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #محاسبه لنگر بین seq1.fa و seq2.gbk با استفاده از [pattern] به صورت موازی از طریق MPI

شرح

موراساکی لنگرها را بر اساس تمام توالی های ارائه شده بر اساس کاربر ارائه شده ایجاد می کند
الگو و جداول هش اساساً هر پایه از هر دنباله با الگو پوشانده می شود،
تشکیل یک دانه که برای تولید هش استفاده می شود. محل دانه در ذخیره می شود
مخلوط جدول. هنگامی که همه دانه ها هش و ذخیره شدند، موراساکی جدول هش را اسکن می کند.
ایجاد لنگر برای همه دانه های منطبق. لنگر به یک مجموعه فواصل در سراسر a اشاره دارد
زیر مجموعه دنباله های ورودی اینها در نامفایل‌ها را انکر می‌کند و در آن شرح داده می‌شود
"فرمت های فایل". به‌طور پیش‌فرض، لنگرها حداکثر تا مینیمم آن‌ها به صورت زوجی گسترش می‌یابند
امتیاز تراز بدون شکاف به همان روش پارامتر X-drop به زیر یک آستانه می رسد
در جستجوهای BLAST و BLAST مانند.

پدر و مادرها
موراساکی استفاده می کند فاصله دانه الگوهای در در نظر گرفتن دانه ها آ فاصله دانه الگو is
معمولاً به صورت رشته ای از 1 و 0 بیان می شود که لزوماً با 1. 1 شروع و پایان می یابد.
نشان می دهد که این پایه بخشی از دانه در نظر گرفته می شود، در حالی که پایه های در موقعیت 0 هستند
نه به عنوان مثال با الگوی "1011" دنباله "ACGT" با دنباله های "AGGT" مطابقت دارد.
و "ATGT" اما نه "ACTT". تعداد 1 ها در الگو به عنوان "وزن" شناخته می شود
الگو، و تعداد 1 و 0 ترکیب شده "طول" الگو است. موراساکی
اجازه استفاده از هر الگوی دلخواه را می دهد که به صورت رشته ای از 1 و 0 بیان می شود و همچنین
الگوهای شکل "x:y" را به معنای "الگوی تصادفی وزن" تفسیر می کند x و طول y."

بدیهی است که انتخاب الگو بر حساسیت و ویژگی تأثیر دارد، اما آیا
یک الگوی "بهتر" از الگوی دیگر بستگی به کاربرد و دنباله های ورودی دارد
تحت نظر گرفتن. محاسبه "الگوهای بذر با فاصله حداکثر حساس" یک است
مشکل محاسباتی دشوار است و تعدادی مقاله تحقیقاتی در آن توضیح داده شده است
روش های مختلف برای تقریب ("RELATED READING"). به طور کلی، با این حال، "سنگین تر"
الگوهای دانه های فاصله دار نسبت به دانه های سبک تر حساسیت کمتری دارند، اما خاص تر هستند.
به طور حکایتی متوجه می‌شویم که دانه‌هایی با وزن تقریباً 60 تا 75 درصد (با طول حدود
24 برای باکتری ها و 36 تا 48 برای پستانداران) برای اکثر کاربردها خوب است. به شدت
گونه های مشابه (به عنوان مثال انسان و شامپانزه) از دانه های طولانی تر و سنگین تر بهره مند می شوند.

هاش توابع
توابع هش (و همچنین پارامترهای هش) به طور خودکار بر اساس سیستم تولید می شوند
محیط و توالی های ورودی اساسا دو نوع توابع هش وجود دارد
موجود در موراساکی: هش تطبیقی و رمزنگاری. هش های تطبیقی XOR هستند
ترکیبی از شیفت های بیتی مختلف دانه با تجزیه و تحلیل طراحی شده است فاصله دانه
الگو برای به حداکثر رساندن آنتروپی هش حاصل. هش های رمزنگاری در دسترس هستند
از طریق کتابخانه CryptoPP و استفاده از تمام الگوی دانه با فاصله برای تولید هش با استفاده از
یکی از هش های رمزنگاری رایج مانند MD5 یا SHA-1. توابع هش تطبیقی هستند
تقریبا همیشه سریعتر و کارآمدتر از MD5 و SHA-1 است، اما رمزنگاری
توابع برای مرجع در دسترس هستند و ممکن است به عنوان یک جایگزین در موارد بعید مفید باشند
رویدادی که با محیطی سروکار دارید که در آن هش تطبیقی نامناسب است (برای
به عنوان مثال دنباله ای که فقط از A و T تشکیل شده است (از هر 1 بیت 2 بیت واحد باقی می ماند)).

حافظه مقیاس بندی
موراساکی می تواند حافظه زیادی را به خود اختصاص دهد. ذخیره محل هر دانه در جدول هش می باشد
پرهزینه ترین بخش عملیات، تقریباً به بیت های "ceil(log_2(N))" در هر
دانه که در آن "N" طول کل دنباله است. مکان ها به طور پیش فرض در a ذخیره می شوند
قالب بیت بسته برای نزدیک شدن به حداقل نظری. دومین عنصر پرهزینه است
ساختار جدول هش، که در آن هر سطل یک سربار کوچک را حمل می کند و به سادگی استفاده نمی شود
فضای تلف شده سطل های جدول هش بیشتر (یعنی جدول هش طولانی تر) میزان مورد انتظار را کاهش می دهد
تعداد برخوردها که منجر به زمان اجرای سریعتر می شود. بنابراین موراساکی سعی می کند از آن استفاده کند
با بررسی حافظه موجود سیستم و استفاده تا حد امکان تا حد امکان
می تواند در حالی که هنوز همه مکان های بذر را ذخیره می کند. اگر این مقیاس خودکار است
ناکارآمد، تنظیم اندازه جدول هش مستقیماً از طریق گزینه های --hashbits|-b می تواند مجبور شود
اندازه جدول هش خاص اگر حافظه یک کامپیوتر برای ذخیره آن کافی نباشد
جدول هش مورد نظر، PARALLELIZATION را می توان برای توزیع جدول هش در سراسر استفاده کرد
چندین کامپیوتر

موازی سازی
موراساکی برای اجرای موازی با استفاده از MPI طراحی شده است. با مستندات مربوط به
تغییرات خاص اجرای MPI شما، با این حال به طور کلی روش اجرا
به نظر می رسد:

mpirun [گزینه‌های MPI] murasaki [گزینه‌های موراسکی] -p[الگو] [seq1 ...]

موراساکی به طور موازی تعداد پردازنده های موجود (NP) را به دو گروه تقسیم می کند:
گره های هشر و گره های ذخیره سازی. گره های ذخیره سازی جدول هش را بین هر کدام تقسیم می کنند
خود، هر کدام مسئول بخش متفاوتی از جدول هستند. گره های هاشر تقسیم می شوند
توالی ورودی در بین خود، هر کدام بخش جداگانه ای از ورودی را هش می کنند
ترتیب، و ارسال محل بذر به گره ذخیره سازی مناسب برای ذخیره سازی. چه زمانی
هش کردن تمام گره های هشر به پایان رسیده است، گره های ذخیره سازی بخش هش خود را اسکن می کنند
جدول و مجموعه‌های منطبق از دانه‌ها را به یک گره هشر که در آنجا مونتاژ می‌شوند ارسال کنید
لنگر و گسترش یافته است. در نهایت تمام گره‌های هشر مجموعه‌های لنگر مستقل خود را ترکیب می‌کنند
در یک مجموعه نهایی در تکرارهای "ceil(log_2(H))" (که در آن "H" تعداد هشر است
گره ها)، با هر گره هشر شماره 2h که لنگرهای خود را به هشر شماره 2h-1 در هر کدام می دهد.
تکرار.

زیرا تقریباً هیچ یک از مراحل موازی سازی نیاز به ارتباط بین آنها ندارد تمام گره ها ،
و هر دانه و هر لنگر را می توان به صورت موازی پردازش کرد، موراساکی به خوبی مقیاس می شود
به صورت موازی، زمانی که دوبرابر تعداد گره ها در دسترس هستند، تقریباً دو برابر سریعتر اجرا می شوند.
علاوه بر این، جدول هش به طور خودکار رشد می کند تا از مزایای ترکیبی استفاده کند
حافظه از چندین ماشین

OPTIONS

اکثر گزینه ها را می توان در شکل طولانی خود مشخص کرد (به عنوان مثال "--directory out" یا
"--directory=out") یا فرم کوتاه (مثلا "-dout"). گزینه های علامت گذاری شده با انتظار یک رشته،
یک عدد صحیح، یک شناور، و یک مقدار بولی ("yes/on/true/1" برای true،
"no/off/false/0" برای false). اکثر بولی ها می توانند مقدار را حذف کنند و مقدار را از آن تغییر دهند
هر چه بود برعکس

موراساکی گزینه های زیادی دارد. در اینجا ما آنها را برای کمک به دسته بندی ها جدا کرده ایم
دامنه گزینه های مختلف را متمایز می کند، اما در شرایط خاص گزینه خاصی را مشخص می کند
انتخاب ها ممکن است پیامدهای پیش بینی شده ای داشته باشند، و البته در نهایت اگر خروجی مشخص شده باشد
is بزرگ، زمان اجرا مورد نیاز الزاما خواهد بود طولانی. این تصور اشتباه است
همه چیز خارج از "گزینه های تنظیم" در بخش عملکرد هیچ تاثیری بر آن ندارد
عملکرد.

لنگر پارامتر مربوط گزینه های
این گزینه ها چیزی را شکل می دهند که "لنگر" در نظر گرفته می شود.

--الگو|-ص
الگوی دانه را مشخص می کند (به عنوان مثال 11101001010011011). با استفاده از فرمت
C<[ : ]> به طور خودکار یک الگوی وزن تصادفی تولید می کند
و طول

--repeatmask|-r
از تکرار داده های پوشانده شده (یعنی: atgc با حروف کوچک) صرفنظر کنید. توجه داشته باشید که برخی از فایل های دنباله ای هستند
صرفا در حروف کوچک توزیع شده است.

--seedfilter|-f
از دانه هایی که بیش از N بار رخ می دهند صرف نظر کنید. فوق العاده کند. به --hashfilter برای a مراجعه کنید
تقریب سریعتر

--hashfilter|-m
مانند --seedfilter اما به جای seed روی کلیدهای هش کار می کند. ممکن است باعث برخی وثیقه شود
به دانه های منحصر به فرد آسیب می رساند، اما سریعتر است.

--skipfwd|-F
رشته های رو به جلو را هش/تطبیق ندهید.

--skiprev|-R
رشته های مکمل معکوس را هش/تطبیق ندهید.

--skip1to1|-1
مسابقات را در امتداد خط 1:1 رد کنید (برای مقایسه با خود خوب است).

--hashonly|-Q
فقط هش. بدون خروجی لنگر، فقط آمار.

--hashskip|-S
هر n پایه را هش می کند. پیش فرض 1 است (یعنی هش کردن همه موقعیت ها). عرضه نکردن هیچ کدام
آرگومان مقدار پرش را 1 افزایش می دهد.

--join|-j
لنگرها را در n پایه از یکدیگر بپیوندید (پیش‌فرض: 0). تعیین یک D منفی دلالت دارد
-D*طول الگو.

--bitscore|-B
محاسبه یک بیت امتیاز را برای همه لنگرها تغییر می دهد (پیش فرض روشن است).

--seedterms|-T
حفظ اصطلاحات seed را تغییر می دهد (پیش فرض به خاموش). اینها برای محاسبات ضروری هستند
امتیازات TF-IDF).

--sectime|-e
همیشه زمان‌ها را بر حسب ثانیه نمایش می‌دهند، برخلاف سبک خوانا توسط انسان «1d 3h 45m 5s»
بار.

--mergefilter|-Y
منطبقات را فیلتر کنید که باعث بیش از این می شود D لنگرهای زیادی تولید شود
از 1 دانه (پیش فرض -Y100). برای غیرفعال کردن از -Y0 استفاده کنید.

-- فیلتر امتیاز
حداقل امتیاز بدون شکاف برای دانه ها تعیین کنید.

--شکاف ها|-/
به لنگرها اجازه دهید تا دنباله‌های D را رد کنند (پیش‌فرض 0).

--جزایر|-%
مانند --rifts=SD (که در آن S تعداد دنباله های ورودی است).

--fuzzyextend|-z
فعال کردن (پیش‌فرض) یا غیرفعال کردن پسوند فازی (یعنی تراز بدون شکاف) لنگرها.

--fuzzyextendlosslimit|-Z
برشی را تنظیم کنید که در آن گسترش ضربات فازی متوقف شود (یعنی پارامتر BLAST X).

-- لنگرهای شکافی
از لنگرهای با شکاف (درست) یا بدون شکاف (نادرست (پیش‌فرض)) استفاده کنید.

--امتیاز با حداقل جفت
در صورت مناسب (پیش‌فرض) امتیازدهی لنگر را با حداقل جفت انجام دهید. جایگزین است
میانگین حسابی (به ندرت مفید است، اما از نظر تئوری سریعتر). =item --rifts|-/

به لنگرها اجازه دهید تا دنباله‌های D را رد کنند (پیش‌فرض 0).

--جزایر|-%
مانند --rifts=SD (که در آن S تعداد دنباله های ورودی است).

--fuzzyextend|-z
فعال کردن (پیش‌فرض) یا غیرفعال کردن پسوند فازی (یعنی تراز بدون شکاف) لنگرها.

--fuzzyextendlosslimit|-Z
برشی را تنظیم کنید که در آن گسترش ضربات فازی متوقف شود (یعنی پارامتر BLAST X).

-- لنگرهای شکافی
از لنگرهای با شکاف (درست) یا بدون شکاف (نادرست (پیش‌فرض)) استفاده کنید.

--امتیاز با حداقل جفت
در صورت مناسب (پیش‌فرض) امتیازدهی لنگر را با حداقل جفت انجام دهید. جایگزین است
میانگین حسابی (به ندرت مفید است، اما از نظر تئوری سریعتر).

تولید گزینه های
این گزینه‌ها در درجه اول روی داده‌هایی که در کجا خروجی می‌شوند تأثیر می‌گذارند.

--دایرکتوری|-d
فهرست خروجی (پیش‌فرض: خروجی)

--نام|-n
نام تراز (پیش‌فرض: تست)

--repeatmap|-i
هنگامی که از -mergefilter استفاده می شود، حفظ یک نقشه تکراری را تغییر می دهد (به طور پیش فرض بله).

--هیستوگرام|-H
سطح محاسبات هیستوگرام: (-H به تنهایی به معنی -H1 است)

0 - بدون هیستوگرام (پیش فرض)
1 - داده های هیستوگرام اندازه سطل/حجم سطل
2 - امتیازات مبتنی بر سطل به anchors.detils
3 - داده های تعداد perbucket
4 - داده های perbucket + perpattern count

هر مقدار بالاتر از 2 صرفاً اکتشافی است و می تواند منجر به فایل های خروجی عظیم شود.

--tfidf|-k
نمره گذاری دقیق tfidf را از داخل موراساکی انجام دهید (به حافظه اضافی در لنگر نیاز دارد
زمان نسل). پیش فرض خیر است.

عملکرد / تنظیم گزینه های
این گزینه ها در درجه اول بر عملکرد تأثیر می گذارند و (به طور کلی) بر خروجی تأثیر نمی گذارند.

--quickhash|-q
یک تابع هش را مشخص کنید:

0 - سازگار با S-box (پیش‌فرض زمانی که جدول هش زیادی وجود دارد)
1 - برای ایجاد هش بیت ها را بسته بندی نکنید (فقط از کلمه اول استفاده کنید)
2 - ساده لوحانه از اولین هشبیت های الگو استفاده کنید
3 - به طور تطبیقی یک هش خوب (پیش فرض) پیدا کنید
**هش های تجربی CryptoPP**
4 - MD5
5 - SHA1
6 - گرداب
7 - CRC-32
8 - Adler-32

توجه: 3 و 0 تنها توابع هش "توصیه شده" و تنها آنها هستند
به طور خودکار انتخاب شده است. بقیه صرفاً برای مرجع ارائه شده اند. 1 و 7 و 8
حتی انتظار نمی رود از کل فضای هش استفاده کنند.

--hashbits|-b
از هش های بیت D استفاده کنید (برای n های 1 تا WORDSIZE. پیش فرض 26)

--hashtype|-t
ساختار داده جدول هش را برای استفاده انتخاب کنید:

OpenHash - بسته‌بندی زیرکلمه‌های هش‌بیت‌ها را باز کنید (پیش‌فرض زمانی که هش زیادی وجود دارد
میز ذخیره)
EcoHash - بسته بندی زیرکلمه های زنجیره ای هشبیت ها (پیش فرض)
ArrayHash - malloc/realloc (سریع اما مستعد تکه تکه شدن)
MSetHash - حافظه گزاف، تقریبا بی معنی.
--کاوشگری
0 - خطی، 1 - درجه دوم (پیش فرض). فقط برای --hashtype=OpenHash قابل اجراست.

--hitfilter|-h
حداقل تعداد ضربه هایی که باید به عنوان لنگر خروجی داده شود (پیش فرض 1). در PatternHunter این
2 است

--rseed|-s
بذر اعداد تصادفی برای الگوریتم‌های غیر قطعی (به عنوان مثال: تابع هش تطبیقی
نسل). اگر در حال انجام هر گونه مقایسه عملکردی هستید، احتمالاً ضروری است
که شما از همان seed برای هر اجرای تنظیمات یکسان استفاده می کنید. پیش فرض بدست می آید
از جانب زمان() (یعنی: ثانیه از سال 1970).

--حافظه|-M [ | ]
مقدار کل حافظه مورد نظر (به گیگابیت یا به عنوان درصد کل حافظه) را تنظیم کنید.

--reverseotf|-o
مکمل معکوس در حال پرواز (پیش‌فرض تا روشن) ایجاد کنید. خاموش کردن این پیش محاسبه ها
رشته های مکمل تمام معکوس و ذخیره آنها در حافظه، که به ندرت یک را فراهم می کند
بهبود عملکرد قابل اندازه گیری

--binaryseq
خواندن/نوشتن توالی باینری را فعال (پیش‌فرض) یا غیرفعال کنید

انطباقی مخلوط تابع مربوط:

گزینه های عملکرد مربوط به تولید تابع هش تطبیقی.

--hasherFairEntropy
از تخمین آنتروپی متعادل‌تر استفاده کنید (پیش‌فرض: بله).

--hasherCorrelationAdjust
تخمین های آنتروپی را برای منابع نزدیک با فرض برخی همبستگی تنظیم کنید (پیش فرض: بله).

--hasherTargetGACycles
برش چرخه الگوریتم ژنتیک تولید تابع هش تطبیقی.

--hasherEntropyAgro
چقدر تهاجمی بودن در مورد دنبال کردن حداکثر توابع هش آنتروپی (واقعی است.
پیش فرض 1 است).

لامپ ها خاص:
--هشر|-A [ | ]
تعداد فرآیندهایی که باید به عنوان هش استفاده شوند را مشخص کنید (فقط برای MPI اعمال می شود. اگر a
عدد بین 0 و 1 به نسبت np اشاره دارد).

--localhash|-K
در هر گره ذخیره سازی به جای ارسال آن از طریق شبکه، هش را به صورت محلی انجام دهید
(مفید برای شبکه های کند).

--mpidistro|-L
استفاده از MPI را برای توزیع داده‌های دنباله روی (اگر دنباله در دسترس باشد) تغییر می‌دهد
دیسک محلی در هر گره و سپس خاموش کردن آن ممکن است به طور بالقوه سرعت اولیه را تسریع کند
بارگذاری توالی).

--waittoanchor|-w
به تعویق انداختن محاسبات لنگر واقعی تا زمانی که همه مجموعه‌های مکان دریافت شوند (مانند
مخالف تلاش برای کار بین دریافت بسته های دانه).

--بافرها|-u
حداکثر تعداد بافرهای ناتمام مجاز در هنگام عبور پیام (0 به معنی
نامحدود). پیش فرض بر اساس تعداد گره های شرکت کننده تنظیم می شود. MPI ممکن است خراب شود
یا اجرا کنید بسیار اگر این مقدار خیلی زیاد باشد ضعیف است.

--nobuffers|-U
مانند --buffers=1.

--بزرگ |-I
ابتدا هشگرها را به گره های حافظه بزرگ اختصاص دهید.

--hostbalance|-l
اگر بله (پیش‌فرض): هش‌ها را به طور مساوی در بین همه گره‌ها پخش کنید.
اگر نه: هنگام تخصیص کارها، نام میزبان را نادیده بگیرید.
--Memorybalance|-a
اگر بله (پیش‌فرض): ذخیره هش را بین گره‌ها بر اساس مقدار موجود متعادل کنید
رم.
اگر نه: فضای ذخیره سازی را به طور یکسان توزیع کنید. این احتمال بیشتر برای دستیابی به زمان اجرا بهینه است، اما
ممکن است از حافظه آنچنان کارآمد استفاده نکند.
--dismerge|-<
اگر بله (پیش‌فرض): در مرحله ادغام، گره‌های ذخیره‌سازی دانه‌ها را به هر موجودی ارسال می‌کنند
هشر.
اگر نه: همه دانه ها را فقط به یک گره ارسال کنید.
--distcollect|->
اگر بله (پیش‌فرض): داده‌های لنگر را از همه هش‌ها جمع‌آوری کنید.
اگر نه: تمام دانه ها را فقط به گره مونتاژ نهایی ارسال کنید.
--mpiredirectoutput
اگر بله (پیش‌فرض): هر رتبه stdout/stderr خود را به یک فایل جداگانه هدایت می‌کند
(murasaki-mpiout-N).
اگر نه: آنچه را که به طور طبیعی به دست می آید انجام دهید (یعنی: توسط mpirun مدیریت می شود (برای OpenMPI مراجعه کنید
--output-filename و --tag-output in mpirun(1))).
--keepstdoe
فایل های murasaki-mpiout را در مورد موفقیت پاک نکنید.

--sysvipc|-V
از System V IPC برای مذاکره با مناطق حافظه مشترک استفاده کنید (وقتی یک میزبان اجرا می شود، حافظه را ذخیره می کند
چندین گره). پیش فرض درست است.

جهانی گزینه ها:
--کلمه|-v
پرحرفی را افزایش می دهد.

--نسخه|-V
اطلاعات نسخه را چاپ می کند و خارج می شود.

--کمک|-؟
یک پیام راهنما چاپ می کند و خارج می شود.

فایل فرمها

موراساکی دارای طیف گسترده ای از فایل های خروجی است که فرمت های اکثر آنها در نظر گرفته شده است
شهودی تمام فایل های خروجی با مقدار پارامتر --name پیشوند می شوند. اولیه
فرمت های فایل خروجی در اینجا توضیح داده شده است. فایل‌ها مبتنی بر خط هستند و برگه‌ها محدود می‌شوند مگر اینکه
در غیر این صورت مشخص شده است.

.seqs
.seqs نشان می دهد که چه دنباله هایی به عنوان ورودی استفاده شده است، 1 در هر خط. این فایل مورد استفاده قرار می گیرد
برنامه های مختلف در ارتباط با فایل .anchors، بنابراین به طور کلی مهم است که
محتویات فایل های توالی صحیح را منعکس می کند. جابجایی نتایج لنگر بین کامپیوترها
ممکن است منجر به تغییر مسیرها شود و کاربر مجبور شود فایل .seqs را به روز کند. به عنوان یک
جایگزین، همیشه استفاده از مسیرهای نسبی می تواند این مشکل را کاهش دهد.

.لنگرها فایل ها
این فایل ها 1 لنگر در هر خط، با 3 تاپل در هر دنباله هستند. هر تاپل نشان دهنده
مختصات شروع و توقف و رشته بازه لنگر در هر دنباله. را
ترتیب توالی با ترتیب موجود در فایل .seqs مطابقت دارد. مختصات ساختار یافته است
به طوری که 1 به پایه اول در دنباله، 2 به دوم و غیره اشاره دارد. منفی
مقادیر به دنباله مکمل معکوس اشاره دارد که در آن -1 برابر است آخرین پایه معکوس
دنباله مکمل (یعنی: پایه اول مکمل در دنباله رو به جلو). "رشته"
عنصر یک '+' یا '-' است که صرفاً با علامت مختصات مطابقت دارد (این اضافی است
اطلاعات، اما برای ساده‌تر کردن تجزیه یا فیلتر کردن نگهداری می‌شوند).

برای مثال:

1 18 + -1 -18 -

این خط یک لنگر را توصیف می کند که در آن 18 پایه اول سکانس اول با آن مطابقت دارند
18 پایه اول متمم معکوس دنباله دوم.

.لنگرها.جزئیات
این یک فرمت فایل قدیمی است، اما توسط GMV برای محاسبه آمار مانند TF-IDF استفاده می شود
نمرات، و به همین دلیل در اطراف نگه داشته شده است. فایل .anchors.details هم همینطور است
فرمت و اطلاعات به عنوان فایل .anchors، اما بعد از انکر تاپل دو تاپل دیگر وجود دارد
اصطلاحات: یک امتیاز، و یک لیست با کاما (،) محدود شده از جفت ترم و تعداد (نوشته شده)
"ترم: شمارش"). داده های امتیاز و تعداد ممکن است بسته به "--هیستوگرام" متفاوت باشد
انتخاب های گزینه

.anchors.bitscore
اصطلاح "bitscore" در اینجا یک نام اشتباه است، اما به دلایل تاریخی حفظ شده است. در واقعیت،
این فایل حاوی میانگین تعداد پایه های مطابق و طول هر لنگر است
(خط به خط مربوط به فایل .anchors).

.stats.tfidf
حاوی امتیازات لنگر TF-IDF (مطابق با خط به خط فایل .anchors).

هیستوگرام
حاوی یک هیستوگرام ساده از استفاده از جدول هش است. اولین فیلد اندازه سطل است،
و دوم فرکانس است. به عنوان مثال یک فایل هیستوگرام مانند این:

1 24
2 1

نشان می دهد که 24 سطل هش وجود دارد که تنها 1 مکان را ذخیره می کند (یعنی 24 سطل منحصر به فرد
دانه ها) و 1 سطل هش 2 مکان را ذخیره می کند (یعنی 1 دانه که با 2 مکان مطابقت دارد (یا 2)
دانه های غیر همسان که منجر به برخورد هش شد)).

.گزینه ها
سابقه ای از گزینه های مورد استفاده در هنگام اجرای موراساکی را حفظ می کند.

.تکرار می کند
فایل .repeats یک رکورد از "repeats" را همانطور که توسط گزینه --mergefilter تعریف شده است ذخیره می کند.
(یعنی دانه هایی که بیش از حد مجاز لنگر ایجاد می کردند). در این فایل هر کدام
رکورد تکرار با یک خط خالی از هم جدا می شود. یک رکورد تکراری به شکل زیر است:

R: G.GCCTTT.T.ACT.CACAA..AT
0: 2145540494 -425039256 -113794380 1998323403
1: 2480929222 -1874514626 2543723555 -2550045172

خط اول (همیشه با پیشوند "R:") خود دانه تکرار شونده را نشان می دهد (جایی که . هستند.
پایه های پوشانده شده توسط الگو). خطوط بعدی نشان می‌دهد که این دانه‌ها در کجا قرار گرفته‌اند
دنباله های ورودی (در سکانس اول (0) و دوم (1)). توجه داشته باشید که اگر وجود ندارد
در یک دنباله خاص مشاهده می شود، یک خط خالی برای آن دنباله ندارد. برای
مثال:

R: G.GCCTTT.T.ACT.CACAA..AT
0: 2145540494 -425039256 -113794380 1998323403
2: 2480929222 -1874514626 2543723555 -2550045172

همچنین یک فایل .repeats معتبر است.

از murasaki-mpi به صورت آنلاین با استفاده از خدمات onworks.net استفاده کنید