זהו הפקודה blasr שניתן להריץ בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
blasr - מפה רצפי SMRT לגנום התייחסות.
תַקצִיר
blasr קורא.באם genome.fasta -באם אאוט out.bam
blasr קורא.פאסטה genome.fasta
blasr קורא.פאסטה genome.fasta -זה genome.fasta.sa
blasr reads.bax.h5 genome.fasta [-זה genome.fasta.sa]
blasr reads.bax.h5 genome.fasta -זה genome.fasta.sa -maxScore -100 -minMatch 15 ...
blasr reads.bax.h5 genome.fasta -זה genome.fasta.sa -nproc 24 אאוט alignment.out ...
תיאור
blasr היא תוכנית מיפוי קריאה הממפה קריאות למיקומים בגנום על ידי אשכולות
התאמות מדויקות קצרות בין הקריאה לגנום, וציון אשכולות באמצעות יישור.
ההתאמות נוצרות על ידי חיפוש בכל הסיומות של קריאה כנגד הגנום באמצעות a
מערך סיומת. שיטות שרשור גלובליות משמשות לציון אשכולות של התאמות.
הכניסות היחידות הנדרשות ל-blasr הן קובץ קריאות וגנום התייחסות. זה
שימושי ביותר לקריאת מידע סינון, וזמן הריצה של המיפוי עשוי להצטמצם
באופן מהותי כאשר אינדקס מערך סיומת מחושב מראש ברצף ההפניה הוא
נָקוּב.
למרות שקריאות עשויות להיות מוקלטות בפורמט FASTA, הקלט המומלץ הוא קבצי PacBio BAM
כי אלה מכילים מידע ערך איכותי המשמש ביישור ומייצר
זיהוי גרסאות באיכות גבוהה יותר. למרות שניתן לבצע יישור בפורמטים שונים,
פורמט הפלט המומלץ הוא PacBio BAM. תמיכה בקבצי bax.h5 ו- plx.h5 תהיה
הוחלש. תמיכה בטבלאות אזור עבור קבצי h5 תהיה הוחלש.
כאשר אינדקס מערך סיומת של גנום אינו מצוין, מערך הסיומת נבנה לפני
לייצר יישור. זה עשוי להיות איטי בצורה בלתי רגילה כאשר הגנום גדול (למשל אנושי).
עדיף לחשב מראש את מערך הסיומות של גנום באמצעות התוכנית סופר(1), ו
לאחר מכן ציין את מערך הסיומת בשורת הפקודה באמצעות -זה genome.fa.sa.
הפרמטרים האופציונליים מחולקים באופן גס לשלוש קטגוריות: שליטה על עיגון,
ניקוד יישור, ופלט.
פרמטרי העיגון המוגדרים כברירת מחדל הם אופטימליים עבור גנומים קטנים ודגימות עם עד 5%
סטייה מהגנום הייחוס. הפרמטר העיקרי השולט במהירות וברגישות
האם ה -minMatch פָּרָמֶטֶר. עבור יישור גנום אנושי, ערך של 11 ומעלה הוא
מוּמלָץ. ניתן להשתמש במספר שיטות כדי להאיץ יישורים, על חשבון
אולי ירידה ברגישות.
ניתן להתעלם מאזורים שחוזרים על עצמם במהלך המיפוי על ידי הגבלת המספר של
ממקמת לקרוא מפות עם -maxAnchorsPerPosition אוֹפְּצִיָה. ערכים בין 500 ל
1000 יעילים בגנום האנושי.
עבור גנומים קטנים כגון גנומים חיידקיים או BACs, פרמטרי ברירת המחדל מספיקים
לרגישות מרבית ומהירות טובה.
אפשרויות
קֶלֶט קבצים
קורא
קורא.באם
קובץ PacBio BAM של קריאות. זהו הקלט המועדף ל blasr
בגלל ערך איכות עשיר (הכנסה, מחיקה והחלפה
ערכי איכות) המידע נשמר. האיכות הנוספת
מידע משפר את זיהוי הווריאציות ואת מהירות המיפוי.
קורא.פאסטה
קובץ ריבוי פאסטה של קריאות, אם כי כל קובץ פאסטה הוא קלט חוקי
reads.bax.h5|reads.plx.h5
הישן הוחלש פורמט פלט של קריאות SMRT.
input.fofn
קובץ של שמות קבצים
-זה suffixArrayFile
השתמש במערך הסיומת 'sa' לאיתור התאמות בין הקריאות ל-
התייחסות. מערך הסיומות הוכן על ידי ה סופר(1) תוכנית.
-ctab כרטיסייה
טבלה של ספירת tuple המשמשת להערכת מובהקות ההתאמה. זה לפי ה
תוכנית 'printTupleCountTable'. אמנם זה מהיר להיווצר תוך כדי תנועה,
אם יש הרבה קריאות של blasr, כדאי לחשב מראש את ה-ctab.
-אזור טבלה שולחן (הוחלש)
קרא בטבלת אזור קריאה בפורמט HDF למיסוך חלקים של קריאה.
זו עשויה להיות טבלה בודדת אם יש רק קובץ קלט אחד, או fofn. מתי
צוין טבלת אזורים, כל טבלת אזור בתוך ה-reads.plx.h5 or
מתעלמים מקבצי reads.bax.h5.
(מבוטל) אפשרויות ל שינוי קורא.
יש מידע נלווה על מחרוזות משנה של קריאות שמאוחסן ב-a
'טבלת אזור' עבור כל קובץ קריאה. מכיוון שמשתמשים ב-HDF, ייתכן שטבלת האזורים תהיה
חלק מקובץ .bax.h5 או .plx.h5, או קובץ נפרד. קריאה רציפה
מחרוזת משנה מהתבנית היא קריאה משנה, וכל קריאה עשויה להכיל מספר רב
קריאות משנה. ניתן להסיק את הגבולות של קריאות המשנה מטבלת האזורים
באופן ישיר או על פי הגדרה של גבולות מתאם. בדרך כלל טבלאות אזור
מכילים גם מידע על המיקום של אזורי האיכות הגבוהה והנמוכה של
קורא. לקריאה המופקת על ידי קריאות מזויפות מ-ZMWs ריקים יש התחלה באיכות גבוהה
קואורדינטה שווה לקצה באיכות גבוהה, ללא קריאה שמישה.
-useccs
יישר את רצף הקונצנזוס המעגלי (ccs), ולאחר מכן דווח על יישור של
ccs קריאת משנה לחלון שאליו מיופה ה-ccs. רק יישורים של
קריאות המשנה מדווחות.
-useccsall
דומה -useccs, אלא שכל קריאות המשנה מיושרות, ולא רק את
קריאות משנה המשמשות לקריאה ל-ccs. זה יכלול קריאות שרק חלק מהכיסוי
של התבנית.
-useccsdenovo
יישר את הקונצנזוס המעגלי, ודווח רק על יישור ה-ccs
סדר פעולות.
-noSplitSubreads (שֶׁקֶר)
אין לפצל קריאות משנה במתאמים. זה בדרך כלל שימושי רק כאשר
הגנום בגרסה מגולגלת של תבנית ידועה, ומכיל תבנית-
רצף adapter-reverse_template.
-התעלם מאזורים (שֶׁקֶר)
התעלם מכל מידע בטבלת האזורים.
-התעלם HQRegions (שֶׁקֶר)
התעלם מכל אזורי hq בטבלת האזורים.
יישור ל להגיש תלונה
-הטוב ביותר n (10)
דווח על החלק העליון n יישורים.
-hitPolicy (את כל)
ציין מדיניות לטיפול במספר התאמות מ-[all, allbest, random,
הכי אקראי, הכי שמאלי]
את כל דווח על כל היישורים.
הכי טוב
דווח על כל יישור הניקוד הגבוה ביותר.
אקראי דווח על יישור אקראי.
הכי אקראי
דווח על יישור אקראי ממספר רב של ניקוד גבוה באותה מידה
יישורים.
השמאלי ביותר
דווח על יישור שיש לו את ציון היישור הטוב ביותר ויש לו את
קואורדינטת המיפוי הקטנה ביותר בכל הפניה.
-מקום חוזר באופן אקראי (שֶׁקֶר)
מבושל! אם זה נכון, שווה ערך ל -hitPolicy הכי אקראי.
-זרע אקראי (0)
סיד עבור מחולל מספרים אקראיים. כברירת מחדל (0), השתמש בזמן נוכחי כמקור.
-noSortRefinedAlignments (שֶׁקֶר)
ברגע שנוצרות יישורי מועמדים ומקבלים ניקוד באמצעות דינמיקה דלילה
תכנות, הם מקבלים ניקוד מחדש באמצעות יישור מקומי המביא בחשבון
פרופילי שגיאה שונים. שימוש בהתבסס על היישור המקומי עשוי להשתנות
סדר החזרות הלהיטים.
-לאפשרAdjacentIndels
כאשר צוין, הוספה או מחיקה סמוכות מותרות. אחרת,
הכנסה ומחיקות סמוכות מתמזגות לפעולה אחת. באמצעות
ערכי איכות להנחות יישורים זוגיים עשויים להכתיב שככל שהוא גבוה יותר
יישור הסתברות מכיל הוספות או מחיקות סמוכות. נוֹכְחִי
כלים כגון GATK אינם מאפשרים זאת ולכן הם אינם מדווחים על ידי
ברירת המחדל.
תְפוּקָה פורמטים ו קבצים
אאוט הַחוּצָה (מָסוֹף)
כתוב פלט ל הַחוּצָה.
-סאם כתוב פלט בפורמט SAM.
-m t אם לא מדפיסים SAM, שנה את הפלט של היישור.
מתי t היא:
0 הדפס פיצוץ כמו פלט עם נוקלאוטידים תואמים המחברים של |.
1 הדפס רק תקציר: ניקוד ומיקום.
2 הדפס בפורמט Compare.xml.
3 הדפס בפורמט וולגרי (הוחלש).
4 הדפס גרסה טבלה ארוכה יותר של היישור.
5 הדפס בפורמט שניתן לנתח על ידי מכונה הנקרא על ידי
compareSequences.py.
-כּוֹתֶרֶת
הדפס כותרת בתור השורה הראשונה של קובץ הפלט המתאר את התוכן
של כל עמודה.
-titleTable כרטיסייה (ריק)
בנו טבלה של כותרות רצף הפניות. רצפי ההתייחסות הם
מונה לפי שורה, 0,1,... אינדקס ההתייחסות מודפס ביישור
תוצאות במקום את שם ההפניה המלא. זה הופך את הפלט לתמציתי,
במיוחד כאשר קיימות כותרות מילוליות בשמות הפניות.
-לא מיושר פילה
קריאות פלט שאינן מיושרות ל פילה
-גֶזֶר [אף לא אחד|קָשֶׁה|קריאה משנה|רך] (אף אחד)
השתמש ללא/קשה/קריאה משנה/גזירה רכה, רק עבור פלט SAM/BAM.
-printSAMQV (שֶׁקֶר)
ערכי איכות הדפסה לפלט SAM.
-cigarUseSeqMatch (שֶׁקֶר)
מחרוזות CIGAR בפלט SAM/BAM משתמשות ב-'=' ו-'X' כדי לייצג התאמת רצף
ואי התאמה במקום 'M'.
אפשרויות ל עיגון יישור אזורים.
זה ישפיע הכי הרבה על המהירות והרגישות.
-minMatch m (12)
אורך זרע מינימלי. minMatch גבוה יותר יאיץ את היישור, אך יקטן
רְגִישׁוּת.
-maxMatch l (inf)
הפסיקו למפות קריאה לגנום כאשר אורך ה-LCP מגיע l. זה
שימושי כאשר השאילתה היא חלק מההפניה, למשל כאשר
בניית יישור זוגי להרכבה דה נובו.
-maxLCPLength l (inf)
זהה ל -maxMatch.
-maxAnchorsPerPosition m (10000)
אין להוסיף עוגנים ממיקום אם הוא תואם ליותר מ m מיקומים ב
המטרה.
-advanceExactMatches E (0)
טריק נוסף להאצת יישורים עם התאמה - E פחות עוגנים.
במקום למצוא עוגנים בין הקריאה לגנום בכל
מיקום בקריאה, כאשר נמצא עוגן בעמדה i בקריאה של
אורך L, המיקום הבא בקריאה למציאת עוגן הוא ב-i+LE. להשתמש
זאת בעת יישור קונטיגים שכבר התאספו.
-nמועמדים n (10)
תעמוד בקצב n מועמדים למערך הטוב ביותר. ערך גדול של n רצון
מיפוי איטי מכיוון שלבי התכנות הדינמי האיטיים יותר מוחלים
יותר אשכולות של עוגנים שיכולים להיות שלב מגביל קצב כאשר קריאות קיימות
ארוך מאוד.
-עקבי (שֶׁקֶר)
מפה את כל קריאות המשנה של zmw (חור) למקום שבו תת-הקריאה המלאה הארוכה ביותר של
ה-zmw מיושר ל. זה מחייב להשתמש בטבלת האזור ובאזורי hq.
אפשרות זו פועלת רק כאשר קריאות הן בפורמט בסיס או דופק h5.
-concordantTemplate (חצי קריאה)
בחר תת-קריאה מלאה של zmw כתבנית למיפוי קונקורדנטי.
longestsubread - השתמש בתווית המשנה הארוכה ביותר במעבר מלא - השתמש ב-
חציון אורך מלא עובר קריאה משנה טיפוסית subread - השתמש במלא השני באורכו
לעבור קריאה משנה אם האורך של הקריאה המלאה הארוכה ביותר היא חריגה
-fastMaxInterval (שֶׁקֶר)
חיפוש מהיר מרווחים המגדילים את המקסימום כמועמדים ליישור. החיפוש
אינו ממצה כמו ברירת המחדל, אבל הוא הרבה יותר מהיר.
-aggressiveIntervalCut (שֶׁקֶר)
סנן בהסכמה מועמדי יישור לא מבטיחים, אם קיימים
לפחות מועמד אחד מבטיח. אם אפשרות זו מופעלת, blasr is
סביר להניח שיתעלם מיישורים קצרים של רכיבי ALU.
-fastSDP (שֶׁקֶר)
השתמש באלגוריתם היוריסטי מהיר כדי להאיץ תכנות דינמי דליל.
אפשרויות ל זיקוק להיטים
-sdpTupleSize K (11)
השתמש בגפרורים באורך K כדי להאיץ יישורי תכנות דינמיים. זֶה
שולט על הדיוק של הקצאת פערים ביישורים זוגיים פעם אחת במיפוי
נמצא, במקום מיפוי הרגישות עצמה.
-ציוןמטריקס ציון מַטרִיצָה מחרוזת
ציין מטריצת ניקוד חלופית לניקוד קריאות מהירות. המטריצה היא
בפורמט
ACGTN
אבקדה
C fghij
ג קלמנו
T pqrst
N uvwxy
יש להזין את הערכים a...y כמחרוזת מופרדת במירכאות: "abc
... y". ציונים נמוכים יותר טובים יותר, אז התאמות צריכות להיות פחות מחוסר התאמה
למשל a,g,m,s = -5 (התאמה), אי התאמה = 6.
-affineOpen ערך (10)
הגדר את העונש על פתיחת יישור קשור.
-affineExtend a (0)
שינוי אפין (הרחבה) עונש פער. ערך נמוך יותר מאפשר יותר פערים.
אפשרויות ל חפיפה/דינמית תכנות יישורים ו בזוגיות חֲפִיפָה ל de חדש
הרכבה.
-שימוש באיכות (שֶׁקֶר)
השתמש בערכים של החלפה/הכנסה/מחיקה/מיזוג כדי לצבור פער ו
עונשי אי-התאמה ביישורים זוגיים. כי ההכנסה ו
שיעורי המחיקה גבוהים בהרבה מההחלפה, זה יגרום לרבים
יישורים מעדיפים הכנסה/מחיקה על פני החלפה.nקונצנזוס נאיבי
שיטות קריאה יחמיצו לעתים קרובות פולימורפיזמים של החלפה. אפשרות זו
יש להשתמש בעת קריאת קונצנזוס בשיטת Quiver. יתר על כן,
כאשר לא משתמשים בערכי איכות לניקוד יישור, יהיה נמוך יותר
דיוק קונצנזוס באזורים הומולימרים.
-affineAlign (שֶׁקֶר)
צמצם את היישור באמצעות יישור מודרך מאפיין.
אפשרויות ל סינון קורא ו יישורים
-minReadLength l (50)
דלג על קריאות בעלות אורך מלא פחות מ l. קריאות משנה עשויות להיות קצרות יותר.
-minSubreadLength l (0)
אין ליישר תת קריאות באורך של פחות מ l.
-minRawSubreadScore m (0)
אין ליישר קריאות משנה שציון האיכות שלהן בטבלת האזור נמוך מ m
(ציוני האיכות צריכים להיות בטווח [0, 1000]).
-maxScore m (-200)
ציון מקסימלי לתפוקה (גבוה זה רע, שלילי טוב).
-minAlnLength
(0) דווח על יישורים רק אם האורכים שלהם גדולים מ-minAlnLength.
-minPctSimilarity (0) דווח על יישורים רק אם הדמיון שלהם באחוזים
גדול מ-minPctSimilarity.
-minPctAccuracy
(0) דווח על יישורים רק אם אחוז הדיוק שלהם גדול מ
דיוק מינימלי.
אפשרויות ל במקביל יישור
-nproc N (1)
יישר באמצעות N תהליכים. כל מבני הנתונים הגדולים כגון מערך הסיומת
וטבלת ספירת tuple משותפים.
-הַתחָלָה S (0)
אינדקס של הקריאה הראשונה כדי להתחיל ביישור. זה שימושי כאשר מרובים
מופעים פועלים על אותם נתונים, למשל כאשר הם נמצאים על מדף מרובה
אשכול.
-לִצְעוֹד S (1)
יישר קריאה אחת כל S קורא.
אפשרויות ל תת דגימה קורא.
-תת מדגם (0)
שיעור הקריאות לתת-מדגם אקראי (מבוטא בעשרוני) ו
ליישר.
-מספרי חור רשימה
כאשר צוין, יישר רק קריאות שמספרי החורים של ה-ZMW שלהם נמצאים רשימה. רשימה
הוא מחרוזת טווחים מופרדים בפסיקים, כגון '1,2,3,10-13'. אפשרות זו
עובד רק כאשר קריאות הן בפורמט bam, bax.h5 או plx.h5.
-h הדפס מידע עזרה.
QUOTE
כדי לצטט את BLASR, אנא השתמש ב: Chaisson MJ, וטסלר G., מיפוי מולקולה בודדת
קריאת רצף באמצעות יישור מקומי בסיסי עם חידוד עוקב (BLASR): תיאוריה
ויישום, BMC Bioinformatics 2012, 13:238.
השתמש ב-blasr באינטרנט באמצעות שירותי onworks.net