זוהי הפקודה Ray שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
ריי - מרכיבים גנומים במקביל באמצעות ממשק העברת ההודעות
תַקצִיר
mpiexec -n NUMBER_OF_RANKS ריי -k KMERLENGTH -p l1_1.fastq l1_2.fastq -p l2_1.fastq
l2_2.fastq -o מבחן
mpiexec -n NUMBER_OF_RANKS Ray Ray.conf # עם פקודות בקובץ
תיאור:
מרכיב הגנום של Ray בנוי על גבי ה-RayPlatform, תוסף גנרי מבוסס
מנוע מחשוב מבוזר ומקביל המשתמש בממשק העברת הודעות עבור
העברת הודעות.
ריי מתמקד במספר יישומים:
- הרכבת גנום דה נובו (עם ריי וניל) - הרכבת מטא-גנום דה נובו (עם
Ray Meta) - הרכבת תעתיק דה נובו (עובד, אבל לא נבדק הרבה) -
כימות של שפע של contig - כימות של קונסורציית מיקרוביום
חברים (עם Ray Communities) - כימות של ביטוי תמליל - טקסונומיה
פרופיל דגימות (עם Ray Communities) - פרופיל גנים אונטולוגי של דגימות
(עם Ray Ontologies)
עזרה
מציג דף עזרה זה.
-הפך
מציג גרסת Ray ואפשרויות הידור.
שימוש בקובץ תצורה
ניתן להפעיל את Ray עם mpiexec -n 16 Ray Ray.conf קובץ התצורה יכול
כלול הערות (החל ב-#).
אורך ק-מר
-k kmerLength
בוחר את אורך ה-k-mers. ערך ברירת המחדל הוא 21. הוא חייב להיות מוזר כי
קודקודים בהשלמה הפוכה מאוחסנים יחד. האורך המרבי מוגדר ב
קומפילציה מאת MAXKMERLENGTH k-mers גדולים יותר מנצלים יותר זיכרון.
תשומות
-p leftSequenceFile rightSequenceFile [ממוצע סטיית תקן של מרחק חיצוני]
מספק שני קבצים המכילים קריאות קצה מזווגות. ממוצע OuterDistance ו
סטיית התקן מחושבת אוטומטית אם לא מסופקת.
-i interleavedSequenceFile [ממוצע סטיית מרחק רגילה]
מספק קובץ אחד המכיל קריאות קצה מזווגות. ממוצע חיצוני
ו-StandardDeviation מחושבים אוטומטית אם לא מסופקים.
-s sequenceFile
מספק קובץ המכיל קריאה בקצה יחיד.
יציאות
-o ספריית פלט
מציין את הספרייה עבור הקבצים המופקים. ברירת המחדל היא RayOutput
אפשרויות הרכבה (ברירות המחדל פועלות היטב)
-לבטל-מיחזור
משבית מיחזור קריאה במהלך קריאת ההרכבה ישוחרר ב-3 מקרים: 1.
המרחק לא התאים לזוג 2. הקריאה לא פגשה את בן זוגה 3. ה
אוכלוסיית הספרייה מצביעה על מיקום שגוי, ראה מעבר מוגבל של חזרות
עם רצפים זוגיים. סבסטיאן בויסוורט, אלני גודזארידיס, פרנסואה לוויולט
& ז'אק קורבייל. סדנת לוויין שנתית ראשונה של RECOMB בנושא מקביל מסיבי
רצף, 26-27 במרץ 2011, ונקובר, לפני הספירה, קנדה.
-נטרול-פיגום
משבית את הפיגום.
-אורך-מינימלי-קונטי minimumContigLength
משנה את אורך הקונטיג המינימלי, ברירת המחדל היא 100 נוקלאוטידים
-חלל-צבע
פועל ב-color-space צריך קבצי csfasta. מופעל אוטומטית אם קבצי csfasta
מסופקים.
-שימוש-מקסימום-כיסוי-זרע maximumSeedCoverageDepth
מתעלם מכל זרע עם עומק כיסוי מעל סף זה. ברירת המחדל היא
4294967295.
-שימוש-מינימום-כיסוי-זרעים minimumSeedCoverageDepth
מגדיר את עומק כיסוי הזרעים המינימלי. כל נתיב עם עומק כיסוי נמוך מ
זה יימחק. ברירת המחדל היא 0.
מנוע אחסון מבוזר (כל הערכים הללו הם עבור כל דירוג MPI)
-פריחה-פילטר-סיביות ביטים
מגדיר את מספר הביטים עבור מסנן Bloom ברירת המחדל היא 268435456 סיביות, 0 סיביות
משבית את מסנן Bloom.
-דליי-שולחן-אשיש דליים
מגדיר את המספר הראשוני של דליים. חייב להיות כוח של 2! ערך ברירת מחדל:
268435456
-האש-טבלת-דליים-לכל-קבוצה דליים
מגדיר את מספר הדליים לקבוצה עבור אחסון דליל ערך ברירת מחדל: 64, חייב להיות
בין >=1 ל-<= 64
-סף-טבלת-hash-load-factor סף
מגדיר את סף מקדם העומס לשינוי גודל בזמן אמת ערך ברירת מחדל: 0.75, חייב להיות
>= 0.5 ו<1
-האש-טבלה-רב-רב
מפעיל מילוליות עבור מנוע האחסון המבוזר
שפע ביולוגי
-לחפש SearchDirectory
מספק ספרייה המכילה קבצי fasta לחיפוש בגרף de Bruijn.
שפע ביולוגי ייכתב ל-RayOutput/BiologicalAbundances See
Documentation/BiologicalAbundances.txt
-צבע אחד לכל קובץ
מגדיר צבע אחד לכל קובץ במקום אחד בכל רצף. כברירת מחדל, כל רצף ב
לכל קובץ יש צבע שונה. עבור קבצים עם מספר גדול של רצפים, באמצעות
צבע אחד לקובץ עשוי להיות יעיל יותר.
פרופיל טקסונומי עם גרפים צבעוניים של דה Bruijn
-עם-טקסונומיה Genome-to-Taxon.tsv TreeOfLife-Edges.tsv Taxon-Names.tsv
מספק טקסונומיה. מחשב וכותב פרופילים טקסונומיים מפורטים. לִרְאוֹת
Documentation/Taxonomy.txt לפרטים.
-גנים-אונטולוגיה OntologyTerms.txt
Annotations.txt
מספק אונטולוגיה והערות. OntologyTerms.txt מובא מ
http://geneontology.org Annotations.txt הוא קובץ בן 2 עמודות (EMBL_CDS ידית &
מזהה אונטולוגי של גנים) ראה Documentation/GeneOntology.txt
תפוקות אחרות
-לאפשר-שכונות
מחשב שכונות קונטיג בקובץ הפלט של גרף דה Bruijn:
RayOutput/NeighbourhoodRelations.txt
-אמוס
כותב את קובץ AMOS בשם RayOutput/AMOS.afg קובץ AMOS מכיל עמדות קריאה
על contigs. ניתן לפתיחה עם תוכנה עם ממשק משתמש גרפי.
-כתוב-kmers
כותב גרף k-mer ל-RayOutput/kmers.txt הקובץ המתקבל אינו מנוצל על ידי
קֶרֶן. הקובץ המתקבל גדול מאוד.
-כתוב-קריאה-סמנים
כותב סמני קריאה לדיסק.
-כתוב-זרעים
כותב רצפי DNA זרעים ל-RayOutput/Rank.RaySeeds.fasta
-כתוב-הרחבות
כותב רצפי DNA של הרחבה ל-RayOutput/Rank.RayExtensions.fasta
-כתוב-contig-paths
כותב נתיבי contig עם ערכי כיסוי ל-RayOutput/Rank.RayContigPaths.txt
-כתוב-סמן-סיכום
כותב סטטיסטיקות סמנים.
שימוש בזיכרון
-הצג-שימוש בזיכרון
מראה שימוש בזיכרון. הנתונים מובאים מ / proc ב-GNU/Linux צריך __linux__
-הצג-הקצאות-זיכרון
מציג אירועי הקצאת זיכרון
מילוליות אלגוריתם
-הצג-הרחבה-בחירה
מציג את הבחירה שנעשתה (עם אפשרויות אחרות) במהלך ההרחבה.
-הצג-סיום-הקשר
מציג את הקשר הסיום של כל הרחבה. מראה לילדי הקודקוד היכן
הארכה הייתה קשה מדי.
-הצג-מרחק-סיכום
מציג סיכום של מרחקים חיצוניים המשמשים עבור נתיב הרחבה.
-להראות-קונצנזוס
מראה את הקונצנזוס כאשר בחירה נעשית.
נקודת ביקורת
-מחסומים לכתוב checkpointDirectory
כתוב קבצי מחסום
-מחסומים לקרוא checkpointDirectory
קרא קבצי מחסום
-קריאה-כתיבה-מחסום checkpointDirectory
קריאה וכתיבה של קבצי מחסום
ניתוב הודעות עבור מספר רב של ליבות
-מסלול-הודעות
מפעיל את נתב הודעות Ray. מושבת כברירת מחדל. ההודעות ינותבו
בהתאם, כך שכל דרגה יכולה לתקשר ישירות רק עם כמה אחרים.
ללא -מסלול-הודעות, כל דרגה יכולה לתקשר ישירות עם כל דרגה אחרת.
קבצים שנוצרו: Routing/Connections.txt, Routing/Routes.txt ו
ניתוב/RelayEvents.txt ו-Roting/Summary.txt
-סוג חיבור סוג
מגדיר את סוג החיבור למסלולים. הערכים המקובלים הם debruijn, hypercube,
פוליטופ, קבוצה, אקראי, קאוץ והשלם. ברירת המחדל היא debruijn.
debruijn: גרף מלא של דה Bruijn של אלפבית נתון וקוטר היפרקובייה: א
היפרקוביה, האלפבית הוא {0,1} והקודקודים הם בחזקת 2 פוליטופ: קמור
פוליטופ רגיל, האלפבית הוא {0,1,...,B-1} והקודקודים הם חזקה של קבוצת B:
מודל מטופש שבו נציג אחד לכל קבוצה יכול לתקשר עם זרים
אקראי: Erdos-Renyi model kautz: גרף דה קאוץ מלא, שהוא תת גרף של דה
גרף Bruijn שלם: גרף מלא עם כל החיבורים האפשריים
עם הסוג debruijn, מספר הדרגות חייב להיות כוח של משהו.
דוגמאות: 256 = 16*16, 512=8*8*8, 49=7*7 וכן הלאה. אחרת, אל תשתמש ב-debruijn
ניתוב אבל השתמש באחד אחר עם הסוג kautz, מספר הדרגות n חייב להיות
n=(k+1)*k^(d-1) עבור כמה k ו-d
-ניתוב-גרף-דרגה תוֹאַר
מציין את דרגת היציאה עבור גרף הניתוב. ראה Documentation/Routing.txt
בדיקת חומרה
-בדיקה-רשת בלבד
בודק את הרשת ומחזיר.
-write-network-test-raw-data
כותב קובץ אחד נוסף לכל דרגה המפרט את מבחן הרשת.
-החלפות NumberOfExchanges
מגדיר את מספר ההחלפות
-נטרול-מבחן-רשת
דילוג על מבחן הרשת.
Debugging
-אמת-הודעה-שלמות
בודק את מהימנות נתוני ההודעה עבור כל הודעה שאינה ריקה. הוסף '-D CONFIG_SSE_4_2'
בקובץ Makefile לשימוש בחומרה (SSE 4.2)
-רוץ-פרופיל
מפעיל את הפרופילים בזמן שהקוד פועל. כברירת מחדל, הצג רק אזהרות פירוט.
הפעלת הפרופיל מגדילה את זמני הריצה.
-עם-פרטי-פרופיל
מציג את מספר ההודעות שנשלחו והתקבלו בכל אחת מהשיטות במהלך כל זמן
פרוסות (תקופות). צרכי -רוץ-פרופיל.
-הצג-תקשורת-אירועים
מציג את כל ההודעות שנשלחו והתקבלו.
-הצג-קריאה-מיקום
מציג את מיקום הקריאה בגרף במהלך ההרחבה.
-באגים-בועות
מנפה באגים בקוד בועה. בועות יכולות לנבוע מאתרים הטרוזיגוטיים או שגיאות רצף
או אירועים אחרים (לא ידועים).
-דיבג-זרעים
מנפה באגים בקוד ה-Seed. זרעים הם נתיבים בגרף שהם כנראה ייחודיים.
-debug-fusions
מנפה באגים בקוד היתוך.
-debug-scaffolder
איתור באגים בפיגום.
קבצים
קבצי קלט
הערה: פורמט הקובץ נקבע עם סיומת הקובץ.
.fasta .fasta.gz (צריך HAVE_LIBZ=y בהידור) .fasta.bz2 (צריך HAVE_LIBBZ2=y
בהידור) .fastq .fastq.gz (צריך HAVE_LIBZ=y בהידור) .fastq.bz2
(צריך HAVE_LIBBZ2=y בהידור) .sff (יש לחלץ ידנית קריאות זוגיות)
.csfasta (קריאת מרחב צבע)
קבצים שהוצאו
פיגומים
RayOutput/Scaffolds.fasta
רצפי הפיגומים בפורמט FASTA
RayOutput/ScaffoldComponents.txt
המרכיבים של כל פיגום
RayOutput/ScaffoldLengths.txt
אורך כל פיגום
RayOutput/ScaffoldLinks.txt
קישורי פיגום
Contigs
RayOutput/Contigs.fasta
רצפים רציפים בפורמט FASTA
RayOutput/ContigLengths.txt
האורכים של רצפים רציפים
<br> סיכום
RayOutput/OutputNumbers.txt
מספרים כלליים עבור ההרכבה
גרף de Bruijn
RayOutput/CoverageDistribution.txt
התפלגות ערכי הכיסוי
RayOutput/CoverageDistributionAnalysis.txt
ניתוח התפלגות הכיסוי
RayOutput/degreeDistribution.txt
חלוקת התארים הנכנסים והיוצאים
RayOutput/kmers.txt
גרף k-mer, אפשרות נדרשת: -כתוב-kmers
הקובץ המתקבל אינו מנוצל על ידי ריי. הקובץ המתקבל גדול מאוד.
שלבי הרכבה
RayOutput/SeedLengthDistribution.txt
התפלגות אורך הזרע
RayOutput/Rank.OptimalReadMarkers.txt
קרא סמנים.
RayOutput/Rank.RaySeeds.fasta
רצפי DNA זרע, אפשרות נדרשת: -כתוב-זרעים
RayOutput/Rank.RayExtensions.fasta
הרחבת רצפי DNA, אפשרות נדרשת: -כתוב-הרחבות
RayOutput/Rank.RayContigPaths.txt
נתיבים צפופים עם ערכי כיסוי, אפשרות נדרשת: -כתוב-contig-paths
קריאות זוגיות
RayOutput/LibraryStatistics.txt
אומדן מרחקים חיצוניים לקריאה זוגית
RayOutput/Library.txt
תדרים למרחקים חיצוניים שנצפו (גודל הוספה + אורכי קריאה)
חלוקה
RayOutput/NumberOfSequences.txt
מספר קריאות בכל קובץ
RayOutput/SequencePartition.txt
מחיצת רצף
תוכנת ריי
RayOutput/RayVersion.txt
הגרסה של ריי
RayOutput/RayCommand.txt
אותה פקודה בדיוק מסופקת
AMOS
RayOutput/AMOS.afg
ייצוג הרכבה בפורמט AMOS, אפשרות נדרשת: -אמוס
תקשורת
RayOutput/MessagePassingInterface.txt
מספר ההודעות שנשלחו
RayOutput/NetworkTest.txt
השהיות במיקרו-שניות
RayOutput/RankNetworkTestData.txt
נתונים גולמיים של בדיקת רשת
תיעוד
- mpiexec -n קרן 1 עזרה|פחות (תמיד מעודכן) - דף עזרה זה (תמיד
מעודכן) - הספרייה תיעוד/ - ידני (פורמט מסמך נייד):
InstructionManual.tex (בתיעוד) - ארכיון רשימת תפוצה:
http://sourceforge.net/mailarchive/forum.php?forum_name=denovoassembler-users
AUTHOR
נכתב על ידי סבסטיאן בואיברט.
דיווח על באגים
דווח על באגים ל denovoassembler-users@lists.sourceforge.net דף הבית:
<http://denovoassembler.sourceforge.net/>
זכויות יוצרים
תוכנית זו היא תוכנה חופשית: אתה יכול להפיץ אותה מחדש ו/או לשנות אותה תחת
תנאי הרישיון הציבורי הכללי של GNU כפי שפורסמו על ידי התוכנה החופשית
Foundation, גרסה 3 של הרישיון.
תוכנית זו מופצת בתקווה שהיא תהיה שימושית, אך ללא כל
אַחֲרָיוּת; אפילו ללא האחריות המשתמעת של סחירות או התאמה ל-A
מטרה מסוימת. ראה את הרישיון הציבורי הכללי של GNU לפרטים נוספים.
קיבלת עותק של הרישיון הציבורי הכללי של GNU יחד עם תוכנית זו
(ראה רישיון).
ריי 2.1.0
רישיון לריי: רישיון כללי של GNU גרסה 3 גירסת RayPlatform: רישיון 1.1.0
עבור RayPlatform: GNU Lesser General Public License גרסה 3
MAXKMERLENGTH: 32 KMER_U64_ARRAY_SIZE: 1 עומק כיסוי מקסימלי מאוחסן על ידי CoverageDepth:
4294967295 MAXIMUM_MESSAGE_SIZE_IN_BYTES: 4000 בתים FORCE_PACKING = n ASSERT = n
HAVE_LIBZ = y HAVE_LIBBZ2 = y CONFIG_PROFILER_COLLECT = n CONFIG_CLOCK_GETTIME = n
__linux__ = y _MSC_VER = n __GNUC__ = y RAY_32_BITS = n RAY_64_BITS = y MPI
גרסה: MPI 2.1 ספריית MPI: Open-MPI 1.4.2 מהדר: GNU gcc/g++ 4.4.5
השתמש ב-Ray באינטרנט באמצעות שירותי onworks.net