ריי - מקוון בענן

זוהי הפקודה Ray שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


ריי - מרכיבים גנומים במקביל באמצעות ממשק העברת ההודעות

תַקצִיר


mpiexec -n NUMBER_OF_RANKS ריי -k KMERLENGTH -p l1_1.fastq l1_2.fastq -p l2_1.fastq
l2_2.fastq -o מבחן

mpiexec -n NUMBER_OF_RANKS Ray Ray.conf # עם פקודות בקובץ

תיאור:


מרכיב הגנום של Ray בנוי על גבי ה-RayPlatform, תוסף גנרי מבוסס
מנוע מחשוב מבוזר ומקביל המשתמש בממשק העברת הודעות עבור
העברת הודעות.

ריי מתמקד במספר יישומים:

- הרכבת גנום דה נובו (עם ריי וניל) - הרכבת מטא-גנום דה נובו (עם
Ray Meta) - הרכבת תעתיק דה נובו (עובד, אבל לא נבדק הרבה) -
כימות של שפע של contig - כימות של קונסורציית מיקרוביום
חברים (עם Ray Communities) - כימות של ביטוי תמליל - טקסונומיה
פרופיל דגימות (עם Ray Communities) - פרופיל גנים אונטולוגי של דגימות
(עם Ray Ontologies)

עזרה

מציג דף עזרה זה.

-הפך

מציג גרסת Ray ואפשרויות הידור.

שימוש בקובץ תצורה

ניתן להפעיל את Ray עם mpiexec -n 16 Ray Ray.conf קובץ התצורה יכול
כלול הערות (החל ב-#).

אורך ק-מר

-k kmerLength

בוחר את אורך ה-k-mers. ערך ברירת המחדל הוא 21. הוא חייב להיות מוזר כי
קודקודים בהשלמה הפוכה מאוחסנים יחד. האורך המרבי מוגדר ב
קומפילציה מאת MAXKMERLENGTH k-mers גדולים יותר מנצלים יותר זיכרון.

תשומות

-p leftSequenceFile rightSequenceFile [ממוצע סטיית תקן של מרחק חיצוני]

מספק שני קבצים המכילים קריאות קצה מזווגות. ממוצע OuterDistance ו
סטיית התקן מחושבת אוטומטית אם לא מסופקת.

-i interleavedSequenceFile [ממוצע סטיית מרחק רגילה]

מספק קובץ אחד המכיל קריאות קצה מזווגות. ממוצע חיצוני
ו-StandardDeviation מחושבים אוטומטית אם לא מסופקים.

-s sequenceFile

מספק קובץ המכיל קריאה בקצה יחיד.

יציאות

-o ספריית פלט

מציין את הספרייה עבור הקבצים המופקים. ברירת המחדל היא RayOutput

אפשרויות הרכבה (ברירות המחדל פועלות היטב)

-לבטל-מיחזור

משבית מיחזור קריאה במהלך קריאת ההרכבה ישוחרר ב-3 מקרים: 1.
המרחק לא התאים לזוג 2. הקריאה לא פגשה את בן זוגה 3. ה
אוכלוסיית הספרייה מצביעה על מיקום שגוי, ראה מעבר מוגבל של חזרות
עם רצפים זוגיים. סבסטיאן בויסוורט, אלני גודזארידיס, פרנסואה לוויולט
& ז'אק קורבייל. סדנת לוויין שנתית ראשונה של RECOMB בנושא מקביל מסיבי
רצף, 26-27 במרץ 2011, ונקובר, לפני הספירה, קנדה.

-נטרול-פיגום

משבית את הפיגום.

-אורך-מינימלי-קונטי minimumContigLength

משנה את אורך הקונטיג המינימלי, ברירת המחדל היא 100 נוקלאוטידים

-חלל-צבע

פועל ב-color-space צריך קבצי csfasta. מופעל אוטומטית אם קבצי csfasta
מסופקים.

-שימוש-מקסימום-כיסוי-זרע maximumSeedCoverageDepth

מתעלם מכל זרע עם עומק כיסוי מעל סף זה. ברירת המחדל היא
4294967295.

-שימוש-מינימום-כיסוי-זרעים minimumSeedCoverageDepth

מגדיר את עומק כיסוי הזרעים המינימלי. כל נתיב עם עומק כיסוי נמוך מ
זה יימחק. ברירת המחדל היא 0.

מנוע אחסון מבוזר (כל הערכים הללו הם עבור כל דירוג MPI)

-פריחה-פילטר-סיביות ביטים

מגדיר את מספר הביטים עבור מסנן Bloom ברירת המחדל היא 268435456 סיביות, 0 סיביות
משבית את מסנן Bloom.

-דליי-שולחן-אשיש דליים

מגדיר את המספר הראשוני של דליים. חייב להיות כוח של 2! ערך ברירת מחדל:
268435456

-האש-טבלת-דליים-לכל-קבוצה דליים

מגדיר את מספר הדליים לקבוצה עבור אחסון דליל ערך ברירת מחדל: 64, חייב להיות
בין >=1 ל-<= 64

-סף-טבלת-hash-load-factor סף

מגדיר את סף מקדם העומס לשינוי גודל בזמן אמת ערך ברירת מחדל: 0.75, חייב להיות
>= 0.5 ו<1

-האש-טבלה-רב-רב

מפעיל מילוליות עבור מנוע האחסון המבוזר

שפע ביולוגי

-לחפש SearchDirectory

מספק ספרייה המכילה קבצי fasta לחיפוש בגרף de Bruijn.
שפע ביולוגי ייכתב ל-RayOutput/BiologicalAbundances See
Documentation/BiologicalAbundances.txt

-צבע אחד לכל קובץ

מגדיר צבע אחד לכל קובץ במקום אחד בכל רצף. כברירת מחדל, כל רצף ב
לכל קובץ יש צבע שונה. עבור קבצים עם מספר גדול של רצפים, באמצעות
צבע אחד לקובץ עשוי להיות יעיל יותר.

פרופיל טקסונומי עם גרפים צבעוניים של דה Bruijn

-עם-טקסונומיה Genome-to-Taxon.tsv TreeOfLife-Edges.tsv Taxon-Names.tsv

מספק טקסונומיה. מחשב וכותב פרופילים טקסונומיים מפורטים. לִרְאוֹת
Documentation/Taxonomy.txt לפרטים.

-גנים-אונטולוגיה OntologyTerms.txt
Annotations.txt

מספק אונטולוגיה והערות. OntologyTerms.txt מובא מ
http://geneontology.org Annotations.txt הוא קובץ בן 2 עמודות (EMBL_CDS ידית &
מזהה אונטולוגי של גנים) ראה Documentation/GeneOntology.txt

תפוקות אחרות

-לאפשר-שכונות

מחשב שכונות קונטיג בקובץ הפלט של גרף דה Bruijn:
RayOutput/NeighbourhoodRelations.txt

-אמוס

כותב את קובץ AMOS בשם RayOutput/AMOS.afg קובץ AMOS מכיל עמדות קריאה
על contigs. ניתן לפתיחה עם תוכנה עם ממשק משתמש גרפי.

-כתוב-kmers

כותב גרף k-mer ל-RayOutput/kmers.txt הקובץ המתקבל אינו מנוצל על ידי
קֶרֶן. הקובץ המתקבל גדול מאוד.

-כתוב-קריאה-סמנים

כותב סמני קריאה לדיסק.

-כתוב-זרעים

כותב רצפי DNA זרעים ל-RayOutput/Rank.RaySeeds.fasta

-כתוב-הרחבות

כותב רצפי DNA של הרחבה ל-RayOutput/Rank.RayExtensions.fasta

-כתוב-contig-paths

כותב נתיבי contig עם ערכי כיסוי ל-RayOutput/Rank.RayContigPaths.txt

-כתוב-סמן-סיכום

כותב סטטיסטיקות סמנים.

שימוש בזיכרון

-הצג-שימוש בזיכרון

מראה שימוש בזיכרון. הנתונים מובאים מ / proc ב-GNU/Linux צריך __linux__

-הצג-הקצאות-זיכרון

מציג אירועי הקצאת זיכרון

מילוליות אלגוריתם

-הצג-הרחבה-בחירה

מציג את הבחירה שנעשתה (עם אפשרויות אחרות) במהלך ההרחבה.

-הצג-סיום-הקשר

מציג את הקשר הסיום של כל הרחבה. מראה לילדי הקודקוד היכן
הארכה הייתה קשה מדי.

-הצג-מרחק-סיכום

מציג סיכום של מרחקים חיצוניים המשמשים עבור נתיב הרחבה.

-להראות-קונצנזוס

מראה את הקונצנזוס כאשר בחירה נעשית.

נקודת ביקורת

-מחסומים לכתוב checkpointDirectory

כתוב קבצי מחסום

-מחסומים לקרוא checkpointDirectory

קרא קבצי מחסום

-קריאה-כתיבה-מחסום checkpointDirectory

קריאה וכתיבה של קבצי מחסום

ניתוב הודעות עבור מספר רב של ליבות

-מסלול-הודעות

מפעיל את נתב הודעות Ray. מושבת כברירת מחדל. ההודעות ינותבו
בהתאם, כך שכל דרגה יכולה לתקשר ישירות רק עם כמה אחרים.
ללא -מסלול-הודעות, כל דרגה יכולה לתקשר ישירות עם כל דרגה אחרת.
קבצים שנוצרו: Routing/Connections.txt, Routing/Routes.txt ו
ניתוב/RelayEvents.txt ו-Roting/Summary.txt

-סוג חיבור סוג

מגדיר את סוג החיבור למסלולים. הערכים המקובלים הם debruijn, hypercube,
פוליטופ, קבוצה, אקראי, קאוץ והשלם. ברירת המחדל היא debruijn.

debruijn: גרף מלא של דה Bruijn של אלפבית נתון וקוטר היפרקובייה: א
היפרקוביה, האלפבית הוא {0,1} והקודקודים הם בחזקת 2 פוליטופ: קמור
פוליטופ רגיל, האלפבית הוא {0,1,...,B-1} והקודקודים הם חזקה של קבוצת B:
מודל מטופש שבו נציג אחד לכל קבוצה יכול לתקשר עם זרים
אקראי: Erdos-Renyi model kautz: גרף דה קאוץ מלא, שהוא תת גרף של דה
גרף Bruijn שלם: גרף מלא עם כל החיבורים האפשריים

עם הסוג debruijn, מספר הדרגות חייב להיות כוח של משהו.
דוגמאות: 256 = 16*16, 512=8*8*8, 49=7*7 וכן הלאה. אחרת, אל תשתמש ב-debruijn
ניתוב אבל השתמש באחד אחר עם הסוג kautz, מספר הדרגות n חייב להיות
n=(k+1)*k^(d-1) עבור כמה k ו-d

-ניתוב-גרף-דרגה תוֹאַר

מציין את דרגת היציאה עבור גרף הניתוב. ראה Documentation/Routing.txt

בדיקת חומרה

-בדיקה-רשת בלבד

בודק את הרשת ומחזיר.

-write-network-test-raw-data

כותב קובץ אחד נוסף לכל דרגה המפרט את מבחן הרשת.

-החלפות NumberOfExchanges

מגדיר את מספר ההחלפות

-נטרול-מבחן-רשת

דילוג על מבחן הרשת.

Debugging

-אמת-הודעה-שלמות

בודק את מהימנות נתוני ההודעה עבור כל הודעה שאינה ריקה. הוסף '-D CONFIG_SSE_4_2'
בקובץ Makefile לשימוש בחומרה (SSE 4.2)

-רוץ-פרופיל

מפעיל את הפרופילים בזמן שהקוד פועל. כברירת מחדל, הצג רק אזהרות פירוט.
הפעלת הפרופיל מגדילה את זמני הריצה.

-עם-פרטי-פרופיל

מציג את מספר ההודעות שנשלחו והתקבלו בכל אחת מהשיטות במהלך כל זמן
פרוסות (תקופות). צרכי -רוץ-פרופיל.

-הצג-תקשורת-אירועים

מציג את כל ההודעות שנשלחו והתקבלו.

-הצג-קריאה-מיקום

מציג את מיקום הקריאה בגרף במהלך ההרחבה.

-באגים-בועות

מנפה באגים בקוד בועה. בועות יכולות לנבוע מאתרים הטרוזיגוטיים או שגיאות רצף
או אירועים אחרים (לא ידועים).

-דיבג-זרעים

מנפה באגים בקוד ה-Seed. זרעים הם נתיבים בגרף שהם כנראה ייחודיים.

-debug-fusions

מנפה באגים בקוד היתוך.

-debug-scaffolder

איתור באגים בפיגום.

קבצים

קבצי קלט

הערה: פורמט הקובץ נקבע עם סיומת הקובץ.

.fasta .fasta.gz (צריך HAVE_LIBZ=y בהידור) .fasta.bz2 (צריך HAVE_LIBBZ2=y
בהידור) .fastq .fastq.gz (צריך HAVE_LIBZ=y בהידור) .fastq.bz2
(צריך HAVE_LIBBZ2=y בהידור) .sff (יש לחלץ ידנית קריאות זוגיות)
‎.csfasta (קריאת מרחב צבע)

קבצים שהוצאו

פיגומים

RayOutput/Scaffolds.fasta

רצפי הפיגומים בפורמט FASTA

RayOutput/ScaffoldComponents.txt

המרכיבים של כל פיגום

RayOutput/ScaffoldLengths.txt

אורך כל פיגום

RayOutput/ScaffoldLinks.txt

קישורי פיגום

Contigs

RayOutput/Contigs.fasta

רצפים רציפים בפורמט FASTA

RayOutput/ContigLengths.txt

האורכים של רצפים רציפים

<br> סיכום

RayOutput/OutputNumbers.txt

מספרים כלליים עבור ההרכבה

גרף de Bruijn

RayOutput/CoverageDistribution.txt

התפלגות ערכי הכיסוי

RayOutput/CoverageDistributionAnalysis.txt

ניתוח התפלגות הכיסוי

RayOutput/degreeDistribution.txt

חלוקת התארים הנכנסים והיוצאים

RayOutput/kmers.txt

גרף k-mer, אפשרות נדרשת: -כתוב-kmers

הקובץ המתקבל אינו מנוצל על ידי ריי. הקובץ המתקבל גדול מאוד.

שלבי הרכבה

RayOutput/SeedLengthDistribution.txt

התפלגות אורך הזרע

RayOutput/Rank.OptimalReadMarkers.txt

קרא סמנים.

RayOutput/Rank.RaySeeds.fasta

רצפי DNA זרע, אפשרות נדרשת: -כתוב-זרעים

RayOutput/Rank.RayExtensions.fasta

הרחבת רצפי DNA, אפשרות נדרשת: -כתוב-הרחבות

RayOutput/Rank.RayContigPaths.txt

נתיבים צפופים עם ערכי כיסוי, אפשרות נדרשת: -כתוב-contig-paths

קריאות זוגיות

RayOutput/LibraryStatistics.txt

אומדן מרחקים חיצוניים לקריאה זוגית

RayOutput/Library.txt

תדרים למרחקים חיצוניים שנצפו (גודל הוספה + אורכי קריאה)

חלוקה

RayOutput/NumberOfSequences.txt

מספר קריאות בכל קובץ

RayOutput/SequencePartition.txt

מחיצת רצף

תוכנת ריי

RayOutput/RayVersion.txt

הגרסה של ריי

RayOutput/RayCommand.txt

אותה פקודה בדיוק מסופקת

AMOS

RayOutput/AMOS.afg

ייצוג הרכבה בפורמט AMOS, אפשרות נדרשת: -אמוס

תקשורת

RayOutput/MessagePassingInterface.txt

מספר ההודעות שנשלחו

RayOutput/NetworkTest.txt

השהיות במיקרו-שניות

RayOutput/RankNetworkTestData.txt

נתונים גולמיים של בדיקת רשת

תיעוד

- mpiexec -n קרן 1 עזרה|פחות (תמיד מעודכן) - דף עזרה זה (תמיד
מעודכן) - הספרייה תיעוד/ - ידני (פורמט מסמך נייד):
InstructionManual.tex (בתיעוד) - ארכיון רשימת תפוצה:
http://sourceforge.net/mailarchive/forum.php?forum_name=denovoassembler-users

AUTHOR

נכתב על ידי סבסטיאן בואיברט.

דיווח על באגים

דווח על באגים ל denovoassembler-users@lists.sourceforge.net דף הבית:
<http://denovoassembler.sourceforge.net/>

זכויות יוצרים

תוכנית זו היא תוכנה חופשית: אתה יכול להפיץ אותה מחדש ו/או לשנות אותה תחת
תנאי הרישיון הציבורי הכללי של GNU כפי שפורסמו על ידי התוכנה החופשית
Foundation, גרסה 3 של הרישיון.

תוכנית זו מופצת בתקווה שהיא תהיה שימושית, אך ללא כל
אַחֲרָיוּת; אפילו ללא האחריות המשתמעת של סחירות או התאמה ל-A
מטרה מסוימת. ראה את הרישיון הציבורי הכללי של GNU לפרטים נוספים.

קיבלת עותק של הרישיון הציבורי הכללי של GNU יחד עם תוכנית זו
(ראה רישיון).

ריי 2.1.0

רישיון לריי: רישיון כללי של GNU גרסה 3 גירסת RayPlatform: רישיון 1.1.0
עבור RayPlatform: GNU Lesser General Public License גרסה 3

MAXKMERLENGTH: 32 KMER_U64_ARRAY_SIZE: 1 עומק כיסוי מקסימלי מאוחסן על ידי CoverageDepth:
4294967295 MAXIMUM_MESSAGE_SIZE_IN_BYTES: 4000 בתים FORCE_PACKING = n ASSERT = n
HAVE_LIBZ = y HAVE_LIBBZ2 = y CONFIG_PROFILER_COLLECT = n CONFIG_CLOCK_GETTIME = n
__linux__ = y _MSC_VER = n __GNUC__ = y RAY_32_BITS = n RAY_64_BITS = y MPI
גרסה: MPI 2.1 ספריית MPI: Open-MPI 1.4.2 מהדר: GNU gcc/g++ 4.4.5

השתמש ב-Ray באינטרנט באמצעות שירותי onworks.net



התוכניות המקוונות האחרונות של לינוקס ו-Windows