นี่คือแอป Linux ชื่อ CUTLASS ซึ่งสามารถดาวน์โหลดรุ่นล่าสุดได้ในชื่อ CUTLASS3.2.1.zip สามารถเรียกใช้ออนไลน์ได้ใน OnWorks ผู้ให้บริการโฮสต์ฟรีสำหรับเวิร์กสเตชัน
ดาวน์โหลดและเรียกใช้แอปนี้ทางออนไลน์ชื่อ CUTLASS พร้อม OnWorks ฟรี
ทำตามคำแนะนำเหล่านี้เพื่อเรียกใช้แอปนี้:
- 1. ดาวน์โหลดแอปพลิเคชั่นนี้ในพีซีของคุณ
- 2. เข้าไปที่ file manager https://www.onworks.net/myfiles.php?username=XXXXX ด้วยชื่อผู้ใช้ที่คุณต้องการ
- 3. อัปโหลดแอปพลิเคชันนี้ในตัวจัดการไฟล์ดังกล่าว
- 4. เริ่มโปรแกรมจำลองออนไลน์ของ OnWorks Linux หรือ Windows ออนไลน์ หรือโปรแกรมจำลองออนไลน์ MACOS จากเว็บไซต์นี้
- 5. จาก OnWorks Linux OS คุณเพิ่งเริ่มต้น ไปที่ตัวจัดการไฟล์ของเรา https://www.onworks.net/myfiles.php?username=XXXXX พร้อมชื่อผู้ใช้ที่คุณต้องการ
- 6. ดาวน์โหลดแอปพลิเคชั่น ติดตั้ง และเรียกใช้
ภาพหน้าจอ
Ad
มีดสั้น
DESCRIPTION
CUTLASS คือชุดของนามธรรมเทมเพลต CUDA C++ สำหรับการนำเมทริกซ์คูณประสิทธิภาพสูง (GEMM) ไปใช้และการคำนวณที่เกี่ยวข้องในทุกระดับและทุกสเกลภายใน CUDA รวมเอากลยุทธ์สำหรับการแยกย่อยตามลำดับชั้นและการเคลื่อนย้ายข้อมูลที่คล้ายกับที่ใช้ในการนำ cuBLAS และ cuDNN ไปใช้ CUTLASS ย่อยสลาย "ชิ้นส่วนที่เคลื่อนไหว" เหล่านี้เป็นส่วนประกอบซอฟต์แวร์โมดูลาร์ที่นำกลับมาใช้ใหม่ได้ ซึ่งแยกย่อยโดยคลาสเทมเพลต C++ แบบดั้งเดิมทั้งแบบเธรด แบบกว้างแบบแบบกว้าง แบบแบบบล็อก และแบบทั้งอุปกรณ์สามารถเชี่ยวชาญและปรับแต่งได้โดยใช้ขนาดการเรียงต่อกัน ชนิดข้อมูล และนโยบายอัลกอริทึมอื่นๆ ความยืดหยุ่นที่เกิดขึ้นช่วยลดความยุ่งยากในการใช้งานเป็นหน่วยการสร้างภายในเคอร์เนลและแอปพลิเคชันที่กำหนดเอง เพื่อรองรับการใช้งานที่หลากหลาย CUTLASS ให้การสนับสนุนอย่างกว้างขวางสำหรับการคำนวณที่มีความแม่นยำแบบผสม ให้การเคลื่อนย้ายข้อมูลแบบพิเศษและนามธรรมที่สะสมทวีคูณสำหรับจุดลอยตัวแบบครึ่งความแม่นยำ (FP16), BFloat16 (BF16), Tensor Float 32 (TF32) เป็นต้น
คุณสมบัติ
- CUTLASS ใช้ Convolution ที่มีประสิทธิภาพสูงผ่านอัลกอริทึม GEMM โดยนัย
- GEMM โดยนัยคือการกำหนดรูปแบบการดำเนินการบิดเป็น GEMM ดังนั้นการใช้ประโยชน์จากไปป์ไลน์ GEMM แบบโมดูลาร์ของ CUTLASS
- สร้างการโน้มน้าวใจโดยใช้ส่วนประกอบ GEMM แบบกว้างที่ปรับให้เหมาะสมที่สุดซ้ำและด้านล่าง
- เคอร์เนล Convolution ชั้นแรกเชี่ยวชาญสำหรับการนับช่องขนาดเล็กและการจัดตำแหน่งที่ลดลง
- ตัวดำเนินการ BLAS3 เร่งด้วย Tensor Cores
- ประสิทธิภาพสูงสุดโดยใช้ CUDA 11.7
ภาษาโปรแกรม
C + +
หมวดหมู่
นี่เป็นแอปพลิเคชันที่สามารถเรียกได้จาก https://sourceforge.net/projects/cutlass.mirror/ มีการโฮสต์ใน OnWorks เพื่อให้ทำงานออนไลน์ด้วยวิธีที่ง่ายที่สุดจากหนึ่งในระบบปฏิบัติการฟรีของเรา