这是名为 CUTLASS 的 Linux 应用程序,其最新版本可以下载为 CUTLASS3.2.1.zip。它可以在免费的工作站托管提供商 OnWorks 中在线运行。
使用 OnWorks 免费下载并在线运行这个名为 CUTLASS 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
CUTLASS
商品描述
CUTLASS 是 CUDA C++ 模板抽象的集合,用于在 CUDA 中的所有级别和规模上实现高性能矩阵乘法 (GEMM) 和相关计算。 它结合了类似于用于实施 cuBLAS 和 cuDNN 的分层分解和数据移动策略。 CUTLASS 将这些“活动部件”分解为由 C++ 模板类抽象出来的可重用、模块化的软件组件。 这些线程范围、warp 范围、块范围和设备范围的基元可以通过自定义平铺大小、数据类型和其他算法策略进行专门化和调整。 由此产生的灵活性简化了它们作为自定义内核和应用程序中构建块的使用。 为了支持广泛的应用,CUTLASS 为混合精度计算提供了广泛的支持,为半精度浮点数 (FP16)、BFloat16 (BF16)、Tensor Float 32 (TF32)、等等
产品优势
- CUTLASS 通过隐式 GEMM 算法实现高性能卷积
- 隐式 GEMM 是将卷积运算公式化为 GEMM,从而利用 CUTLASS 的模块化 GEMM 流水线
- 通过重用高度优化的 warp-wide GEMM 组件及以下组件构建卷积
- 第一层卷积核专门用于小通道数和减少对齐
- 由 Tensor Core 加速的 BLAS3 运算符
- 使用 CUDA 11.7 的最佳性能
程式语言
C + +中
分类
这是一个也可以从 https://sourceforge.net/projects/cutlass.mirror/ 获取的应用程序。 它已托管在 OnWorks 中,以便以最简单的方式从我们的免费操作系统之一在线运行。