这是命令 alt-nvidia-340-updates-smi 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
nvidia-smi - NVIDIA 系统管理接口程序
概要
nvidia-smi [选项1 [ARG1]] [选项2 [ARG2]] ...
商品描述
nvidia-smi(也是 NVSMI)提供监控和管理功能
Fermi 和 NVIDIA 的 Tesla、Quadro 和 GRID 设备中的每一个
高等建筑家族。 还提供了非常有限的信息
对于 Geforce 设备。 NVSMI 是一个跨平台工具,支持所有
标准 NVIDIA 驱动程序支持的 Linux 发行版,以及 64 位
从 Windows Server 2008 R2 开始的 Windows 版本。 指标可以
用户通过标准输出直接使用,或通过 CSV 文件提供
和用于脚本目的的 XML 格式。
请注意,NVSMI 的大部分功能是由
底层基于 NVML C 的库。 查看 NVIDIA 开发者网站链接
有关 NVML 的更多信息,请参见下文。 基于 NVML 的 python 绑定是
也提供。
NVSMI 的输出不保证向后兼容。
但是,NVML 和 Python 绑定都向后兼容,
并且应该是编写任何必须的工具时的首选
在 NVIDIA 驱动程序版本中维护。
NVML SDK: http://developer.nvidia.com/nvidia-management-library-nvml/
Python 绑定: http://pypi.python.org/pypi/nvidia-ml-py/
配置
一般 配置
-H, - 帮帮我
打印使用信息并退出。
概要 配置
-L, --列出 GPU
列出系统中的每个 NVIDIA GPU 及其 UUID。
QUERY 配置
-q, - 询问
显示 GPU 或单位信息。 显示的信息包括列出的所有数据
这 (GPU ATTRIBUTES)或(单元 ATTRIBUTES) 部分。
某些设备和/或环境不支持所有可能的
信息。 任何不受支持的数据在
输出。 默认情况下,所有可用 GPU 或单元的信息为
显示。 使用 -i 将输出限制为单个 GPU 的选项或
单元。
[加 可选的]
-你, - 单元
显示单元数据而不是 GPU 数据。 单位数据仅适用于
NVIDIA S 级 Tesla 机箱。
-一世, --id=ID
显示单个指定 GPU 或单元的数据。 指定的 id 可能
是 GPU/Unit 返回的自然枚举中的基于 0 的索引
驱动程序、GPU 的主板序列号、GPU 的 UUID 或 GPU 的
PCI 总线 ID(作为域:总线:设备。功能在十六进制)。 推荐
希望一致性的用户使用 UUID 或 PCI 总线 ID,因为
不保证设备枚举顺序之间是一致的
重启和主板序列号可能在多个 GPU 之间共享
在同一块板上。
-f 文件, --文件名=文件
将查询输出重定向到指定文件代替默认文件
标准输出。 指定的文件将被覆盖。
-X, --xml格式
生成 XML 输出以代替默认的人类可读格式。 两个都
GPU 和 Unit 查询输出符合相应的 DTD。 这些是
可通过 --dtd 旗。
--dtd
与...配合使用 -x. 在 XML 输出中嵌入 DTD。
-d 类型, --显示=类型
仅显示选定的信息:MEMORY、UTILIZATION、ECC、
温度、功率、时钟、计算、PIDS、性能、
SUPPORTED_CLOCKS, PAGE_RETIREMENT, ACCOUNTING 标志可以组合
用逗号,例如“MEMORY,ECC”。 具有最大值、最小值和平均值的采样数据是
也为 POWER、UTILIZATION 和 CLOCK 显示类型返回。 没有
使用 -u/--unit 或 -x/--xml-format 标志。
-l 证监会, --循环=SEC
以指定的时间间隔连续上报查询数据,而不是
默认只有一次。 应用程序将在中间休眠
查询。 请注意,在 Linux ECC 错误或 XID 错误事件上将打印
在睡眠期间外出,如果 -x 未指定标志。 紧迫
任何时候 Ctrl+C 将中止循环,否则将运行
无限期地。 如果没有为 -l 形成默认
使用 5 秒的间隔。
可选择的 QUERY 配置
允许调用者传递要查询的显式属性列表。
[一 的]
--查询-gpu=
关于 GPU 的信息。 传递逗号分隔的属性列表
想查询。 例如 --query-gpu=pci.bus_id,persistence_mode。 称呼
--help-query-gpu 了解更多信息。
--查询支持的时钟=
支持的时钟列表。 致电 --help-query-supported-clocks 了解更多信息
信息。
--查询计算应用=
当前活动的计算进程列表。 称呼
--help-query-compute-apps 了解更多信息。
--query-accounted-apps=
已计算的计算进程列表。 调用 --help-query-accounted-apps
获取更多信息。
--query-retired-pages=
已停用的 GPU 设备内存页面列表。 称呼
--help-query-retired-pages 了解更多信息。
[强制的]
--格式=
逗号分隔的格式选项列表:
· csv - 逗号分隔值(强制性)
· noheader - 跳过带有列标题的第一行
· nounits - 不要为数值打印单位
[加 任何 的]
-一世, --id=ID
显示单个指定 GPU 的数据。 指定的 id 可能是
驱动程序返回的自然枚举中 GPU 的从 0 开始的索引,
GPU 的主板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID
(作为域:总线:设备。功能在十六进制)。 建议用户
期望一致性使用 UUID 或 PCI 总线 ID,因为设备
枚举顺序不能保证在重新启动之间保持一致
和主板序列号可能在多个 GPU 之间共享
同一个板。
-f 文件, --文件名=文件
将查询输出重定向到指定文件代替默认文件
标准输出。 指定的文件将被覆盖。
-l 证监会, --循环=SEC
以指定的时间间隔连续上报查询数据,而不是
默认只有一次。 应用程序将在中间休眠
查询。 请注意,在 Linux ECC 错误或 XID 错误事件上将打印
在睡眠期间外出,如果 -x 未指定标志。 紧迫
任何时候 Ctrl+C 将中止循环,否则将运行
无限期地。 如果没有为 -l 形成默认
使用 5 秒的间隔。
-lms 多发性硬化症, --loop-ms=毫秒
与 -l,--loop 相同,但以毫秒为单位。
支持装置 改性 配置
[任何 一种 的]
-下午, --持久模式=模式
为目标 GPU 设置持久化模式。 见 (GPU ATTRIBUTES)
有关持久性模式描述的部分。 需要root。 将要
影响所有 GPU,除非使用 -i 论据。
此操作的效果是立竿见影的。 然而,它不
在重新启动后保持不变。 每次重启后持久模式会
默认为“禁用”。 仅在 Linux 上可用。
-e, --ecc-config=配置
为目标 GPU 设置 ECC 模式。 见 (GPU ATTRIBUTES) 部分
有关 ECC 模式的说明。 需要root。 将影响所有 GPU
除非使用 -i 争论。 这个设置
下次重启后生效并持久。
-p, --reset-ecc-errors=类型
重置目标 GPU 的 ECC 错误计数器。 见 (GPU
ATTRIBUTES) 部分,了解 ECC 错误计数器类型的描述。
可用参数为 0|VOLATILE 或 1|AGGREGATE。 需要root。
将影响所有 GPU,除非使用 -i
争论。 此操作的效果是立竿见影的。
-C, --计算模式=模式
设置目标 GPU 的计算模式。 见 (GPU ATTRIBUTES)
有关计算模式描述的部分。 需要root。 会影响
所有 GPU,除非使用 -i 争论。 这
此操作的效果是立竿见影的。 然而,它并没有坚持
跨越重启。 每次重启后,计算模式将重置为
“默认”。
-dm 类型, --driver-model=类型
-fdm 类型, --force-driver-model=类型
启用或禁用 TCC 驱动程序模型。 仅适用于 Windows。 需要
管理员权限。 -dm 如果连接了显示器,将会失败,但是
-fdm 将强制更改驱动程序模型。 将影响所有 GPU
除非使用 -i 争论。 重启是
发生变化所必需的。 看 驱动器 型号 更多
有关 Windows 驱动程序模型的信息。
--gom=模式
设置 GPU Operation Mode: 0/ALL_ON, 1/COMPUTE, 2/LOW_DP Supported on
GK110 开普勒家族的 M 级和 X 级特斯拉产品。 不是
Quadro 和 Tesla C 级产品支持。 需要管理员
特权。 看 GPU 操作 时尚 有关 GOM 的更多信息。
GOM 更改在重新启动后生效。 重新启动要求可能是
将来删除。 仅计算 GOM 不支持 WDDM (Windows
显示驱动模型)
-r, --gpu-重置
触发 GPU 重置。 可用于清除 GPU HW 和 SW 状态
在需要重新启动机器的情况下。 通常
如果发生双位 ECC 错误,则很有用。 需要 -i 切换到
目标特定设备。 需要root。 不可能有
使用此特定设备的应用程序(例如 CUDA 应用程序、
图形应用程序如 X 服务器,监控应用程序如其他
nvidia-smi 的实例)。 也不能有任何计算应用程序
在系统中的任何其他 GPU 上运行。 仅在支持的设备上
Fermi 和 Kepler 系列在 Linux 上运行。
不能保证 GPU 重置在所有情况下都有效。 不推荐
用于此时的生产环境。 在某些情况下可能
是板上无法恢复到初始状态的硬件组件
复位请求后的状态。 这更有可能在
费米代产品与开普勒产品相比,如果
正在挂起的 GPU 上执行重置。
重置后,建议 GPU 的健康状况为
在进一步使用之前进行验证。 nvidia-healthmon 工具很好
本次测试的选择。 如果 GPU 不健康,则完全重置
应该通过重新启动节点来启动。
访问 http://developer.nvidia.com/gpu-deployment-kit 下载
GDK 和 nvidia-healthmon。
-交流, --applications-clocks=MEM_CLOCK,GRAPHICS_CLOCK
指定最大值一对时钟(例如 2000,800)
它定义了在 GPU 上运行应用程序时 GPU 的速度。 仅在
来自 Kepler+ 系列的 Tesla 设备。 除非需要root
使用 -acp 命令可以放宽限制。
-rac, --重置应用程序时钟
将应用程序时钟重置为默认值。 仅限特斯拉
来自 Kepler+ 系列的设备。 除非有限制,否则需要 root
使用 -acp 命令放松。
-acp, --applications-clocks-permission=模式
切换是所有用户都可以更改应用程序时钟还是只能更改应用程序时钟
根。 可用参数为 0|UNRESTRICTED、1|RESTRICTED。 仅有的
在 Kepler+ 系列的 Tesla 设备上。 需要root。
-pl, --功率限制=POWER_LIMIT
以瓦特为单位指定最大功率限制。 接受整数和浮点数
点数。 仅在 Kepler 系列受支持的设备上。 需要
管理员权限。 值需要介于最小和最大功率之间
nvidia-smi 报告的限制。
-是, --会计模式=模式
启用或禁用 GPU 计费。 使用 GPU Accounting 可以保持
在单个进程的整个生命周期中跟踪资源的使用情况。
仅在 Kepler 系列受支持的设备上。 需要管理员
特权。 可用参数为 0|DISABLED 或 1|ENABLED。
-caa, --清除帐户应用程序
清除目前为止的所有进程。 仅在支持的设备上
开普勒家族。 需要管理员权限。
--auto-boost-default=模式
将默认自动提升策略设置为 0/DISABLED 或 1/ENABLED,强制执行
仅在最后一个 boost 客户端退出后才进行更改。 仅在
Kepler+ 系列中的某些 Tesla 设备。 需要root。
--auto-boost-default-force=模式
将默认自动提升策略设置为 0/DISABLED 或 1/ENABLED,强制执行
立即更改。 仅适用于 Kepler+ 的某些 Tesla 设备
家庭。 需要root。
--auto-boost-permission=模式
允许非管理员/root 控制自动提升模式。 可用参数
是 0|不受限制,1|受限制。 仅在某些 Tesla 设备上
开普勒+家族。 需要root。
[加 可选的]
-一世, --id=ID
修改单个指定的 GPU。 指定的 id 可能是 GPU/Unit 的
驱动程序返回的自然枚举中的基于 0 的索引,
GPU 的主板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID(如
domain:bus:device.function 十六进制)。 建议用户
期望一致性使用 UUID 或 PCI 总线 ID,因为设备
枚举顺序不能保证在重新启动之间保持一致
和主板序列号可能在多个 GPU 之间共享
同一个板。
单元 改性 配置
-t, --toggle-led=状态
将本机正面和背面的 LED 指示灯状态设置为
指定颜色。 见 (单元 ATTRIBUTES) 部分的说明
LED 状态。 允许的颜色为 0|GREEN 和 1|AMBER。 需要
根。
[加 可选的]
-一世, --id=ID
修改单个指定单元。 指定的id是Unit的0-based
驱动程序返回的自然枚举中的索引。
SHOW DTD 配置
--dtd
显示设备或单元 DTD。
[加 可选的]
-f 文件, --文件名=文件
将查询输出重定向到指定文件代替默认文件
标准输出。 指定的文件将被覆盖。
-你, - 单元
显示单元 DTD 而不是设备 DTD。
统计
显示有关 GPU 的统计信息。 使用“nvidia-smi stats
-h" 了解更多信息。仅限 Linux。
TOPO
显示系统的拓扑信息。 使用“nvidia-smi拓扑
-h" 了解更多信息。仅适用于 Linux。注意:GPU 枚举是
与 NVML 相同。
返回 VALUE
返回码反映操作是成功还是失败以及什么
是失败的原因。
· 返回码 0 - 成功
· 返回码 2 - 提供的参数或标志无效
· 返回码 3 - 请求的操作在
目标设备
· 返回码 4 - 当前用户没有权限
访问此设备或执行此操作
· 返回码 6 - 查找对象的查询不成功
· 返回代码 8 - 设备的外部电源线没有
正确连接
· 返回码 9 - 未加载 NVIDIA 驱动程序
· 返回码 10 - NVIDIA 内核检测到一个中断问题
一个 GPU
· 返回码 12 - 找不到或无法加载 NVML 共享库
· 返回码 13 - 本地版本的 NVML 没有实现这个
功能
· 返回码 14 - infoROM 已损坏
· 返回码 15 - GPU 已从总线上掉下来或以其他方式
变得不可接近
· 返回码 255 - 发生其他错误或内部驱动程序错误
GPU ATTRIBUTES
下面的列表描述了所有可能的数据返回 -q
设备查询选项。 除非另有说明,所有数值结果均为
基数为 10 且无单位。
时间戳
调用 nvidia-smi 时的当前系统时间戳。
格式为“星期几月日 HH:MM:SS 年”。
驱动器 版本
已安装的 NVIDIA 显示驱动程序的版本。 这是一
字母数字字符串。
附 图形处理器
系统中 NVIDIA GPU 的数量。
产品 姓名
GPU 的官方产品名称。 这是一个字母数字字符串。
适用于所有产品。
屏 显: 时尚
指示物理显示器(例如监视器)是否为
当前连接到任何 GPU 的连接器。 “启用”
表示连接的显示器。 “禁用”表示其他情况。
屏 显: 活跃
指示是否在 GPU 上初始化显示的标志
(例如,在设备上分配内存用于显示)。 显示可以
即使没有物理连接显示器也处于活动状态。 “启用”
表示活动显示。 “禁用”表示其他情况。
坚持 时尚
指示是否为 GPU 启用持久性模式的标志。
值为“启用”或“禁用”。 当持久模式为
启用 NVIDIA 驱动程序保持加载,即使没有活动客户端,
如 X11 或 nvidia-smi,存在。 这最大限度地减少了驱动程序的负载
与运行相关应用程序(例如 CUDA 程序)相关的延迟。
适用于所有支持 CUDA 的产品。 仅限 Linux。
基本会计和财务报表 时尚
指示是否为 GPU 启用计费模式的标志
值是当启用记帐时计算统计信息
对于在 GPU 上运行的每个计算进程。 统计数据可用
用于进程终止后的查询。 见--help-query-accounted-
应用程序以获取更多信息。
基本会计和财务报表 时尚 缓冲区 份量
返回包含进程列表的循环缓冲区的大小
可以查询会计统计信息。 这是最大数量
之前将存储会计信息的流程
有关最旧进程的信息将被信息覆盖
关于新流程。
驱动器 型号
在 Windows 上,支持 TCC 和 WDDM 驱动程序模型。 司机
模型可以用(-dm)或(-fdm) 标志。 TCC 驱动程序
模型针对计算应用程序进行了优化。 IE 内核启动时间
使用 TCC 会更快。 WDDM 驱动程序模型专为
图形应用程序,不推荐用于计算应用程序。
Linux 不支持多种驱动程序模型,并且将始终具有
“不适用”的值。
电流 当前使用的驱动程序模型。 总是“不适用”
Linux操作系统。
待审批 下次重新启动时将使用的驱动程序模型。
在 Linux 上总是“不适用”。
串行 联系电话
该编号与实际印刷在每块板上的序列号相匹配。
它是全球唯一的不可变字母数字值。
GPU UUID
此值是全局唯一的不可变字母数字标识符
GPU。 它不对应板上的任何物理标签。
未成年人 联系电话
设备的次要编号使得 Nvidia 设备节点
每个 GPU 的文件的格式为 /dev/nvidia[minor number]。
仅在 Linux 平台上可用。
BIOS 版本
GPU 板的 BIOS。
多GPU 烫衣板
此 GPU 是否是多 GPU 板的一部分。
烫衣板 ID
驱动程序分配的唯一板 ID。 如果两个或更多 GPU 有
相同的板 ID 和上面的“MultiGPU”字段为真,然后是 GPU
在同一块板上。
信息 版本
GPU 板信息存储中每个对象的版本号。
inforom 是一个小的、持久的配置和状态存储
GPU 的数据。 所有信息版本字段都是数字。 有可能
了解这些版本号很有用,因为某些 GPU 功能仅适用于
提供特定版本或更高版本的信息。
如果以下任何字段返回未知错误附加信息
执行验证检查并显示适当的警告消息
显示。
图片 版本 infoROM 映像的全球版本。 图像版本只是
就像 VBIOS version 唯一地描述了确切的版本
infoROM 的闪烁在板上与
infoROM 对象版本,它只是一个指标
支持的功能。
OEM 摆件 OEM 配置数据的版本。
ECC 摆件 ECC 记录数据的版本。
电力 摆件 电源管理数据的版本。
GPU 操作 时尚
GOM 允许通过以下方式降低功耗并优化 GPU 吞吐量
禁用 GPU 功能。
每个 GOM 旨在满足特定的用户需求。
在“All On”模式下,一切都被启用并全速运行。
“计算”模式专为仅运行计算任务而设计。 图形
不允许操作。
“低双精度”模式专为运行图形而设计
不需要高带宽双精度的应用程序。
GOM 可以用 (——戈姆) 旗帜。
支持 Kepler 的 GK110 M 级和 X 级 Tesla 产品
家庭。 Quadro 和 Tesla C 级产品不支持。
电流 当前使用的 GOM。
待审批 下次重新启动时将使用的 GOM。
PCI
设备的基本 PCI 信息。 其中一些信息可能会发生变化
每当在系统中添加/删除/移动卡片时。 适用于所有产品。
公共汽车 PCI 总线编号,以十六进制表示
设备 PCI 设备编号,以十六进制表示
域名 PCI 域号,以十六进制表示
设备 Id PCI 供应商设备 ID,以十六进制表示
小组 系统 Id PCI 子系统 ID,十六进制
公共汽车 Id PCI 总线 ID 为“域:总线:设备.功能”,十六进制
GPU 链接 信息
PCIe 链路生成和总线宽度
电流 当前链接生成和宽度。 这些可能是
不使用 GPU 时减少。
最大 最大的链接生成和宽度可能与此
GPU和系统配置。 例如,如果 GPU
支持比系统更高的 PCIe 代
支持然后这个报告系统PCIe生成。
桥 芯片
与设备上的桥接芯片相关的信息。 桥接芯片
固件仅存在于某些板上,并且可能会显示“N/A”
一些较新的多 GPU 板。
类型 桥接芯片的类型。 如果没有,则报告为 N/A
存在。
固件 版本
桥接芯片的固件版本。 报告为 N/A
如果不存在。
风扇 速度
风扇速度值是设备的最大速度的百分比
风扇目前打算运行。 它的范围从 0 到 100%。 笔记:
报告的速度是预期的风扇速度。 如果风扇在物理上
阻塞且无法旋转,此输出与实际风扇不符
速度。 许多部件不报告风扇速度,因为它们依赖于
通过周围机柜中的风扇冷却。 对于所有离散
具有专用风扇的产品。
性能 州/领地
GPU 的当前性能状态。 状态范围从 P0
(最高性能)到 P12(最低性能)。
钟 风门 原因
检索有关降低频率的因素的信息
时钟。 仅适用于 Kepler 系列受支持的 Tesla 设备。
如果所有节流原因都返回为“未激活”,则意味着
时钟运行得尽可能高。
空闲 GPU 上什么都没有运行,时钟是
下降到空闲状态。 此限制器可能会在
稍后发布。
应用行业 钟 设置
GPU 时钟受应用程序时钟设置的限制。
例如可以使用 nvidia-smi 进行更改
--应用程序时钟=
SW 电力 帽 SW Power Scaling 算法正在减少以下时钟
请求时钟,因为 GPU 消耗太多
力量。 例如,可以通过以下方式更改 SW 功率上限限制
nvidia-smi --功率限制=
HW 慢一点 硬件减速(将核心时钟减少 2 倍
或更多)参与。
这是一个指标:
* 温度过高
* 外部动力制动断言被触发(例如通过
系统电源)
* 功耗太高,快速触发保护
减少时钟
不明 其他一些未指定的因素是减少时钟。
FB 内存 用法
板载帧缓冲存储器信息。 报告的总内存为
受 ECC 状态的影响。 如果启用 ECC,则总可用内存为
由于必需的奇偶校验位,减少了几个百分点。 这
驱动程序也可能保留少量内存供内部使用,即使
无需在 GPU 上积极工作。 适用于所有产品。
合计 FB 存储器的总大小。
旧 已使用的 FB 内存大小。
免费 FB 存储器的可用大小。
酒吧1 内存 用法
BAR1 用于映射 FB(设备存储器),以便可以直接
由 CPU 或第 3 方设备(PCIe 上的点对点)访问
总线)。
合计 BAR1 内存的总大小。
旧 使用的 BAR1 内存大小。
免费 BAR1 内存的可用大小。
计算 时尚
计算模式标志指示是单个还是多个计算
应用程序可以在 GPU 上运行。
“默认”意味着每个设备允许多个上下文。
“独占线程”意味着每个设备只允许一个上下文,可用
一次从一个线程开始。
“独占进程”意味着每个设备只允许一个上下文,
一次可以从多个线程使用。
“禁止”意味着每个设备都不允许有上下文(没有计算
应用)。
在 CUDA 4.0 中添加了“EXCLUSIVE_PROCESS”。 之前的 CUDA 版本
仅支持一种独占模式,相当于
CUDA 4.0 及更高版本中的“EXCLUSIVE_THREAD”。
适用于所有支持 CUDA 的产品。
采用
利用率报告每个 GPU 随着时间的推移有多忙,并且可以
用于确定应用程序在
系统。
注意:在驱动程序初始化期间启用 ECC 时可以看到高
GPU 和内存利用率读数。 这是由 ECC 内存引起的
在驱动程序初始化期间执行的清理机制。
GPU 过去样本期间的时间百分比
一个或多个内核正在 GPU 上执行。 这
采样周期可能在 1 秒到 1/6 秒之间
取决于产品。
内存 过去样本期间的时间百分比
正在读取或写入全局(设备)内存。 这
采样周期可能在 1 秒到 1/6 秒之间
取决于产品。
软腐病 时尚
指示是否启用 ECC 支持的标志。 可能是
“启用”或“禁用”。 更改为 ECC 模式需要重新启动。
需要Inforom ECC 对象版本1.0 或更高版本。
电流 GPU 当前运行的 ECC 模式。
待审批 GPU 运行后的 ECC 模式
下次重启。
ECC 故障
NVIDIA GPU 可以为各种类型的 ECC 错误提供错误计数。
一些 ECC 错误是单比特或双比特,其中单比特
错误被纠正,双位错误是不可纠正的。 质地
内存错误可以通过重新发送或无法纠正,如果
重发失败。 这些错误在两个时间尺度上可用
(易变和聚合)。 单位 ECC 错误是自动的
由硬件更正,不会导致数据损坏。 双位
检测到错误但未纠正。 请参阅 ECC 文件
有关双位时计算应用程序行为的信息,请访问网络
发生错误。 易失性错误计数器跟踪错误数量
自上次驱动程序加载以来检测到。 聚合错误计数持续存在
无限期,因此充当生命周期计数器。
关于 volatile 计数的说明:在 Windows 上,这是每次启动一次。 在
Linux 这可以更频繁。 在 Linux 上,驱动程序在没有时卸载
存在活跃客户。 因此,如果启用持久性模式或
始终是驱动程序客户端活动的(例如 X11),然后 Linux 也会看到每个
引导行为。 如果不是,则每次计算时都会重置易失性计数
应用程序运行。
Fermi 和 Kepler 系列的 Tesla 和 Quadro 产品可以显示
总 ECC 错误计数,以及基于错误的细目分类
芯片上的位置。 位置如下所述。
用于汇总错误计数的基于位置的数据需要Inforom ECC
对象版本 2.0。 所有其他 ECC 计数都需要 ECC 对象版本
1.0.
设备 内存 在全局设备内存中检测到错误。
注册 文件 在寄存器文件存储器中检测到错误。
L1 缓存 在 L1 缓存中检测到错误。
L2 缓存 在 L2 缓存中检测到错误。
质地 内存 在纹理内存中检测到奇偶校验错误。
合计 在整个芯片上检测到的总错误。 总和 设备
内存, 注册 文件, L1 缓存, L2 缓存 和 质地
内存.
页 退休计划
NVIDIA GPU 可以在 GPU 设备内存页面变为
不可靠。 当发生多个单比特 ECC 错误时,可能会发生这种情况
对于同一页,或双位 ECC 错误。 当一个页面
退休,NVIDIA 驱动程序将隐藏它,以便没有驱动程序,或
应用程序内存分配可以访问它。
双 位 ECC 已被分配的 GPU 设备内存页数
由于双位 ECC 错误而退役。
集成的 位 ECC 已被分配的 GPU 设备内存页数
由于多个单比特 ECC 错误而退役。
待审批 检查是否有任何 GPU 设备内存页面等待停用
下次重启。 待停用的页面仍然可以
分配,并可能导致进一步的可靠性问题。
温度
板上温度传感器的读数。 所有读数都在
度 C。并非所有产品都支持所有阅读类型。 特别是,
依赖机箱风扇或无源模块的产品
冷却通常不提供温度读数。 见下文
限制。
GPU 核心 GPU 温度。 适用于所有离散和 S 级
的产品。
电力 读
电源读数有助于了解当前的电源使用情况
GPU,以及影响该使用情况的因素。 当电源管理是
启用 GPU 限制负载下的功耗以适应预定义的
通过操纵当前的性能状态来实现功率包络。 看
下面是可用性的限制。
电力 州/领地 电源状态已弃用并已重命名为
2.285 中的性能状态。 维护 XML
兼容性,以 XML 格式列出性能状态
在这两个地方。
电力
指示电源管理是否已启动的标志
启用。 “支持”或“不适用”。 需要信息
PWR 对象版本 3.0 或更高版本或 Kepler 设备。
电力 平局 整个电路板的最后一次测量功率消耗,在
瓦特。 仅在支持电源管理时可用。
该读数精确到 +/- 5 瓦以内。
需要 Inform PWR 对象版本 3.0 或更高版本或
开普勒装置。
电力 限制 软件功率限制,以瓦特为单位。 由软件设置
比如nvidia-smi。 仅当电源管理时可用
支持。 需要 Inform PWR 对象版本 3.0
或更高或开普勒设备。 在 Kepler 设备上 电源
可以使用 -pl,--power-limit= 开关调整限制。
强制执行 电力 限制
电源管理算法的功率上限,在
瓦特。 总电路板功耗由
电源管理算法,使其保持在此
价值。 此限制是各种限制中的最小值,例如
作为上面列出的软件限制。 仅当
支持电源管理。 需要开普勒
。
默认 电力 限制
默认电源管理算法的功率上限,
以瓦特为单位。 功率限制将被设置回默认功率
驱动程序卸载后的限制。 仅在支持的设备上
来自开普勒家族。
分钟 电力 限制
可以设置的功率限制的最小值(瓦特)
到。 仅在 Kepler 系列受支持的设备上。
max. 电力 限制
可以设置功率限制的最大值(以瓦为单位)
到。 仅在 Kepler 系列受支持的设备上。
钟
GPU 各部分运行的当前频率。 所有读数
以兆赫为单位。
图像 图形(着色器)时钟的当前频率。
SM SM(流式多处理器)的当前频率
钟。
内存 内存时钟的当前频率。
应用 钟
用户指定的应用程序运行频率。 能
用 [-ac | 更改--applications-clocks] 开关。
图像 用户指定的图形(着色器)时钟频率。
内存 用户指定的内存时钟频率。
默认 应用 钟
应用程序运行的默认频率。
可以使用 [-ac | 更改应用程序时钟。 --applications-clocks]
开关。 可以使用 [-rac | 将应用程序时钟设置为默认值。
--reset-applications-clocks] 开关。
图像 应用程序图形的默认频率(着色器)
钟。
内存 应用程序内存时钟的默认频率。
max. 钟
GPU 部分设计运行的最大频率。 全部
读数单位为 MHz。
在 Fermi 系列的 GPU 上,当前的 P0 时钟(在 Clocks 中报告)
部分)可能与最大时钟相差几兆赫。
图像 图形(着色器)时钟的最大频率。
SM SM(Streaming Multiprocessor)最大频率
钟。
内存 内存时钟的最大频率。
时钟 方针政策
自动时钟更改的用户指定设置,例如 auto
促进。
Auto 提高 指示当前是否启用自动升压模式
此 GPU(开)或禁用此 GPU(关)。 演出
(N/A) 如果不支持升压。 自动升压允许
基于功率、热和的动态 GPU 时钟
利用率。 当自动增强被禁用时,GPU 将
尝试将时钟精确地保持在当前
应用程序时钟设置(只要 CUDA 上下文是
积极的)。 启用自动增强后,GPU 仍将
试图维持这个楼层,但会
上电时机会性地提升到更高的时钟,
热和利用空间允许。 这个设置
在 CUDA 上下文的生命周期内持续存在
被要求。 应用程序可以请求特定模式
通过 NVML 调用(请参阅 NVML SDK)或通过设置 CUDA
环境变量 CUDA_AUTO_BOOST。
Auto 提高 默认
表示自动升压模式的默认设置,
启用 (On) 或禁用 (Off)。 显示 (N/A) 如果
不支持升压。 应用程序将在默认情况下运行
模式,如果他们没有明确要求一个特定的
模式。
支持 时钟
GPU 可能的内存和图形时钟组合列表
可以操作(不考虑硬件制动减少的时钟)。
这些是唯一可以传递给的时钟组合
--applications-clocks 标志。 仅在 -q 时列出支持的时钟
-d SUPPORTED_CLOCKS 开关已提供或以 XML 格式提供。
计算 流程
在设备上具有计算上下文的进程列表。
每个条目的格式为“ . ”
旧 GPU 内存
上下文在设备上使用的内存量。 不是
在 WDDM 模式下运行时在 Windows 上可用,因为
Windows KMD 管理所有内存而不是 NVIDIA 驱动程序。
统计数据 (实验性)
列出 GPU 统计数据,例如功耗样本、利用率样本、xid
事件、时钟变化事件和违规计数器。
在 Linux 下支持基于 Tesla、GRID 和 Quadro 的产品。
仅限于 Kepler 或更新的 GPU。
以 CSV 格式显示统计信息,如下所示:
, , ,
指标>
与其单位一起显示的指标如下:
以瓦特为单位的功率样本。
GPU、内存、编码器和解码器利用率示例(以百分比表示)。
使用 Xid 错误代码报告的 Xid 错误事件。 错误代码是 999
对于未知的 xid 错误。
处理器和内存时钟以 MHz 为单位变化。
由于功率封顶而导致的违规,违规时间以 ns 为单位。 (仅限特斯拉)
由于带有违规布尔标志 (1/0) 的热上限而导致违规。
(仅限特斯拉)
笔记:
任何以“#”开头的统计数据都是注释。
不支持的设备显示为“# , 设备不
支持的”。
不支持的指标显示为“ , ,
不适用,不适用”。
仅适用于基于 Tesla 的产品支持因热/功率导致的违规。
热违规仅限于 Tesla K20 及更高版本。
拓扑 (实验性)
列出有关系统 GPU 的拓扑信息,以及它们如何连接到
彼此以及能够进行 RDMA 的合格 NIC
显示具有以下图例的可用 GPU 矩阵:
传说:
X = 自己
SOC = 路径遍历套接字级链接(例如 QPI)
PHB = 路径穿过 PCIe 主机桥
PXB = 路径穿越多个 PCIe 内部交换机
PIX = 路径穿过 PCIe 内部交换机
单元 ATTRIBUTES
下面的列表描述了所有可能的数据返回 -q -u
单位查询选项。 除非另有说明,所有数值结果均为
基数为 10 且无单位。
时间戳
调用 nvidia-smi 时的当前系统时间戳。
格式为“星期几月日 HH:MM:SS 年”。
驱动器 版本
已安装的 NVIDIA 显示驱动程序的版本。 格式是
“主要号码。次要号码”。
HIC 资料包
有关安装在其中的任何主机接口卡 (HIC) 的信息
系统。
固件 版本
在 HIC 上运行的固件版本。
附 单位
系统中附加单元的数量。
产品 姓名
单位的正式产品名称。 这是一个字母数字值。
适用于所有 S 级产品。
产品 Id
单位的产品标识符。 这是一个字母数字值
表格“part1-part2-part3”。 适用于所有 S 级产品。
产品 串行
单元的不可变全局唯一标识符。 这是一
字母数字值。 适用于所有 S 级产品。
固件 版本
设备上运行的固件版本。 格式是
“主要号码。次要号码”。 适用于所有 S 级产品。
LED 州/领地
LED 指示灯用于标记存在潜在问题的系统。 一个
琥珀色的 LED 颜色表示存在问题。 适用于所有 S 级产品。
颜色 LED 指示灯的颜色。 “绿色”或
“琥珀色”。
原因 当前 LED 颜色的原因。 原因可能是
列为“Unknown”、“Set to AMBER by
主机系统”、“热传感器故障”、“风扇故障”
和“温度超过临界极限”。
温度
设备重要部件的温度读数。 全部
读数以摄氏度为单位。并非所有读数都可用。 对所有人
S级产品。
入学时间 机组进气口的空气温度。
排气 机组排气点的空气温度。
烫衣板 整个单元板的空气温度。
电源供应器
单元电源的读数。 适用于所有 S 级产品。
州/领地 PSU 的运行状态。 供电状态可以
是以下任何一种:“正常”、“异常”、“高
电压”、“风扇故障”、“散热器温度”、
“电流限制”,“电压低于紫外线警报阈值”,
“低电压”、“I2C 远程关闭命令”、“MOD_DISABLE”
输入”或“短引脚转换”。
电压 PSU 电压设置,单位为伏特。
电流 PSU 电流消耗,以安培为单位。
风扇 资料包
单位的风扇读数。 为每个风扇提供一个读数,
可以有很多。 适用于所有 S 级产品。
州/领地 风扇的状态,“正常”或“失败”。
速度 对于健康的风扇,风扇的转速以 RPM 为单位。
附 图形处理器
与连接到的每个 GPU 对应的 PCI 总线 ID 列表
那个单位。 总线 ID 的格式为“域:总线:设备.功能”,在
十六进制适用于所有 S 级产品。
附注
在 Linux 上,如果以以下方式运行,NVIDIA 设备文件可能会被 nvidia-smi 修改
根。 请参阅驱动程序自述文件的相关部分。
这款 -a 和 -g 现在不推荐使用参数 -q 和 -i,
分别。 但是,旧参数仍然适用于此版本。
示例
NVIDIA-SMI -q
查询所有GPU的属性一次,并以纯文本显示
标准输出。
NVIDIA-SMI --format=csv,无标题 --query-gpu=uuid,persistence_mode
查询系统中所有GPU的UUID和持久化模式。
NVIDIA-SMI -q -d ECC,电源 -i 0 -l 10 -f 输出日志
以0的频率查询GPU 10的ECC错误和功耗
秒,无限期,并记录到文件 out.log。
NVIDIA-SMI -c 1 -i
GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8
将 UUID 的 GPU 的计算模式设置为“EXCLUSIVE_THREAD”
"GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8".
NVIDIA-SMI -q -u -x --dtd
查询所有单位的属性一次,并以 XML 格式显示
将 DTD 嵌入到标准输出中。
NVIDIA-SMI --dtd -u -f nvsmi_unit.dtd
将单元 DTD 写入 nvsmi_unit.dtd。
NVIDIA-SMI -q -d 支持时钟
显示所有 GPU 支持的时钟。
NVIDIA-SMI -i 0 --应用程序时钟 2500,745
将应用程序时钟设置为 2500 MHz 内存和 745 MHz 图形。
更改 登录
=== 已知问题 ===
* 在 Linux 上,当有待处理的 GOM 时无法触发 GPU 重置
改变。
* 在 Linux GPU 重置上可能无法成功更改挂起的 ECC 模式。 一种
可能需要完全重新启动才能启用模式更改。
* 在 Windows WDDM 模式下,GPU 内存由 Windows 分配
启动然后直接管理。 Nvidia-smi 报告已用/可用内存
从驱动程序的角度来看,因此在 WDDM 模式下,结果可以是
误导。 这可能会在未来得到修复。
=== nvidia-smi v331 更新和 v340 之间的变化 ===
* 添加了温度阈值信息的报告。
* 添加了品牌信息报告(例如 Tesla、Quadro 等)
* 添加了样本的最大值、最小值和平均值报告(功率、
利用率、时钟变化)。 示例命令行:nvidia-smi -q -d
电源,利用率,时钟
* 添加了 nvidia-smi stats 接口来收集统计信息,例如
功率、利用率、时钟变化、xid 事件和性能上限计数器
每个样本都附有时间概念。 示例命令行:
nvidia-smi 统计
* 增加了对多个指标的集体报告支持
图形处理器。 使用逗号分隔,以“-i”选项分隔。 示例:nvidia-smi -i
0,1,2
* 添加了对显示 GPU 编码器和解码器的支持
利用率
* 添加了 nvidia-smi topo 界面以显示 GPUDirect
沟通矩阵(实验)
* 增加了显示GPU板ID和是否显示的支持
是一个多GPU板
* 从 XML 输出中删除了用户定义的节流原因
=== nvidia-smi v5.319 更新和 v331 之间的变化 ===
* 添加了次要号码的报告。
* 添加报告 BAR1 内存大小。
* 添加了桥接芯片固件的报告。
=== nvidia-smi v4.319 Production 和 v4.319 Update 之间的变化
===
* 添加了新的 --applications-clocks-permission 开关来改变
设置和重置应用程序时钟的权限要求。
=== nvidia-smi v4.304 和 v4.319 Production 之间的变化 ===
* 添加了显示活动状态的报告和更新的文档
阐明它与显示模式和显示活动状态的区别
* 为了在多 GPU 板上保持一致性 nvidia-smi -L 始终显示
UUID 代替序列号
* 添加了机器可读的选择性报告。 见选择性查询
nvidia-smi -h 的选项部分
* 添加了页面退休信息的查询。 见--help-query-
退休页面和 -d PAGE_RETIREMENT
* 将时钟节流原因用户定义时钟重命名为应用程序
时钟设置
* 出错时,每个错误的返回码都有不同的非零值
班级。 见返回值部分
* nvidia-smi -i 现在可以从健康的 GPU 查询信息
是系统中其他GPU的问题
* 指向 GPU 打印 pci 总线 ID 问题的所有消息
有故障的 GPU
* 新标志 --loop-ms 用于以更高的速率查询信息
每秒一次(可能对系统性能产生负面影响)
* 添加了对会计过程的查询。 见--help-query-accounted-
应用程序和 -d 会计
* 在查询输出中添加了强制功率限制
=== nvidia-smi v4.304 RC 和 v4.304 Production 之间的变化 ===
* 添加了 GPU 操作模式 (GOM) 的报告
* 添加了新的 --gom 开关来设置 GPU 操作模式
=== nvidia-smi v3.295 和 v4.304 RC 之间的变化 ===
* 由于用户反馈重新格式化非详细输出。 已移除
来自表的待处理信息。
* 如果由于内核初始化失败,打印出有用的消息
模块未接收中断
* 当 NVML 共享库不存在时更好的错误处理
系统
* 添加了新的 --applications-clocks 开关
* 向 --display 开关添加了新过滤器。 使用 -d SUPPORTED_CLOCKS 运行
列出 GPU 上可能的时钟
* 当报告空闲内存时,从四舍五入的总数和
使用内存,以便值相加
* 添加了电源管理限制约束和默认值的报告
限制
* 添加了新的 --power-limit 开关
* 添加了纹理内存 ECC 错误的报告
* 添加时钟节流原因报告
=== nvidia-smi v2.285 和 v3.295 之间的变化 ===
* 更清晰的运行命令错误报告(如更改计算
模式)
* 在多个 GPU 上同时运行命令时 N/A 错误是
作为警告处理。
* nvidia-smi -i 现在也支持 UUID
* UUID 格式更改为匹配 UUID 标准,并将报告一个
不同的价值。
=== nvidia-smi v2.0 和 v2.285 之间的变化 ===
* 报告 VBIOS 版本。
* 添加 -d/--display 标志来过滤部分数据
* 添加了 PCI 子系统 ID 的报告
* 更新文档以表明我们支持 M2075 和 C2075
* 使用 -u 开关报告 HIC HWBC 固件版本
*报告当前时钟旁边的最大(P0)时钟
* 添加 --dtd 标志以打印设备或单元 DTD
* 添加 NVIDIA 驱动程序未运行时的消息
* 添加了 PCIe 链路生成(最大和当前)和链路的报告
宽度(最大和当前)。
* 获取挂起的驱动程序模型适用于非管理员
* 添加了对在 Windows 来宾帐户上运行 nvidia-smi 的支持
* 在没有 -q 命令的情况下运行 nvidia-smi 将输出非详细信息
-q 的版本而不是帮助
* 修正了 -l/--loop= 参数的解析(默认值,0,到大
值)
* 更改了 pciBusId 的格式(更改为 XXXX:XX:XX.X - 此更改为
在 280 中可见)
* 为 -i 命令解析 busId 的限制较少。 你可以通过
0:2:0.0 或 0000:02:00 和其他变体
* 将版本控制方案更改为还包括“驱动程序版本”
* XML 格式始终符合 DTD,即使出现错误情况
* 添加了对单位和双位 ECC 事件和 XID 错误的支持
(默认情况下启用 -l 标志禁用 -x 标志)
* 添加了设备重置 -r --gpu-reset 标志
* 添加了计算运行进程列表
* 将电源状态重命名为性能状态。 已弃用支持
仅在 XML 输出中。
* 将 DTD 版本号更新为 2.0 以匹配更新的 XML 输出
使用 onworks.net 服务在线使用 alt-nvidia-340-updates-smi