これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド sbatch です。
プログラム:
NAME
sbatch - バッチ スクリプトを Slurm に送信します。
SYNOPSIS
スバッチ [オプション] スクリプト [引数...]
DESCRIPTION
sbatch はバッチ スクリプトを Slurm に送信します。 バッチ スクリプトは、
コマンドラインでファイル名を指定するか、ファイル名が指定されていない場合、sbatch はファイル名を読み取ります。
標準入力からのスクリプト。 バッチ スクリプトには、先頭に「#SBATCH」が付くオプションが含まれる場合があります。
スクリプト内の実行可能なコマンドの前に。
sbatch は、スクリプトが Slurm に正常に転送された直後に終了します。
コントローラーであり、Slurm ジョブ ID が割り当てられています。 バッチスクリプトは必ずしも許可されるわけではありません
すぐにリソースを解放しても、リソースが解放されるまでしばらくの間、保留中のジョブのキューに留まる可能性があります。
必要なリソースが利用可能になります。
デフォルトでは、標準出力と標準エラーの両方が次の名前のファイルに送られます。
「slurm-%j.out」。「%j」はジョブ割り当て番号に置き換えられます。 ファイルは
ジョブ割り当ての最初のノードで生成されます。 バッチスクリプト自体以外にも、
Slurm はユーザー ファイルの移動を行いません。
最終的にバッチ スクリプトに対するジョブ割り当てが許可されると、Slurm は単一のコピーを実行します。
割り当てられたノードのセット内の最初のノード上のバッチ スクリプトの。
次の文書では、さまざまなオプションが割り当てに及ぼす影響について説明します。
CPU をジョブとタスクに接続します。
http://slurm.schedmd.com/cpu_management.html
OPTIONS
-a, - 配列=<インデックス>
ジョブ配列、つまり複数のジョブを同一のパラメータで実行するように送信します。 の
インデックス 仕様では、どの配列インデックス値を使用するかを指定します。 複数
値は、カンマ区切りのリストや値の範囲を使用して指定できます。
「-」区切り文字。 たとえば、「--array=0-15」または「--array=0,6,16-32」です。 一歩
function は、コロンと数字を含む接尾辞を使用して指定することもできます。 のために
たとえば、「--array=0-15:4」は「--array=0,4,8,12」と同等です。 最大数
ジョブ配列から同時に実行するタスクは、「%」を使用して指定できます。
セパレータ。 たとえば、「--array=0-15%4」と指定すると、同時に実行できる数が制限されます。
このジョブ配列から 4 までのタスクを実行します。最小インデックス値は 0 です。最大値は
値は構成パラメータ MaxArraySize より XNUMX 小さい値です。
-A, - アカウント=<アカウント>
このジョブで使用されるリソースを指定されたアカウントに請求します。 の アカウント あります
任意の文字列。 アカウント名は、ジョブの送信後に、
コントロール
--acctg-freq
ジョブアカウンティングとプロファイリングのサンプリング間隔を定義します。 これは次の目的で使用できます。
上書きする ジョブの収集頻度 Slurm の設定ファイル内のパラメータ、
slurm.conf。 サポートされている形式は次のとおりです。
--acctg-freq==
コラボレー = タスクのサンプリング間隔を指定します
jobacct_gather プラグインまたはプロファイリング タイプのサンプリング間隔
acct_gather_profile プラグインによる。 複数のカンマ区切り
= 間隔を指定することもできます。 サポートされているデータ型
以下の通り:
タスク=
コラボレー タスクのサンプリング間隔(秒)です。
jobacct_gather プラグインと、
acct_gather_profile プラグイン。 注: この周波数は次の目的で使用されます。
メモリ使用量を監視します。 メモリ制限が適用される場合、最高のメモリ制限が適用されます。
ユーザーがリクエストできる頻度は、
slurm.conf ファイル。 オフ(=0)にすることもできません。
エネルギー=
コラボレー エネルギーのサンプリング間隔 (秒)
acct_gather_energy プラグインを使用したプロファイリング
ネットワーク=
コラボレー は秒単位のサンプリング間隔です。
acct_gather_infiniband プラグインを使用した infiniband プロファイリング。
ファイルシステム=
コラボレー は秒単位のサンプリング間隔です。
acct_gather_filesystem プラグインを使用したファイルシステムのプロファイリング。
タスクのサンプリング間隔のデフォルト値は 30 秒です。
他のすべての間隔のデフォルト値は 0 です。間隔が 0 の場合、サンプリングは無効になります。
指定されたタイプの。 タスクのサンプリング間隔が0の場合、アカウンティング情報
ジョブの終了時にのみ収集されます (ジョブに対する Slurm の干渉が軽減されます)。
値が小さい (ゼロ以外) とジョブのパフォーマンスに大きな影響を与えますが、値は
30 秒未満のアプリケーションでは、この長さは目立たない可能性があります。
10,000 のタスク。
-B --追加ノード情報=<ソケット[:色[:スレッド]]>
リソースの数とタイプに関する詳細を指定して、リソースの特定の割り当てをリクエストします。
クラスター内の計算リソースの数: ソケットの数 (または物理的なリソース)
ノードあたりのプロセッサ数)、ソケットあたりのコア数、およびコアあたりのスレッド数。 合計金額
要求されているリソースは、すべての条件の結果です。 指定された各値
は最小限とみなされます。 アスタリスク (*) は、次のことを示すプレースホルダーとして使用できます。
そのタイプの利用可能なすべてのリソースが利用されること。 ノードと同様に、
必要に応じて、個別のレベルを個別のオプションで指定することもできます。
--ノードごとのソケット数=<ソケット>
--ソケットあたりのコア数=<色>
-- コアあたりのスレッド数=<スレッド>
SelectType が select/cons_res に設定されている場合、パラメータが必要です。
このオプションの場合は、CR_Core、CR_Core_Memory、CR_Socket、または CR_Socket_Memory
光栄です。 このオプションは、BlueGene システム (select/bluegene プラグイン) ではサポートされていません。
設定されています)。 指定しない場合、scontrol show ジョブが表示されます。
「ReqS:C:T=*:*:*」。
--bb=<スペック>
バーストバッファ仕様。 仕様の形式はシステムに依存します。
- 始める=<時間>
通常どおり、バッチ スクリプトを Slurm コントローラーにすぐに送信しますが、
コントローラーは、指定された時間までジョブの割り当てを延期します。
時間は次のような形になるかもしれません HH:MM:SS 特定の時刻 (秒) にジョブを実行するには
はオプションです)。 (すでにその時間を過ぎている場合は、翌日とみなされます。)
も指定してください 真夜中, 正午, ほかに (午後 3 時) または ティータイム (午後 4 時)
時刻に接尾辞が付く AM or PM 朝や夕方のランニングに。 あなた
フォームの日付を指定して、ジョブが実行される日を指定することもできます マディ
or MM / DD / YY YYYY-MM-DD。 次の形式を使用して日付と時刻を結合します
YYYY-MM-DD[THH:MM[:SS]]。 次のような時間を指定することもできます 今 + カウント 時間単位ここで、
時間単位は次のとおりです 秒 (デフォルト)、 分, 時, 日または 週間 そして、次のことができます
Slurm にキーワードを使用して今日ジョブを実行するように指示します 今日 そして明日そのジョブを実行するために
キーワードで 明日。 値は、ジョブの送信後に、
コントロール 指図。 例えば:
--開始=16:00
--begin=今+1時間
--begin=now+60 (デフォルトでは秒)
--begin=2010-01-20T12:34:00
日付/時刻指定に関する注意事項:
- HH:MM:SS 時間指定の「秒」フィールドは許可されていますが、
このコードでは、Slurm スケジューラのポーリング時間が十分に正確ではないことに注意してください。
正確な秒でのジョブのディスパッチを保証します。 その仕事の対象となるのは、
指定された時間の後の次のポーリングから開始します。 正確なポーリング間隔
Slurm スケジューラによって異なります (たとえば、デフォルトの sched/builtin では 60 秒)。
- 時刻 (HH:MM:SS) が指定されていない場合、デフォルトは (00:00:00) です。
- 日付が年なしで指定されている場合 (MM/DD など)、現在の年は次のようになります。
MM/DD と HH:MM:SS の組み合わせが既に合格していない限り、仮定されます。
この場合は翌年が使用されます。
-チェックポイント=<時間>
ジョブ ステップのチェックポイントを作成する間隔を指定します。 デフォルトでは、
ジョブ ステップにはチェックポイントは作成されません。 受け入れられる時刻形式には次のものがあります。
"分"、"分:秒"、"時:分:秒"、"日-時間"、
「日-時間:分」および「日-時間:分:秒」。
--チェックポイントディレクトリ=<ディレクトリにジョブを開始します。>
ジョブまたはジョブ ステップのチェックポイントが置かれるディレクトリを指定します
書き込まれます (チェックポイント/blcrm およびチェックポイント/xlch プラグインによってのみ使用されます)。 の
デフォルト値は現在の作業ディレクトリです。 チェックポイント ファイルは
形状 " .ckpt" (ジョブの場合)、および " 。 ジョブ ステップの場合は .ckpt」。
- コメント=<string>
スペースまたは特殊なものを使用する場合は、二重引用符で囲まれた任意のコメント
文字。
-C, --制約=<リスト>
ノードが持つことができるのは、 機能を使用 Slurm 管理者によって割り当てられます。 ユーザーは次のことができます
これらのうちどれかを指定してください 機能を使用 制約を使用する仕事で必要とされる
オプション。 ジョブの制約に一致する機能を持つノードのみが、
要求を満たします。 AND、OR、マッチングを使用して複数の制約を指定できます。
または、リソース数など。サポートされている制約オプションは次のとおりです。
単発講座 お名前
指定された機能を持つノードのみが使用されます。 例えば、
--constraint="インテル"
Node ワンランク上の
リクエストでは、ある機能で必要なノードの数を次のように指定できます。
機能名の後にアスタリスクとカウントを追加します。 例えば
"--ノード=16 --constraint=グラフィックス*4 ... " ジョブに 16 が必要であることを示します
ノードのうち少なくとも XNUMX つにはこの機能が必要であること
「グラフィック」。
そして 指定されたすべての機能を持つノードのみが使用される場合。 アンパサンドは
AND 演算子に使用されます。 例えば、 --constraint="インテル&GPU"
OR 指定された機能の少なくとも XNUMX つを持つノードのみが使用される場合。 の
垂直バーは OR 演算子に使用されます。 例えば、
--constraint="インテル|amd"
マッチング OR
可能なオプションのセットのうち XNUMX つだけを割り当てられたすべてのオプションに対して使用する必要がある場合
ノードを選択し、OR 演算子を使用してオプションを四角形で囲みます。
括弧。 例えば: "--constraint=[ラック1|ラック2|ラック3|ラック4]" かもしれません
すべてのノードを単一のラックに割り当てる必要があることを指定するために使用されます。
クラスタですが、これら XNUMX つのラックのいずれかを使用できます。
複数 カウント
複数のリソースの特定の数は、AND を使用して指定できます。
演算子を使用し、オプションを角括弧で囲みます。 例えば:
"--constraint=[ラック1*2&ラック2*4]" XNUMX つのノードを指定するために使用される可能性があります
「rack1」の機能を持つノードから割り当てる必要があり、XNUMX つのノードが必要です。
機能「rack2」を持つノードから割り当てられます。
-隣接
設定されている場合、割り当てられたノードは連続したセットを形成する必要があります。 賞を受賞していない
トポロジ/ツリー or トポロジー/3d_torus プラグイン。どちらもノードを変更できます
注文します。
--ソケットあたりのコア数=<色>
ノードの選択を、少なくとも指定された数のコアを持つノードに制限します。
ソケット。 以下の追加情報を参照してください。 -B タスク/アフィニティプラグインの場合の上記のオプション
有効になっています。
--cpu 周波数 =<p1[-p2[:p3]]>
この sbatch スクリプト内の srun コマンドによって開始されるジョブ ステップの実行を要求します
可能であれば、ステップのステップに選択された CPU 上で、要求された周波数で
計算ノード。
p1 [#### | 低い | 中 | 高い | highm1] 周波数を設定します
scaling_speed を対応する値に設定し、周波数 scaling_governor を次のように設定します。
ユーザースペース。 値の定義については、以下を参照してください。
p1 [保守的 | オンデマンド | パフォーマンス | PowerSave] を設定します。
scaling_governor を対応する値に設定します。 ガバナーはリストセットに含まれている必要があります
slurm.conf オプション CpuFreqGovernors によって。
日時 p2 が存在する場合、p1 は最小スケーリング周波数、p2 は最小スケーリング周波数になります。
最大スケーリング周波数。
p2 [#### | 中 | 高い | highm1] p2 は p1 より大きくなければなりません。
p3 [保守的 | オンデマンド | パフォーマンス | パワーセーブ | ユーザースペース]
ガバナーを対応する値に設定します。
If p3 UserSpace の場合、周波数 scaling_speed は電力またはエネルギーによって設定されます
認識されたスケジュール戦略を p1 と p2 の間の値に設定し、ジョブをその範囲内で実行できるようにします。
サイトのパワー目標。 p1 が次の周波数より高い場合、ジョブは遅延する可能性があります。
ジョブが目標内で実行できるようになります。
現在の周波数が min 未満の場合、min に設定されます。 同様に、現在の場合、
周波数が最大より大きい場合、最大に設定されます。
現在許容される値は次のとおりです。
#### 周波数(キロヘルツ)
ロー 利用可能な最低周波数
ハイ 利用可能な最高周波数
高M1 (高値マイナス XNUMX) は次に高い利用可能な周波数を選択します
M 使用可能な範囲の中央に周波数を設定しようとします
保守派 保守的な CPU ガバナーを使用しようとします
オンデマンド OnDemand CPU ガバナー (デフォルト値) の使用を試みます。
性能 パフォーマンス CPU ガバナーの使用を試みます
パワーセーブ PowerSave CPU ガバナーを使用しようとします
ユーザースペース UserSpace CPU ガバナーを使用しようとします
次の情報環境変数がジョブに設定されています
ステップいつ --cpu 周波数 オプションが要求されます。
SLURM_CPU_FREQ_REQ
この環境変数は、CPU の値を指定するためにも使用できます。
「srun」コマンドの発行時に周波数リクエストが設定されている場合。 の --cpu 周波数
コマンドラインで を実行すると、環境変数の値がオーバーライドされます。 上のフォームは、
環境変数はコマンドラインと同じです。 を参照してください。 ENVIRONMENT
変数 SLURM_CPU_FREQ_REQ 変数については、「SLURM_CPU_FREQ_REQ 変数の説明」セクションを参照してください。
注意: このパラメータは要件ではなくリクエストとして扱われます。 ジョブステップの場合、
ノードは CPU 周波数の設定をサポートしていないか、要求された値が範囲外です
有効な頻度の範囲に達しない場合、エラーがログに記録されますが、ジョブ ステップは
継続が許可されます。
注意: ジョブ ステップの CPU のみの周波数を設定すると、
タスクはそれらの CPU に限定されます。 タスクが限定されている場合 (つまり、
「ConstrainCores」を使用した TaskPlugin=task/affinity または TaskPlugin=task/cgroup
オプション) が設定されていない場合、このパラメータは無視されます。
注意: ステップが完了すると、選択した各 CPU の周波数とガバナーが設定されます。
設定された状態にリセットする Cpu周波数定義 OnDemand CPU のデフォルト値を使用した値
知事。
注意: でジョブを投入する場合 --cpu 周波数 linuxproc を指定したオプション
ProctrackType により、Accounting がポーリングできる前にジョブの実行が速すぎる可能性があります
求人情報については。 その結果、すべての会計情報が存在するわけではありません。
-c, --cpus-per-タスク=<ncpus>
Slurm コントローラーに、後続のジョブ ステップで必要となることを通知します。 ncpus 数
タスクごとのプロセッサ数。 このオプションがないと、コントローラーは単に割り当てを試行します。
タスクごとに XNUMX つのプロセッサ。
たとえば、4 つのタスクがあり、それぞれに 3 つのタスクが必要なアプリケーションを考えてみましょう。
プロセッサー。 クラスターがクアッド プロセッサ ノードで構成されている場合、単純に次のように尋ねます。
12 プロセッサの場合、コントローラーは 3 つのノードしか提供しない可能性があります。 ただし、使用することで
--cpus-per-task=3 オプションの場合、コントローラーは各タスクに 3 つのタスクが必要であることを認識します。
同じノード上にプロセッサが存在すると、コントローラは 4 つの割り当てを許可します。
ノード、4 つのタスクごとに XNUMX つ。
-d, - 依存=<依存関係リスト>
指定された依存関係が満たされるまで、このジョブの開始を延期します。
完成しました。依存関係リスト> という形式です
<タイプ:ジョブID[:ジョブID][,タイプ:ジョブID[:ジョブID]]>または
<タイプ:ジョブID[:ジョブID][?タイプ:ジョブID[:ジョブID]]>。 すべての依存関係を満たさなければなりません
「,」区切り文字が使用されている場合。 「?」の場合、依存関係が満たされる可能性があります。 セパレーター
使用されている。 多くのジョブが同じ依存関係を共有でき、これらのジョブは
異なるユーザー。 値は、scontrol を使用してジョブの送信後に変更される可能性があります。
指示。 先行するジョブの終了状態によりジョブの依存関係が失敗すると、
ジョブの場合、前のジョブが再度キューに入れられても、依存ジョブは実行されません。
後続の実行では異なる終了状態になります。
後:ジョブID[:ジョブID...]
このジョブは、指定されたジョブの実行が開始された後に実行を開始できます。
afterany:job_id[:jobid...]
このジョブは、指定されたジョブが終了した後に実行を開始できます。
afternotok:job_id[:jobid...]
このジョブは、指定されたジョブが終了した後に実行を開始できます。
何らかの失敗した状態 (ゼロ以外の終了コード、ノード障害、タイムアウトなど)。
afterok:job_id[:jobid...]
このジョブは、指定されたジョブが正常に完了した後に実行を開始できます。
実行されました (終了コード XNUMX で完了まで実行されました)。
展開:ジョブID
このジョブに割り当てられたリソースは、指定されたジョブを拡張するために使用する必要があります。
拡張するジョブは、同じ QOS (サービス品質) を共有する必要があり、
パーティション。 パーティション内のリソースのギャング スケジュールも機能しません。
。
シングルトン
このジョブは、以前に起動されたジョブが共有された後に実行を開始できます。
同じジョブ名とユーザーが終了しました。
-D, --workdir=<ディレクトリにジョブを開始します。>
バッチ スクリプトの作業ディレクトリを次のように設定します。 ディレクトリにジョブを開始します。 実行される前に。
パスは、フルパスまたはディレクトリへの相対パスとして指定できます。
コマンドが実行されます。
-e, - エラー=<ファイル名 パターン>
バッチ スクリプトの標準エラーをファイルに直接接続するように Slurm に指示します。
"で指定された名前ファイル名 パターン"。デフォルトでは、標準出力と
標準エラーは同じファイルに送られます。 ジョブ配列の場合、デフォルトのファイル
名前は「slurm-%A_%a.out」です。「%A」はジョブ ID に置き換えられ、「%a」は配列に置き換えられます。
索引。 他のジョブの場合、デフォルトのファイル名は「slurm-%j.out」です。「%j」は
ジョブ ID に置き換えられます。 を参照してください。 - 入力 ファイル名指定オプションのオプション。
--exclusive[=ユーザー]
ジョブ割り当てでは、実行中の他のジョブ (または他のユーザーのみ) とノードを共有することはできません。
"=user" オプションを使用します)。 デフォルトの共有/排他動作はシステムによって異なります
構成とパーティションの 共有 オプションはジョブより優先されます
オプションを選択します。
- 書き出す=<環境 variables | 全て | NONEを>
どの環境変数がバッチ ジョブに伝播されるかを特定します。 複数
環境変数名はカンマで区切る必要があります。 環境変数名
これらの変数の現在値を伝播するように指定できます (例:
"--export=EDITOR") または変数の特定の値をエクスポートできます (例:
"--export=EDITOR=/bin/vi") に加えて、
それ以外の場合は設定されます。 このオプションは、送信されるジョブにとって特に重要です
あるクラスタ上で実行し、別のクラスタ上で実行します (たとえば、異なるパスを使用します)。 による
デフォルトでは、すべての環境変数が伝播されます。 引数が次の場合 NONEを or
特定の環境変数名、次に --get-user-env オプションは暗黙的に
ユーザーの設定に基づいて他の環境変数をロードするように設定できます。
ジョブを実行するクラスター。
--エクスポートファイル=<ファイル名 | fd>
このオプションの引数として 3 から OPEN_MAX までの数値が指定された場合、
読み取り可能なファイル記述子が想定されます (STDIN と STDOUT はサポートされていません)
有効な引数)。 それ以外の場合は、ファイル名が想定されます。 環境変数をエクスポートする
で定義ファイル名> またはから読むfd> ジョブの実行環境へ。 の
content は、NAME=value の形式の XNUMX つ以上の環境変数定義です。
それぞれはヌル文字で区切られます。 これにより、特殊文字を使用できるようになります。
環境の定義。
-F, --nodefile=< file>
--nodelist とよく似ていますが、リストは という名前のファイルに含まれます。 fileを選択します。
リストのノード名は、ファイル内の複数行にまたがる場合もあります。 重複ノード
ファイル内の名前は無視されます。 リスト内のノード名の順序は異なります。
重要; ノード名は Slurm によってソートされます。
--get-user-env[=タイムアウト][モード]
このオプションは、sbatch にログイン環境変数を取得するように指示します。
で指定されたユーザー --uid オプション。 環境変数は次のように取得されます。
この種の何かを実行している "su - -c / usr / bin / env" そして解析すると、
出力。 環境変数は sbatch にすでに設定されていることに注意してください。
環境は、ユーザーのログイン内の環境変数よりも優先されます。
環境。 sbatch を呼び出す前に、実行しない環境変数をすべてクリアしてください。
生成されたプログラムに伝播させたい。 オプションの タイムアウト 値は秒単位です。
デフォルト値は 8 秒です。 オプションの モード 値は「su」オプションを制御します。
とともに モード 値が「S」の場合、「su」は「-」オプションなしで実行されます。 とともに モード
値が「L」の場合、「su」は「-」オプションを付けて実行され、ログインが複製されます。
環境。 もしも モード 指定されていない場合、Slurm ビルド時に確立されるモードは次のとおりです。
使用済み。 使用例としては、「--get-user-env」、「--get-user-env=10」などがあります。
「--get-user-env=10L」および「--get-user-env=S」。 このオプションは最初に作成されました
モアブが使用するため。
--gid=<グループヘッド>
If スバッチ root として実行され、 --gid オプションが使用されている場合は、次のコマンドを使用してジョブを送信します グループヘッド's
グループのアクセス権限。 グループヘッド グループ名または数値のグループ ID を指定できます。
--gres=<リスト>
一般的な消費可能なリソースのカンマ区切りリストを指定します。 の形式
リストの各エントリは「name[[:type]:count]」です。 その名前は、
消耗品のリソース。 カウントは、デフォルトのリソースの数です。
値は 1。指定されたリソースは、各ノード上のジョブに割り当てられます。
利用可能な一般的な消耗品リソースはシステムによって構成可能です
管理者。 利用可能な一般的な消耗品リソースのリストが印刷されます。
オプション引数が「help」の場合、コマンドは終了します。 使用例
「--gres=gpu:2,mic=1」、「--gres=gpu:kepler:2」、および「--gres=help」が含まれます。
-NS、 - 所有
ジョブが保留状態で送信されるように指定します (優先度 XNUMX)。 保留中のジョブ
scontrol を使用して優先度をリセットすることで解放できるようになりました (例: "コントロール リリース
")。
-h, - 助けて
ヘルプ情報を表示して終了します。
- ヒント=<type>
アプリケーションのヒントに従ってタスクをバインドします。
計算範囲
コンピューティングバウンドアプリケーションの設定を選択します: それぞれのすべてのコアを使用します
ソケット、コアごとに XNUMX つのスレッド。
メモリバウンド
メモリ バインド アプリケーションの設定を選択します。各アプリケーションで XNUMX つのコアのみを使用します。
ソケット、コアごとに XNUMX つのスレッド。
[いいえ]マルチスレッド
利点があるため、コア内マルチスレッドで余分なスレッドを使用しないでください。
通信量の多いアプリケーション。 タスク/アフィニティでのみサポートされます
プラグイン。
助けます このヘルプメッセージを表示する
-I, - すぐに
バッチ スクリプトは、リソースが次の場合にのみコントローラーに送信されます。
ジョブの割り当てを許可するために必要な情報がすぐに利用可能になります。 もしその仕事が
割り当ては保留中のジョブのキューで待機する必要がありますが、バッチ スクリプトは実行されません。
提出される。 注: バッチ ジョブでは、このオプションのサポートが制限されています。
--ignore-pbs
バッチ スクリプトで指定された「#PBS」オプションは無視します。
-i, - 入力=<ファイル名 パターン>
バッチ スクリプトの標準入力をファイルに直接接続するように Slurm に指示します。
"で指定された名前ファイル名 パターン".
デフォルトでは、「/dev/null」はバッチ スクリプトの標準入力と両方で開かれています。
標準出力と標準エラーは、次の名前のファイルに出力されます。
「slurm-%j.out」。「%j」は次のようにジョブ割り当て番号に置き換えられます。
以下で説明します。
ファイル名パターンには XNUMX つ以上の置換記号が含まれる場合があります。
パーセント記号「%」の後に文字が続きます (例: %j)。
サポートされている置換記号は次のとおりです。
%A ジョブ配列のマスター ジョブ割り当て番号。
%a ジョブ配列 ID (インデックス) 番号。
%j ジョブ割り当て番号。
%N ノード名。 作成されるファイルは XNUMX つだけなので、%N は次の名前に置き換えられます。
ジョブの最初のノード。スクリプトを実行するノードです。
%u ユーザー名
-J, - 職種名=<職種名>
ジョブ割り当ての名前を指定します。 指定した名前が表示されます。
システム上で実行中のジョブをクエリするときのジョブ ID 番号。 デフォルトは名前です
バッチ スクリプトの名前、またはスクリプトが sbatch の標準で読み取られる場合は単に「sbatch」
入力。
--ジョブビッド=<ジョブID>
指定したジョブ ID としてリソースを割り当てます。 注: ユーザー root に対してのみ有効です。
-k, --ノーキル
ジョブが割り当てられているノードの XNUMX つがジョブを自動的に終了しない
失敗します。 ユーザーは、ノードが障害を起こした場合のフォールト トレランスの責任を負います。
失敗。 ノードに障害が発生すると、アクティブなジョブ ステップ (通常は MPI ジョブ) がすべて停止します。
そのノードはほぼ確実に致命的なエラーに見舞われますが、 --no-kill を指定すると、ジョブは
割り当ては取り消されないため、ユーザーは新しいジョブ ステップを開始できます。
割り当て内の残りのノード。
デフォルトでは、いずれかのノードで障害が発生した場合、Slurm はジョブ割り当て全体を終了します。
割り当てられたノードの範囲。
--無効な場合の強制終了=<はい|いいえ>
ジョブに無効な依存関係があり、実行できない場合、このパラメータは Slurm に伝えます。
それを終了するかどうか。 終了したジョブの状態は JOB_CANCELLED になります。 これなら
オプションが指定されていない場合は、システム全体の動作が適用されます。 デフォルトではジョブはそのまま残ります
理由がDependencyNeverSatisfiedで保留中、またはkill_invalid_dependが
slurm.conf で指定されている場合、ジョブは終了します。
-L, --ライセンス=<ライセンス>
ライセンスの仕様 (または、すべてのノードで利用可能なその他のリソース)
クラスター) をこのジョブに割り当てる必要があります。 ライセンス名の後には、
コロンとカウント (デフォルトのカウントは XNUMX)。 複数のライセンス名はカンマで区切る必要があります
区切られています (例: "--licenses=foo:4,bar")。 リモート ライセンスを使用してジョブを送信するには、
slurmdbd によって提供されるサーバーの場合は、そのサーバーを提供するサーバーの名前を指定します。
ライセンス。 たとえば、「--license=nastran@slurmdb:12」などです。
-M, -クラスター=<string>
コマンドを発行するクラスター。 複数のクラスター名はカンマで区切ることができます。 の
ジョブは、期待される最も早いジョブを提供する XNUMX つのクラスターに送信されます。
開始時間。 デフォルト値は現在のクラスターです。 の値を' 意思
すべてのクラスターで実行するクエリ。 注意してください - 書き出す 環境を制御するオプション
クラスター間でエクスポートされる変数。
-m, - 分布=
任意|<コロナ新型ウィルス(COVID-XNUMX)やメンタルヘルスの崩壊を避ける為の|周期的|平面=[:コロナ新型ウィルス(COVID-XNUMX)やメンタルヘルスの崩壊を避ける為の|周期的|fサイクリック]>
リモート プロセスの代替分散方法を指定します。 sbatch ではこれのみ
後続の srun リクエストで使用される環境変数を設定します。 これ
オプションは、リソースが割り当てられているノードへのタスクの割り当てを制御します。
割り当てられ、それらのリソースをバインドするタスクに配布します (タスク
親和性)。 最初の配布方法 (「:」の前) は配布を制御します。
ノード全体のリソースの数。 オプションの XNUMX 番目の配布方法 (「:」の後)
ノード内のソケット間でのリソースの分散を制御します。 ご了承ください
select/cons_res を使用すると、各ソケットとノードに割り当てられる CPU の数は次のようになります。
違う。 参照する http://slurm.schedmd.com/mc_support.html 詳しく知る
リソースの割り当て、ノードへのタスクの割り当て、CPU へのタスクのバインドについて。
最初の配布方法:
コロナ新型ウィルス(COVID-XNUMX)やメンタルヘルスの崩壊を避ける為の ブロック分散メソッドは、次のようにタスクをノードに分散します。
連続したタスクはノードを共有します。 たとえば、XNUMX つの割り当てを考えてみましょう。
各ノードには XNUMX つの CPU が搭載されています。 XNUMX つのタスクのブロック配布リクエストは、
これらのタスクを最初のタスク XNUMX とタスク XNUMX でノードに分散します。
ノード、タスク XNUMX は XNUMX 番目のノード、タスク XNUMX は XNUMX 番目のノードにあります。 ブロック
タスクの数が
割り当てられたノードの数。
周期的 周期的分散方法では、次のようにタスクがノードに分散されます。
連続するタスクは連続するノードに分散されます (ラウンドロビン方式)
ファッション)。 たとえば、それぞれに XNUMX つのノードを持つ XNUMX つのノードの割り当てを考えてみましょう。
CPU。 XNUMX つのタスクの周期的分散リクエストは、これらのタスクを次のタスクに分散します。
最初のノードにタスク XNUMX と XNUMX があり、XNUMX 番目のノードにタスク XNUMX があるノード
ノード、およびタスク XNUMX は XNUMX 番目のノードにあります。 SelectType が
select/cons_res では、各ノードに同じ数の CPU が割り当てられない場合があります。
タスクの分散は、まだ CPU が搭載されていないすべてのノード間でラウンドロビンで行われます。
タスクに割り当てられる。 循環分散は、次の場合のデフォルトの動作です。
タスクの数は、割り当てられたノードの数を超えません。
飛行機 タスクは、指定されたサイズのブロックに分散されます。 オプション
タスク ブロックのサイズを表す数値が含まれます。 これに続く
ブロック内のタスク分散スキームのオプション仕様による
タスクのブロック間、およびタスクのブロック間。 配布されたタスクの数
各ノードへの送信は循環分散の場合と同じですが、タスク ID
各ノードに割り当てられる値はプレーンのサイズによって異なります。 詳細については(以下を含む)
例と図)を参照してください。
http://slurm.schedmd.com/mc_support.html
と
http://slurm.schedmd.com/dist_plane.html
任意
任意の分散方法では、プロセスを順番に割り当てます。
環境変数 SLURM_HOSTFILE で指定されたファイルにリストされます。 もし
この変数がリストされていると、指定された他のメソッドがオーバーライドされます。 そうでない場合
メソッドをデフォルトでブロックに設定します。 ホストファイル内には次のものが含まれている必要があります
要求されるホストの最小数。XNUMX 行またはカンマごとに XNUMX つずつ指定します。
別れた。 タスク数を指定する場合(-n, --ntasks=<数>)、あなたのタスク
ファイルの順序でノード上に配置されます。
注: ジョブ割り当ての任意分散オプションは、制御のみを行います。
ジョブに割り当てられるノードではなく、それらのノードへの CPU の割り当てではありません。
ノード。 このオプションは主に、ジョブ ステップのタスク レイアウトを制御することを目的としています。
srun コマンドの既存のジョブ割り当て。
XNUMX 番目の配布方法:
コロナ新型ウィルス(COVID-XNUMX)やメンタルヘルスの崩壊を避ける為の ブロック分散メソッドは、次のようにタスクをソケットに分散します。
連続したタスクはソケットを共有します。
周期的 周期的分散方法は、次のようにタスクをソケットに分散します。
連続したタスクは連続したソケット上に (ラウンドロビンで) 分散されます。
ファッション)。 複数の CPU を必要とするタスクには、それらの CPU がすべて含まれます
可能であれば単一のソケットに割り当てます。
fサイクリック
fcyclic 分散メソッドは、次のようにタスクをソケットに分散します。
連続したタスクは連続したソケット上に (ラウンドロビンで) 分散されます。
ファッション)。 複数の CPU を必要とするタスクには、各 CPU が割り当てられます。
ソケット間で循環的に。
--メールタイプ=<type>
特定の種類のイベントが発生したときにユーザーに電子メールで通知します。 有効 type 値は NONE、
BEGIN、END、FAIL、REQUEUE、ALL (BEGIN、END、FAIL、REQUEUE、および
STAGE_OUT)、STAGE_OUT (バースト バッファ ステージ アウト完了)、TIME_LIMIT、TIME_LIMIT_90
(制限時間の 90 パーセントに到達)、TIME_LIMIT_80 (制限時間の 80 パーセントに到達)
制限)、および TIME_LIMIT_50 (制限時間の 50% に到達)。 複数 type 値
カンマ区切りのリストで指定できます。 通知するユーザーが表示されます
--メールユーザー。 ジョブの BEGIN、END、FAIL に関するメール通知がジョブに適用される
タスクごとに個別の電子メール メッセージを生成するのではなく、配列全体として
ジョブ配列。
--メールユーザー=<user>
定義に従って状態変更の電子メール通知を受信するユーザー --メールタイプを選択します。
デフォルト値は送信ユーザーです。
--mem=<MB>
ノードごとに必要な実メモリをメガバイト単位で指定します。 デフォルト値は
DefMemPerNode そして最大値は MaxMemPerNode。 構成されている場合は、両方
パラメータは、 コントロール 表示する 設定 指示。 このパラメータ
通常、ノード全体がジョブに割り当てられる場合に使用されます。
(SelectType=選択/リニア)。 こちらもご覧ください --CPU あたりのメモリ. --mem と --CPU あたりのメモリ
相互に排他的です。 注: メモリ サイズの指定は特殊なケースとして扱われます。
そして、ジョブに各ノード上のすべてのメモリへのアクセスを許可します。 注: の施行
メモリ制限は現在、task/cgroup プラグインまたは有効化に依存しています。
アカウンティング。メモリ使用量を定期的にサンプリングします (データを保存する必要はありません。
集めたばかりです)。 どちらの場合も、メモリ使用量はジョブの常駐セット サイズに基づきます。
(RSS)。 タスクは次の定期アカウンティングまでにメモリ制限を超える可能性があります
サンプル。
--CPU あたりのメモリ=<MB>
割り当てられた CPU ごとに必要な最小メモリ (メガバイト単位)。 デフォルト値は
CPUあたりのDefMem そして最大値は CPU あたりの最大メモリ数 (以下の例外を参照)。 もし
設定されている場合は、両方のパラメータを次のコマンドを使用して確認できます。 コントロール 表示する 設定
ジョブが --CPU あたりのメモリ 値が設定を超えています CPU あたりの最大メモリ数,
ユーザーの制限はタスクごとのメモリ制限として扱われます。 --CPU あたりのメモリ
以下の値まで減らされます CPU あたりの最大メモリ数; --cpus-per-タスク 設定されます
そしての価値 --cpus-per-タスク 新しいものを掛ける --CPU あたりのメモリ 価値観は
オリジナルと同等 --CPU あたりのメモリ ユーザーが指定した値。 このパラメータは、
通常、個々のプロセッサがジョブに割り当てられている場合に使用されます。
(SelectType=select/cons_res)。 リソースがコア、ソケット、または
ノード全体。 ジョブに割り当てられる CPU の数はタスクよりも多くなる可能性があります
カウントと値 --CPU あたりのメモリ それに応じて調整する必要があります。 こちらもご覧ください
--mem. --mem と --CPU あたりのメモリ 相互に排他的です。
--mem_bind=[{静かな、冗長な},]type
タスクをメモリにバインドします。 タスク/アフィニティ プラグインが有効であり、
NUMAメモリ機能が利用可能です。 注意 それ 分解能 of CPU と メモリ
拘束 かもしれません 異なる on 一部 アーキテクチャ。 たとえば、CPU バインディングが実行される場合があります。
メモリバインディングが実行される間、プロセッサ内のコアのレベルで
ノードのレベルでは、「ノード」の定義はシステムによって異なる場合があります。
システム。 この つかいます of どれか type 他の より "なし" or "地元" is お勧めします。 If
より詳細な制御が必要な場合は、オプションを使用して簡単なテスト コードを実行してみてください。
「--mem_bind=verbose,none」で特定の構成を決定します。
注: Slurm がすべてのコマンドに対して選択されたメモリ バインディングを常にレポートするようにするには
シェルで実行される場合、SLURM_MEM_BIND を設定することで冗長モードを有効にできます。
環境変数の値を「verbose」に設定します。
次の情報環境変数は、次の場合に設定されます。 --mem_bind である
使用します。
SLURM_MEM_BIND_VERBOSE
SLURM_MEM_BIND_TYPE
SLURM_MEM_BIND_LIST
ジョブの設定方法については、 ENVIRONMENT 変数 の詳細な説明については、セクションを参照してください。
個々の SLURM_MEM_BIND* 変数。
サポートされているオプションは次のとおりです。
静かな]
タスクの実行前に静かにバインドします (デフォルト)
詳細
タスクの実行前にバインディングを詳細にレポートします
なし] タスクをメモリにバインドしません (デフォルト)
ランク タスクランクによるバインド(非推奨)
ローカル 使用中のプロセッサにローカルなメモリを使用する
マップメモリ:
指定されたとおりにノードのメモリをタスクにマッピングしてバインドします。 は
、 、... 。 CPU ID は 1 進数値として解釈されます
ただし、先頭に「0x」が付いている場合は次のように解釈されます。
XNUMX 進値 (非推奨)
マスクメモリ:
指定されたとおりにタスクにメモリマスクを設定してバインドします。 は
、 、... 。 メモリーマスクは 常に として解釈される
0 進値。 マスクを使用する場合は、マスクの前に「XNUMXx」を付ける必要があることに注意してください。
[0-9] で始まらないようにするため、srun では数値として認識されます。
助けます このヘルプメッセージを表示する
--mincpus=<n>
ノードごとの論理 CPU/プロセッサの最小数を指定します。
-N, -ノード=<最小ノード[-マックスノード]>
最低限のことを要求してください 最小ノード ノードがこのジョブに割り当てられます。 最大ノード
count は次のように指定することもできます マックスノード。 数値が XNUMX つだけ指定されている場合、これは
最小ノード数と最大ノード数の両方として使用されます。 パーティションのノード制限
仕事の内容に取って代わられます。 ジョブのノード制限が範囲外の場合
関連するパーティションに許可されている場合、ジョブは PENDING 状態のままになります。
これにより、パーティションの制限が制限されている場合に、後で実行できるようになります。
かわった。 ジョブ ノードの制限が、
パーティションにある場合、ジョブは拒否されます。 環境変数に注意してください
SLURM_NNODES ジョブに実際に割り当てられたノードの数に設定されます。 見る
ENVIRONMENT 変数 詳細については、セクションを参照してください。 もし -N 指定されていません、
デフォルトの動作では、要件を満たすのに十分なノードを割り当てます。
-n と -c オプション。 ジョブには、範囲内でできるだけ多くのノードが割り当てられます。
ジョブの開始を遅らせることなく、指定された範囲を指定します。 ノード数
仕様には、数値の後に「k」という接尾辞を含めることができます(乗算
数値×1,024)または「m」(数値×1,048,576)。
-n, --ntasks=<数>
sbatch はタスクを起動せず、リソースの割り当てを要求し、
バッチスクリプト。 このオプションは、ジョブ ステップが内部で実行されるように Slurm コントローラーに通知します。
割り当ては最大で開始されます 数 タスクを実行し、十分なサービスを提供するために
リソース。 デフォルトではノードごとに XNUMX つのタスクですが、 --cpus-per-タスク
オプションはこのデフォルトを変更します。
- 通信網=<type>
スイッチまたはネットワークに関する情報を指定します。 の解釈
type システムに依存します。 このオプションは、Cray で Slurm を実行する場合にサポートされます。
ネイティブ的に。 Network Performance Counter を使用してリクエストするために使用されます。 値は XNUMX つだけ
リクエストごとに有効です。 すべてのオプションでは大文字と小文字が区別されません。 この構成では
サポートされている値は次のとおりです。
システム全体のネットワーク パフォーマンス カウンターを使用します。 要求されたノードのみが実行されます。
ジョブ割り当てに使用中としてマークされます。 求人が埋まらない場合は、
システム全体、残りのノードは他のジョブで使用できません
NPC を使用すると、アイドル状態の場合、その状態が PerfCnts として表示されます。 これらのノードは、
NPCを使用しない他のジョブでも引き続き利用できます。
ブレード ブレード ネットワーク パフォーマンス カウンターを使用します。 要求されたノードのみが
ジョブ割り当てに使用中とマークされています。 ジョブがすべてを満たさない場合は、
ジョブに割り当てられたブレードは、他のブレードでは使用できません。
NPC を使用するジョブの場合、アイドル状態の場合、その状態は PerfCnts として表示されます。 これらのノードは、
NPCを使用しない他のジョブでも引き続き利用できます。
いずれの場合もジョブ割り当てリクエスト しなければなりません 指定する
--exclusive オプション。 それ以外の場合、リクエストは拒否されます。
また、これらのオプションのいずれを使用しても、ステップでブレードを共有することはできないため、リソース
ブレード上で実行されているステップが実行されない場合、割り当て内ではアイドル状態のままになります。
ブレード上のすべてのノードを起動します。
この ネットワーク このオプションは、IBM の並列環境を備えたシステムでもサポートされています
(PE)。 キーワードについては、IBM の LoadLeveler ジョブ コマンド キーワードのドキュメントを参照してください。
詳細については、「ネットワーク」を参照してください。 複数の値をカンマで指定できます
区切られたリスト。 すべてのオプションでは大文字と小文字が区別されません。 サポートされている値は次のとおりです。
BULK_XFER[=リソース>]
リモート ダイレクト メモリ アクセス (RDMA) を使用したデータの一括転送を有効にします。
オプション リソース 仕様は数値です。
キロバイト、メガバイト、または
ギガバイト。 注: リソース 仕様はサポートされていません
並列環境バージョン 2.2 の基礎となる IBM インフラストラクチャー
現時点では値を指定しないでください。
CAU=<カウント> 必要な集合加速ユニット (CAU) の数。 のみ適用
IBM Power7-IH プロセッサーに。 デフォルト値はゼロです。 独立したCAU
各プログラミング インターフェイス (MPI、LAPI など) に割り当てられます。
デバイス名=<名>
通信に使用するデバイス名を指定します (例: 「eth0」または
「mlx4_0」)。
デバイスタイプ=<type>
通信に使用するデバイスの種類を指定します。 サポートされている
の値 type : 「IB」 (InfiniBand)、「HFI」 (P7 ホスト ファブリック)
インターフェイス)、「IPONLY」(IP 専用インターフェイス)、「HPCE」(HPC イーサネット)、
「KMUX」(HPCEのカーネルエミュレーション)。 ジョブに割り当てられるデバイスは、
すべて同じタイプである必要があります。 デフォルト値は以下に依存します。
利用可能なハードウェアと優先順位は IPONLY (
ユーザー空間モードでは考慮されません)、HFI、IB、HPCE、および KMUX。
即時 =<カウント>
必要なウィンドウごとの即時送信スロットの数。 にのみ適用されます
IBM Power7-IH プロセッサー。 デフォルト値はゼロです。
インスタンス =<カウント>
各ネットワーク上の各タスクのネットワーク接続数を指定します
繋がり。 デフォルトのインスタンス数は 1 です。
IPV4 インターネット プロトコル (IP) バージョン 4 通信を使用します (デフォルト)。
IPV6 インターネット プロトコル (IP) バージョン 6 通信を使用します。
ラピ LAPI プログラミング インターフェイスを使用します。
のMPI MPI プログラミング インターフェイスを使用します。 MPI はデフォルトのインターフェースです。
パミ PAMI プログラミング インターフェイスを使用します。
シュメム OpenSHMEM プログラミング インターフェイスを使用します。
SN_ALL 利用可能なすべてのスイッチ ネットワークを使用します (デフォルト)。
SN_SINGLE 利用可能な XNUMX つのスイッチ ネットワークを使用します。
UPC UPC プログラミング インターフェイスを使用します。
US ユーザースペース通信を使用します。
ネットワーク仕様の例をいくつか示します。
インスタンス=2、US、MPI、SN_ALL
MPI 通信用に XNUMX つのユーザー空間接続を作成します。
タスクごとにネットワークを切り替えます。
US、MPI、インスタンス = 3、Devtype = IB
MPI 通信用に XNUMX つのユーザー空間接続を作成します。
各タスクの InfiniBand ネットワーク。
IPV4、LAPI、SN_シングル
4 つのスイッチ上で LAPI 通信用の IP バージョン XNUMX 接続を作成する
タスクごとにネットワークを構築します。
インスタンス=2、US、LAPI、MPI
LAPI 通信と MPI 通信用にそれぞれ XNUMX つのユーザー空間接続を作成します
各タスクのすべてのスイッチ ネットワーク上で。 SN_ALL がデフォルトであることに注意してください。
オプションを使用すると、すべてのスイッチ ネットワークが使用されます。 インスタンス = 2 であることにも注意してください。
各プロトコル (LAPI) に対して XNUMX つの接続が確立されることを指定します。
および MPI) と各タスク。 XNUMX つのネットワークと XNUMX つのタスクがある場合
ノードに接続すると、合計 32 の接続が確立されます (2 つのインスタンス x
2 プロトコル x 2 ネットワーク x 4 タスク)。
- 良い[=調整]
Slurm 内で調整されたスケジュール優先度を使用してジョブを実行します。 調整なしで
値を指定すると、スケジュール優先度が 100 減ります。調整範囲は次のとおりです。
-10000 (優先度が最も高い) ~ 10000 (優先度が最も低い)。 特権ユーザーのみが実行できる
マイナスの調整を指定します。 注: このオプションは現在無視されます。
SchedulerType=sched/wiki or SchedulerType=sched/wiki2.
--再キューなし
いかなる状況でもバッチ ジョブを再度キューに入れないことを指定します。
このオプションを設定すると、システム管理者は再起動できなくなります
ジョブ (たとえば、スケジュールされたダウンタイムの後)、ノード障害からの回復、または
より優先度の高いジョブによってプリエンプションされると、再度キューに入れられます。 ジョブが再度キューに入れられると、
バッチ スクリプトは最初から開始されます。 も参照してください。 --再キュー オプション。 ザ·
ジョブのリキュー 構成パラメータは、クラスター上のデフォルトの動作を制御します。
--ntasks-per-コア=<nタスク>
最大限のリクエストをする nタスク 各コアで呼び出されます。 と一緒に使用することを目的としています。
--ntasks オプション。 関連 --node ごとの ntasks コアレベルを除く
ノードレベル。 注: このオプションは、次の場合を除きサポートされません。
SelectTypeParameters=CR_Core or SelectTypeParameters=CR_Core_Memory 設定されています。
--ソケットごとのntasks=<nタスク>
最大限のリクエストをする nタスク 各ソケットで呼び出されます。 と一緒に使用することを目的としています。
--ntasks オプション。 関連 --node ごとの ntasks 代わりにソケットレベルを除く
ノードレベルの。 注: このオプションは、次の場合を除きサポートされません。
SelectTypeParameters=CR_Socket or SelectTypeParameters=CR_Socket_Memory is
構成されました。
--node ごとの ntasks=<nタスク>
それを要求する nタスク 各ノードで呼び出されます。 と一緒に使用すると、 --ntasks オプション、
--ntasks オプションが優先され、 --node ごとの ntasks として扱われます
ノードごとのタスクの数。 と一緒に使用することを目的としています。 -ノード オプション。 この
に関係している --cpus-per-タスク=ncpusただし、実際の知識は必要ありません。
各ノードの CPU の数。 場合によっては、できるほうが便利です。
各ノードで特定の数を超えないタスクを呼び出すように要求します。
この例には、MPI が XNUMX つだけ含まれるハイブリッド MPI/OpenMP アプリの送信が含まれます。
「タスク/ランク」は、OpenMP 部分を許可しながら各ノードに割り当てる必要があります。
ノード内に存在するすべての並列処理を利用するか、単一の並列処理を送信します。
既存の割り当ての各ノードに対するセットアップ/クリーンアップ/監視ジョブを XNUMX つのステップとして実行
より大きなジョブ スクリプトで。
-O, --オーバーコミット
リソースをオーバーコミットします。 ジョブ割り当てに適用すると、CPU は XNUMX つだけ割り当てられます。
ノードごとのジョブと、ノード、ソケット、
コアなどは無視されます。 ジョブ ステップの割り当てに適用される場合 ( 走る command
既存のジョブ割り当て内で実行される場合)、このオプションを使用して起動できます。
CPU ごとに複数のタスク。 通常は、 走る 複数のプロセスを割り当てません
CPUごとに。 指定することで --オーバーコミット 複数を明示的に許可しています
CPUごとのプロセス。 ただし、それ以上ではありません MAX_TASKS_PER_NODE タスクには次のことが許可されています
ノードごとに実行します。 注記: MAX_TASKS_PER_NODE ファイルで定義されています スラーム.h とです。
変数ではなく、Slurm のビルド時に設定されます。
-o, - 出力=<ファイル名 パターン>
バッチ スクリプトの標準出力をファイルに直接接続するように Slurm に指示します。
"で指定された名前ファイル名 パターン"。デフォルトでは、標準出力と
標準エラーは同じファイルに送られます。 ジョブ配列の場合、デフォルトのファイル
名前は「slurm-%A_%a.out」です。「%A」はジョブ ID に置き換えられ、「%a」は配列に置き換えられます。
索引。 他のジョブの場合、デフォルトのファイル名は「slurm-%j.out」です。「%j」は
ジョブ ID に置き換えられます。 を参照してください。 - 入力 ファイル名指定オプションのオプション。
--オープンモード=追加|切り捨て
指定された追加モードまたは切り捨てモードを使用して、出力ファイルとエラー ファイルを開きます。 の
デフォルト値はシステム構成パラメータによって指定されます ジョブファイル追加.
-解析可能
ジョブ ID 番号とクラスター名 (存在する場合) のみを出力します。 値は次のとおりです。
セミコロンで区切ります。 エラーは引き続き表示されます。
-p, - パーティション=<パーティション名>
リソース割り当てのために特定のパーティションを要求します。 指定しない場合、
デフォルトの動作では、slurm コントローラーがデフォルトのパーティションを選択できるようになります。
システム管理者の指定に従ってください。 ジョブで複数を使用できる場合
パーティションの場合は、その名前をカンマ区切りのリストで指定し、提供するパーティションを指定します。
パーティション名に関係なく、最も早い開始が使用されます。
順序付け (ただし、優先度の高いパーティションが最初に考慮されます)。 とき
ジョブが開始されると、使用されるパーティションの名前がジョブの最初に配置されます。
レコードパーティション文字列。
- パワー=<フラグ>
電源管理プラグイン オプションのカンマ区切りリスト。 現在利用可能なフラグ
include: レベル (ジョブに割り当てられたすべてのノードは同一の電力上限を持つ必要があります。
Slurm 構成オプション PowerParameters=job_no_level) によって無効にすることができます。
- 優先順位=
特定のジョブの優先順位を要求します。 構成固有の影響を受ける可能性があります
制約。 Slurm のオペレーターと管理者のみが優先順位を設定できます。
仕事。
- プロフィール=
acct_gather_profile プラグインによる詳細なデータ収集を有効にします。 詳細データ
通常、時系列はジョブの HDF5 ファイルに保存されます。
すべて すべての種類のデータが収集されます。 (他の値と組み合わせることはできません。)
なし データタイプは収集されません。 これがデフォルトです。
(他の値と組み合わせることはできません。)
エネルギー エネルギーデータが収集されます。
仕事 タスク (I/O、メモリなど) データが収集されます。
光沢 光沢データを収集します。
ネットワーク ネットワーク (InfiniBand) データが収集されます。
--伝播する[=rlimitfR]
ユーザーは、どの変更可能な (ソフト) リソース制限を反映するかを指定できます。
を計算ノードに追加し、そのジョブに適用します。 もし 限界 指定されていない場合
すべてのリソース制限が伝播されます。 次の rlimit 名がサポートされています
Slurm による (ただし、一部のシステムでは一部のオプションがサポートされていない場合があります):
全て 以下にリストされているすべての制限
AS プロセスの最大アドレス空間
CORE コアファイルの最大サイズ
CPU CPU 時間の最大量
DATA プロセスのデータセグメントの最大サイズ
FSIZE 作成されるファイルの最大サイズ。 ユーザーが FSIZE を次のように設定すると、
slurmd.log の現在のサイズより小さい場合、ジョブの起動は失敗します。
「ファイルサイズ制限を超えました」エラー。
メモリロック メモリにロックされる可能性のある最大サイズ
ファイルがない 開いているファイルの最大数
NPROC 使用可能なプロセスの最大数
RSS 常駐セットの最大サイズ
スタック 最大スタックサイズ
-Q, - 静かな
sbatch からの情報メッセージを抑制します。 エラーは引き続き表示されます。
--qos=<コス>
ジョブのサービス品質を要求します。 QOS値はそれぞれに定義できます。
Slurm データベース内のユーザー/クラスター/アカウントの関連付け。 ユーザーは以下に限定されます
Slurm 設定パラメータの場合、それらの関連付けで定義された一連の QoS、
AccountingStorageEnforce の定義に「qos」が含まれています。
- リブート
ジョブを開始する前に、割り当てられたノードを強制的に再起動します。 これだけです
一部のシステム構成ではサポートされていますが、それ以外の場合は黙って無視されます。
--再キュー
バッチ ジョブが再キューに入れられるように指定します。 その仕事はもしかしたら
ノード障害後、またはシステム管理者によって明示的に再キューされる
より優先度の高いジョブによるプリエンプション。 ジョブが再度キューに入れられると、バッチ スクリプトは次のようになります。
最初から始められました。 も参照してください。 --再キューなし オプション。 ザ· ジョブのリキュー
構成パラメータは、クラスター上のデフォルトの動作を制御します。
- 予約=<名>
指定された予約からジョブのリソースを割り当てます。
-s, - 共有
ジョブ割り当てでは、実行中の他のジョブとリソースを共有できます。 リソース
共有できるのは、ノード、ソケット、コア、またはハイパースレッドです。
構成。 デフォルトの共有動作は、システム構成と
パーティションの 共有 オプションはジョブのオプションより優先されます。 このオプションにより、
--share オプションを使用しなかった場合よりも早く割り当てが許可されることになります。
システム使用率を高く設定して許可しますが、アプリケーションのパフォーマンスは低下する可能性があります
資源の奪い合いで苦しむ。 --exclusive オプションも参照してください。
-S, --コアスペック=<NUM>
システム操作およびジョブによって予約されたノードごとの特殊コアの数。
アプリケーションでは使用されません。 アプリケーションはこれらのコアを使用しませんが、
割り当てに対して請求されます。 デフォルト値はノードによって異なります。
構成された CoreSpecCount 値。 値 XNUMX を指定すると、Slurm
構成オプションAllowSpecResourcesUsageが有効になっている場合、ジョブは次のことを許可されます。
CoreSpecCount をオーバーライドし、割り当てられたノード上の特殊なリソースを使用します。
このオプションは、 --スレッドスペック オプションを選択します。
--sicp 他のクラスターに送信されたジョブが依存できるジョブとして識別します。
- 信号=[B:]sig_num>[@sig_time>]
仕事が入っているとき sig_time 終了時刻の秒数が経過したら、シグナルを送信します sig_num.
Slurm によるイベント処理の解像度により、信号は最大 60 個まで送信される場合があります。
指定した秒数よりも早くなります。 sig_num 信号番号または信号名のいずれかになります
(例:「10」または「USR1」)。 sig_time 0 ~ 65535 の整数値を指定する必要があります。
デフォルトでは、ジョブの終了時刻前にシグナルは送信されません。 もし sig_num 指定されています
任意のなし sig_timeの場合、デフォルトの時間は 60 秒になります。 「B:」オプションを使用すると、
バッチ シェルのみにシグナルを送信し、他のプロセスにはシグナルを送信しません。 による
デフォルトでは、すべてのジョブ ステップが通知されますが、バッチ シェル自体には通知されません。
--ノードごとのソケット数=<ソケット>
ノードの選択を、少なくとも指定された数のソケットを持つノードに制限します。
以下の追加情報を参照してください。 -B タスク/アフィニティ プラグインが有効な場合の上記のオプション
有効になりました。
--スイッチ=<カウント>[@最大時間>]
ツリー トポロジが使用される場合、これにより必要なスイッチの最大数が定義されます。
ジョブの割り当てと、オプションでその数を待機する最大時間。
スイッチ。 Slurm がカウントよりも多くのスイッチを含む割り当てを見つけた場合
指定されている場合、ジョブは、希望する割り当てが見つかるまで保留状態のままになります。
切り替え回数が制限されるか、制限時間が経過します。 スイッチ数の制限はありません。
仕事の開始に遅れはありません。 受け入れられる時間形式には「分」が含まれます。
「分:秒」、「時:分:秒」、「日-時」、「日-時:分」および
「日-時:分:秒」。 ジョブの最大遅延時間は、
システム管理者が使用する スケジューラ パラメータ 設定パラメータを使用して、
max_switch_wait パラメータオプション。 デフォルトの最大時間は max_switch_wait です。
スケジューラパラメータ。
-t, - 時間=<時間>
ジョブ割り当ての合計実行時間に制限を設定します。 ご希望の時間であれば
制限がパーティションの時間制限を超えると、ジョブは保留状態のままになります。
(おそらく無期限)。 デフォルトの時間制限はパーティションのデフォルト時間です
限界。 制限時間に達すると、各ジョブ ステップの各タスクが SIGTERM に送信されます。
続いてシギキル。 信号間の間隔は Slurm によって指定されます。
構成パラメーター キルウェイトを選択します。 オーバータイムリミット 設定パラメータは、
ジョブがスケジュールより長く実行されることを許可します。 時間分解能は XNUMX 分で、
秒の値は次の分に切り上げられます。
制限時間をゼロにすると、時間制限を課さないことが要求されます。 許容時間
形式には「分」、「分:秒」、「時:分:秒」が含まれます。
「日-時間」、「日-時:分」、および「日-時間:分:秒」。
--ノードごとのタスク数=<n>
ノードごとに起動するタスクの数を指定します。 に相当
--node ごとの ntasks.
-テストのみ
バッチ スクリプトを検証し、ジョブがスケジュールされる時期の推定値を返します。
現在のジョブ キューとジョブを指定する他のすべての引数を指定して実行します
要件。 実際にジョブは送信されません。
--スレッドスペック=<NUM>
システム操作およびジョブによって予約されたノードごとの特殊スレッドの数。
アプリケーションでは使用されません。 アプリケーションはこれらのスレッドを使用しませんが、
その割り当てに対して料金が請求されます。 このオプションは、 --コアスペック
オプションを選択します。
-- コアあたりのスレッド数=<スレッド>
ノードの選択を、少なくとも指定された数のスレッドを持つノードに制限します。
芯。 注: 「スレッド」とは、各コア上の処理ユニットの数を指します。
コアごとに起動されるアプリケーション タスクの数よりも多くなります。 追加情報を参照
下の情報 -B タスク/アフィニティ プラグインが有効な場合は、上記のオプションを使用します。
--時間-分=<時間>
ジョブ割り当ての最小時間制限を設定します。 指定されている場合、ジョブには次のものがある可能性があります。
それはだ - 時間 制限を下回らない値に下げる --時間-分 そうすることで許されるなら
ジョブが可能な限り早く実行を開始するようにします。 ジョブの制限時間
ジョブにリソースが割り当てられた後は変更されません。 これを実行するのは、
バックフィル スケジューリング アルゴリズムにより、より高い目的のために予約されているリソースを割り当てます。
優先的な仕事。 使用できる時間形式には、「分」、「分:秒」、
「時:分:秒」、「日-時間」、「日-時間:分」および
「日-時:分:秒」。
--tmp=<MB>
一時ディスク容量の最小量を指定します。
-u, - 利用方法
簡単なヘルプ メッセージを表示して終了します。
--uid=<user>
としてジョブを送信および/または実行しようとします。 user 呼び出し元のユーザー ID の代わりに。 の
呼び出し元のユーザーの資格情報は、ターゲットのアクセス許可をチェックするために使用されます。
パーティション。 ユーザー root は、このオプションを使用して、RootOnly で通常のユーザーとしてジョブを実行できます。
たとえばパーティション。 root として実行すると、 スバッチ uid へのアクセス許可を削除します
ノードの割り当てが成功した後に指定されます。 user ユーザー名または
数値のユーザーID。
-V, - バージョン
バージョン情報を表示して終了します。
-v, -詳細
sbatch の情報メッセージの冗長性を高めます。 複数 -vの意志
sbatch の冗長性がさらに高まります。 デフォルトでは、エラーのみが表示されます。
-w, --nodelist=< 名 リスト>
ホストの特定のリストを要求します。 ジョブには以下が含まれます を これらのホストのうち、
リソース要件を満たすために必要に応じてホストを追加する可能性があります。 リストは、
ホストのカンマ区切りのリスト、ホストの範囲 (host[1-5,7,...]) として指定できます。
例)、またはファイル名。 次の場合、ホスト リストはファイル名であるとみなされます。
「/」文字が含まれています。 最小ノード数またはプロセッサ数をより大きく指定した場合
提供されたホスト リストでは満たせない場合は、追加のリソースが追加されます。
必要に応じて他のノードに割り当てられます。 リスト内の重複したノード名は次のようになります。
無視されました。 リスト内のノード名の順序は重要ではありません。 ノード名
Slurmでソートされます。
--wait-all-nodes=<値>
コマンドの実行をいつ開始するかを制御します。 デフォルトではジョブが開始されます
割り当てが行われるとすぐに実行されます。
0 割り当てが可能になるとすぐに実行を開始します。 すべてのノードを待たないでください
使用する準備ができている (つまり、ブートされている)。
1 すべてのノードが使用できる状態になるまで実行を開始しないでください。
--wckey=<ウィッキー>
ジョブで使用する wckey を指定します。 slurm.conf で TrackWCKey=no (デフォルト) の場合
この値は無視されます。
- 包む=< command string>
Sbatch は、指定されたコマンド文字列を単純な "sh" シェル スクリプトでラップします。
そのスクリプトを slurm コントローラーに送信します。 --wrap を使用する場合、スクリプト名と
コマンドラインでは引数を指定できません。 代わりに、スバッチで生成された
ラッパースクリプトが使用されます。
-x, -除外する=< 名 リスト>
ジョブに付与されたリソースから特定のノードを明示的に除外します。
次のオプションは Blue Gene システムをサポートしていますが、他のシステムにも適用できる場合があります。
よく。
--blrts-画像=<path>
BlueGeneL ランタイム スーパーバイザー (blrts)、bluegene ブロックのイメージへのパス。 BGL
のみ。 デフォルトから ブルージーン.conf 設定されていない場合。
--cnload-image=<path>
bluegene ブロックのノード イメージを計算するパス。 BGPのみ。 デフォルトから
ブルージーン.conf 設定されていない場合。
--conn タイプ=<type>
ブロック接続タイプが特定のタイプである必要があります。 ブルージーンについては、
許容できる type MESH、TORUS、NAV です。 NAV の場合、または設定されていない場合、Slurm は
そうでない場合は、Bluegene.conf で DefaultConnType が設定されているものに合わせてみてください。
デフォルトはTORUSに設定します。 通常、このオプションは設定しないでください。 実行中の場合
BGP システムであり、HTC モードで実行したい場合 (1 ミッドプレーン以下のみ)。 あなた
SMP には HTC_S、デュアルには HTC_D、仮想ノード モードには HTC_V、および
Linuxモード。 次元ごとに異なる接続タイプを許可するシステムの場合、
指定できる接続タイプのカンマ区切りリストを指定できます。
各次元 (つまり、M、T、T、T はすべての次元のトーラス接続を提供します)
最初のものを期待してください)。
-g, -ジオメトリ=<XxYxZ> |AxXxYxZ>
ジョブのジオメトリ要件を指定します。 BlueGene/L および BlueGene/P システムの場合
X、Y、Z 方向の寸法を表す XNUMX つの数字があります。
BlueGene/Q システムには、A、X、Y、Z の寸法を表す XNUMX つの数字があります。
方向を指定するため、サブブロックの割り当てには使用できません。 例えば
「--geometry=1x2x3x4」は、1 x 2 x 3 x 4 = 24 ノードを持つノードのブロックを指定します。
(実際には BlueGene 上のミッドプレーン)。
--ioload-image=<path>
bluegene ブロックの io イメージへのパス。 BGPのみ。 デフォルトから ブルージーン.conf そうでなければ
設定します。
--linux-image=<path>
Bluegene ブロックの Linux イメージへのパス。 BGLのみ。 デフォルトから ブルージーン.conf if
設定されていません。
--mloader-image=<path>
Bluegene ブロックの mloader イメージへのパス。 デフォルトから ブルージーン.conf 設定されていない場合。
-R, -回転なし
適切な形状に合わせるために、ジョブの要求されたジオメトリの回転を無効にします。
ブロック。 デフォルトでは、指定されたジオメトリは XNUMX 次元で回転できます。
--ramdisk-image=<path>
Bluegene ブロックの RAM ディスク イメージへのパス。 BGLのみ。 デフォルトから ブルージーン.conf if
設定されていません。
入力 ENVIRONMENT 変数
起動時に、sbatch は次の環境で設定されたオプションを読み取り、処理します。
変数。 環境変数はバッチで設定されたオプションをオーバーライドすることに注意してください。
スクリプトとコマンド ライン オプションは、環境変数をオーバーライドします。
SBATCH_ACCOUNT と同じ -NS、 - アカウント
SBATCH_ACCTG_FREQ と同じ --acctg-freq
SBATCH_ARRAY_INX と同じ -a、 - 配列
SBATCH_BLRTS_IMAGE と同じ --blrts-画像
SBATCH_BURST_BUFFER と同じ --bb
SBATCH_CHECKPOINT と同じ -チェックポイント
SBATCH_CHECKPOINT_DIR と同じ --チェックポイントディレクトリ
SBATCH_CLUSTERS or SLURM_CLUSTERS
と同じ -クラスター
SBATCH_CNLOAD_IMAGE と同じ --cnload-image
SBATCH_CONN_TYPE と同じ --conn タイプ
SBATCH_CORE_SPEC と同じ --コアスペック
SBATCH_DEBUG と同じ -v、 -詳細
SBATCH_DISTRIBUTION と同じ -NS、 - 分布
SBATCH_EXCLUSIVE と同じ - エクスクルーシブ
SBATCH_EXPORT と同じ - 書き出す
SBATCH_GEOMETRY と同じ -NS、 -ジオメトリ
SBATCH_GET_USER_ENV と同じ --get-user-env
SBATCH_HINT or SLURM_HINT
と同じ - ヒント
SBATCH_IGNORE_PBS と同じ --ignore-pbs
SBATCH_IMMEDIATE と同じ -私、 - すぐに
SBATCH_IOLOAD_IMAGE と同じ --ioload-image
SBATCH_JOBID と同じ --ジョブビッド
SBATCH_JOB_NAME と同じ -NS、 - 職種名
SBATCH_LINUX_IMAGE と同じ --linux-image
SBATCH_MEM_BIND と同じ --mem_bind
SBATCH_MLOADER_IMAGE と同じ --mloader-image
SBATCH_NETWORK と同じ - 通信網
SBATCH_NO_REQUEUE と同じ --再キューなし
SBATCH_NO_ROTATE と同じ -NS、 -回転なし
SBATCH_OPEN_MODE と同じ --オープンモード
SBATCH_OVERCOMMIT と同じ -O、 --オーバーコミット
SBATCH_PARTITION と同じ -NS、 - パーティション
SBATCH_POWER と同じ - パワー
SBATCH_PROFILE と同じ - プロフィール
SBATCH_QOS と同じ --qos
SBATCH_RAMDISK_IMAGE と同じ --ramdisk-image
SBATCH_RESERVATION と同じ - 予約
SBATCH_REQ_SWITCH ツリー トポロジが使用される場合、これにより、最大数が定義されます。
ジョブ割り当てに必要なスイッチ、およびオプションで最大値
その数のスイッチを待つ時間。 見る --スイッチ
SBATCH_REQUEUE と同じ --再キュー
SBATCH_SICP と同じ --sicp
SBATCH_SIGNAL と同じ - 信号
SBATCH_THREAD_SPEC と同じ --スレッドスペック
SBATCH_TIMELIMIT と同じ -NS、 - 時間
SBATCH_WAIT_ALL_NODES と同じ --wait-all-nodes
SBATCH_WAIT4SWITCH 要求されたスイッチを待機する最大時間。 見る --スイッチ
SBATCH_WCKEY と同じ --wckey
SLURM_CONF Slurm構成ファイルの場所。
SLURM_EXIT_ERROR Slurm エラーが発生したときに生成される終了コードを指定します (例:
無効なオプション)。 これをスクリプトで区別するために使用できます。
さまざまな Slurm エラー状態からのアプリケーション終了コード。
SLURM_STEP_KILLED_MSG_NODE_ID=ID
設定すると、ジョブまたはステップが実行されたときに、指定されたノードのみがログに記録されます。
信号で殺された。
出力 ENVIRONMENT 変数
Slurm コントローラーは、バッチの環境に次の変数を設定します。
スクリプト。
BASIL_RESERVATION_ID
ALPS/BASIL を実行している Cray システムのみの予約 ID。
MPIRUN_NOALLOCATE
Blue Gene L/P システムのみにブロックを割り当てないでください。
MPIRUN_NOFREE
Blue Gene L/P システムのみでブロックを解放しないでください。
MPIRUN_PARTITION
Blue Gene システムのみのブロック名。
SBATCH_CPU_BIND
--cpu_bind オプションの値に設定します。
SBATCH_CPU_BIND_VERBOSE
--cpu_bind オプションに冗長オプションが含まれる場合は、「verbose」に設定します。 に設定
それ以外の場合は「静か」。
SBATCH_CPU_BIND_TYPE
--cpu_bind オプションで指定された CPU バインド タイプに設定します。 可能な値
可能な XNUMX つのカンマ区切り文字列。 最初の可能な文字列は、
バインドされるエンティティ: 「スレッド」、「コア」、「ソケット」、「ldom」、および「ボード」。 の
XNUMX 番目の文字列は、タスクがバインドされる方法を識別します: "none"、"rank"、
「map_cpu」、「mask_cpu」、「rank_ldom」、「map_ldom」または「mask_ldom」。
SBATCH_CPU_BIND_LIST
CPU バインディングに使用されるビット マスクに設定します。
SBATCH_MEM_BIND
--mem_bind オプションの値に設定します。
SBATCH_MEM_BIND_VERBOSE
--mem_bind オプションに冗長オプションが含まれる場合は、「verbose」に設定します。 に設定
それ以外の場合は「静か」。
SBATCH_MEM_BIND_TYPE
--mem_bind オプションで指定されたメモリ バインド タイプに設定します。 可能
値は、「none」、「rank」、「map_map」、「mask_mem」、および「local」です。
SBATCH_MEM_BIND_LIST
メモリ バインドに使用されるビット マスクに設定します。
SLURM_ARRAY_TASK_ID
ジョブ配列 ID (インデックス) 番号。
SLURM_ARRAY_TASK_MAX
ジョブ配列の最大 ID (インデックス) 番号。
SLURM_ARRAY_TASK_MIN
ジョブ配列の最小 ID (インデックス) 番号。
SLURM_ARRAY_TASK_STEP
ジョブ配列のインデックス ステップ サイズ。
SLURM_ARRAY_JOB_ID
ジョブ配列のマスター ジョブ ID 番号。
SLURM_CHECKPOINT_IMAGE_DIR
で指定されている場合、チェックポイント イメージが書き込まれるディレクトリ
行を実行します。
SLURM_CLUSTER_NAME
ジョブが実行されているクラスターの名前。
SLURM_CPUS_ON_NODE
割り当てられたノード上の CPU の数。
SLURM_CPUS_PER_TASK
タスクごとに要求される CPU の数。 の場合にのみ設定します。 --cpus-per-タスク オプションがある
指定。
SLURM_DISTRIBUTION
と同じ -NS、 - 分布
SLURM_GTIDS
このノードで実行されているグローバル タスク ID。 ゼロ原点とカンマ区切り。
SLURM_JOB_ID (と SLURM_JOBID 下位互換性のため)
ジョブ割り当ての ID。
SLURM_JOB_CPUS_PER_NODE
このノード上のジョブに使用可能なプロセッサの数。 選択/リニアに注意してください
プラグインはノード全体をジョブに割り当てるため、値はジョブの合計数を示します。
ノード上の CPU。 select/cons_res プラグインは、個々のプロセッサを
したがって、この数値は、このノード上のプロセッサの数を示します。
仕事。
SLURM_JOB_DEPENDENCY
--dependency オプションの値に設定します。
SLURM_JOB_NAME
ジョブの名前。
SLURM_JOB_NODELIST (と SLURM_NODELIST 下位互換性のため)
ジョブに割り当てられたノードのリスト。
SLURM_JOB_NUM_NODES (と SLURM_NNODES 下位互換性のため)
ジョブのリソース割り当て内のノードの合計数。
SLURM_JOB_PARTITION
ジョブが実行されているパーティションの名前。
SLURM_LOCALID
ジョブ内のプロセスのノード ローカル タスク ID。
SLURM_NODE_ALIASES
に割り当てられたノードのノード名、通信アドレス、ホスト名のセット
クラウドからのジョブ。 セット内の各要素がコロンで区切られ、各セットが
カンマ区切り。 例: SLURM_NODE_ALIASES=ec0:1.2.3.4:foo,ec1:1.2.3.5:bar
SLURM_NODEID
割り当てられたノードのID。
SLUMD_NODENAME
割り当てられたすべてのノードの名前。
SLURM_NTASKS (と SLURM_NPROCS 下位互換性のため)
と同じ -NS、 --ntasks
SLURM_NTASKS_PER_CORE
コアごとに要求されたタスクの数。 の場合にのみ設定します。 --ntasks-per-コア オプションがある
指定。
SLURM_NTASKS_PER_NODE
ノードごとに要求されたタスクの数。 の場合にのみ設定します。 --node ごとの ntasks オプションがある
指定。
SLURM_NTASKS_PER_SOCKET
ソケットごとに要求されたタスクの数。 の場合にのみ設定します。 --ソケットごとのntasks オプション
指定されています。
SLURM_PRIO_PROCESS
ジョブ送信時のスケジュール優先度 (適切な値)。 この値は
生成されたプロセスに伝播されます。
SLURM_PROCID
現在のプロセスの MPI ランク (または相対プロセス ID)
SLURM_PROFILE
と同じ - プロフィール
SLURM_RESTART_COUNT
システム障害によりジョブが再開されたか、明示的にジョブが再開された場合
キューに再登録されると、ジョブが再開された回数に送信されます。
SLURM_SUBMIT_DIR
ディレクトリ スバッチ 呼び出されました。
SLURM_SUBMIT_HOST
送信元のコンピュータのホスト名 スバッチ 呼び出されました。
SLURM_TASKS_PER_NODE
各ノードで開始されるタスクの数。 値はカンマで区切られ、
SLURM_NODELIST と同じ順序です。 XNUMX つ以上の連続したノードに
同じタスク数。その数の後に「(x#)」が続きます。「#」は繰り返しです
カウント。 たとえば、「SLURM_TASKS_PER_NODE=2(x3),1」は、最初の XNUMX つが
ノードはそれぞれ XNUMX つのタスクを実行し、XNUMX 番目のノードは XNUMX つのタスクを実行します。
SLURM_TASK_PID
開始されるタスクのプロセス ID。
SLURM_TOPOLOGY_ADDR
これは、システムにトポロジ/ツリー プラグインが構成されている場合にのみ設定されます。 の
値は、関連する可能性のあるネットワーク スイッチの名前に設定されます。
システムのトップレベルスイッチからリーフスイッチまでのジョブの通信
ノード名で終わります。 各ハードウェア コンポーネントを区切るにはピリオドが使用されます
名前。
SLURM_TOPOLOGY_ADDR_PATTERN
これは、システムにトポロジ/ツリー プラグインが構成されている場合にのみ設定されます。 の
値には、SLURM_TOPOLOGY_ADDR にリストされているコンポーネント タイプが設定されます。 それぞれ
コンポーネントは「スイッチ」または「ノード」として識別されます。 ピリオドは次の目的で使用されます。
各ハードウェア コンポーネント タイプを分離します。
例
コマンドラインでバッチスクリプトをファイル名で指定します。 バッチ スクリプトでは 1 を指定します。
仕事の時間制限は分単位。
$ 猫マイスクリプト
#!/bin/sh
#SBATCH --time=1
srun ホスト名 |並べ替え
$ sbatch -N4 myscript
salloc: 付与されたジョブ割り当て 65537
$ 猫 slurm-65537.out
host1
host2
host3
host4
標準入力の sbatch にバッチ スクリプトを渡します。
$ sbatch -N4 <
> #!/bin/sh
> srun ホスト名 |sort
> 終了後
sbatch: 送信されたバッチ ジョブ 65541
$ 猫 slurm-65541.out
host1
host2
host3
host4
コピー
Copyright(C)2006-2007カリフォルニア大学の摂政。 ローレンスで制作
リバモア国立研究所(免責事項を参照)。
Copyright(C)2008-2010 Lawrence Livermore NationalSecurity。
Copyright(C)2010-2015 SchedMDLLC。
このファイルは、リソース管理プログラムであるSlurmの一部です。 詳細については、を参照してください。
<http://slurm.schedmd.com/>.
Slurmはフリーソフトウェアです。 あなたはそれを再配布および/またはそれを変更することができます
Free SoftwareFoundationによって発行されたGNUGeneral Public License; いずれかのバージョン2
ライセンスの、または(オプションで)それ以降のバージョン。
Slurmは、それが役立つことを期待して配布されていますが、いかなる保証もありません。 それなし
商品性または特定の目的への適合性の黙示の保証ですら。 を参照してください
詳細については、GNU General Public License。
onworks.net サービスを使用してオンラインで sbatch を使用する