sox - クラウドでオンライン

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド sox です。

プログラム:

NAME


SoX - Sound eXchange、オーディオ操作のスイスアーミーナイフ

SYNOPSIS


ソックス [グローバルオプション] [フォーマットオプション] インファイル1
[[フォーマットオプション] インファイル2] ... [フォーマットオプション] アウトファイル
[効果 [エフェクトオプション]]..。

遊びます [グローバルオプション] [フォーマットオプション] インファイル1
[[フォーマットオプション] インファイル2] ... [フォーマットオプション]
[効果 [エフェクトオプション]]..。

REC [グローバルオプション] [フォーマットオプション] アウトファイル
[効果 [エフェクトオプション]]..。

DESCRIPTION


概要
SoX は、最も一般的な形式でオーディオ ファイルを読み書きし、オプションでエフェクトを適用できます。
彼らへ。 複数の入力ソースを組み合わせたり、オーディオを合成したり、多くのシステムで、
汎用オーディオ プレーヤーまたはマルチトラック オーディオ レコーダーとして機能します。 こちらも限定です
入力を複数の出力ファイルに分割する機能。

すべての SoX 機能は、 ソックス 指図。 演奏を簡単にするためと、
オーディオの録音 (SoX が次のように呼び出された場合) 遊びます、出力ファイルは自動的に次のように設定されます。
デフォルトのサウンドデバイス、および次のように呼び出された場合 REC、デフォルトのサウンドデバイスが入力として使用されます。
ソース。 さらに、 ソキシ(1) コマンドは音声をクエリするだけの便利な方法を提供します
ファイルのヘッダー情報。

SoX の中心となるのは libSoX と呼ばれるライブラリです。 SoX の拡張または使用に興味がある方
他のプログラムで使用する場合は、libSoX マニュアル ページを参照してください。 リブソックスとします。

SoX はコマンドラインのオーディオ処理ツールで、特に迅速かつシンプルなオーディオ処理に適しています。
編集とバッチ処理へ。 インタラクティブでグラフィカルなオーディオ エディターが必要な場合は、次を使用します。
大胆さとします。

* * *

全体的な SoX 処理チェーンは次のように要約できます。

入力 → コンバイナー → エフェクト → 出力

ただし、SoX コマンド ラインでは、出力とエフェクトの位置が異なることに注意してください。
先ほど示した論理フローに従って交換されます。 関連するオプションについても注意してください。
to ファイルはそれぞれのファイル名の前に配置されますが、エフェクトの場合はその逆です。
これが実際にどのように機能するかを示すために、ここでは SoX がどのように機能するかを示すいくつかの例を示します。
使用済み。 シンプルな
ソックス・リサイタル.auリサイタル.wav
Sun AU 形式のオーディオ ファイルを Microsoft WAV ファイルに変換します。
sox recital.au -b 16 recital.wav チャンネル 1 レート 16k フェード 3 ノルム
同じフォーマット変換を実行しますが、XNUMX つのエフェクトも適用します (XNUMX つにダウンミックス)
チャンネル、サンプル レート変更、フェードイン、ノーマライズ)、結果をビット深度で保存します。
16.
sox -r 16k -e signed -b 8 -c 1 voice-memo.raw voice-memo.wav
「生」 (別名「ヘッダーなし」) オーディオを自己記述型ファイル形式に変換します。
sox 遅い.aiff 固定.aiff 速度 1.027
音声速度を調整します。
ソックス 短い.wav 長い.wav 長い.wav
XNUMX つの音声ファイルを連結し、
sox -m music.mp3 voice.wavmixed.flac
XNUMX つのオーディオ ファイルをミックスします。
「The Moonbeams/Greatest/*.ogg」ベースを再生 +3
低音増強効果を適用しながらオーディオ ファイルのコレクションを再生します。
play -n -c1 シンセ sin %-12 sin %-9 sin %-5 sin %-2 フェード h 0.1 1 0.1
合成された「短XNUMX度」コードをパイプオルガンの音で演奏します。
rec -c 2 radio.aiff トリム 0 30:00
XNUMX分のステレオオーディオを録音し、
play -q take1.aiff & rec -M take1.aiff take1-dub.aiff
(POSIX シェルを使用し、ハードウェアでサポートされている場合) マルチトラックに新しいトラックを記録します
録音。 ついに、
rec -r 44100 -b 16 -s -p 沈黙 1 0.50 0.1% 1 10:00 0.1% |
sox -p Song.ogg 沈黙 1 0.50 0.1% 1 2.0 0.1% :
新しいファイル: 再起動
LP/カセットなどのオーディオのストリームを録音し、複数のオーディオ ファイルに分割します。
2 秒間の沈黙を伴うポイント。 また、検出するまで録画は開始されません。
音声が再生され、10 分間沈黙が続くと停止します。

注意: 上記は、SoX の機能の概要にすぎません。 詳しいやり方の説明
つかいます SoX パラメータ、ファイル形式、エフェクトについては、このマニュアルの以下の場所にあります。
ソックスフォーマット(7)、および ソキシとします。

File フォーマット 種類
SoX は、「自己記述型」オーディオ ファイルと「生の」オーディオ ファイルを処理できます。 「自己記述型」フォーマット
(WAV、FLAC、MP3 など) には信号とエンコーディングを完全に説明するヘッダーがあります。
後続の音声データの属性。 「生」または「ヘッダーなし」形式には次の内容は含まれません。
この情報のため、これらのオーディオ特性を SoX に記述する必要があります。
コマンドライン、または入力ファイルのコマンドラインから推測されます。

次の XNUMX つの特性は、オーディオ データの形式を記述するために使用されます。
SoX で処理できます。

サンプルレート
XNUMX 秒あたりのサンプル数で表したサンプル レート (「ヘルツ」または「Hz」)。 デジタル電話
従来は 8000 Hz (8 kHz) のサンプル レートを使用していましたが、最近では 16、さらには
32 kHz が一般的になりつつあります。 オーディオ CD は 44100 Hz (44.1 kHz) を使用します。
デジタル オーディオ テープと多くのコンピュータ システムは 48 kHz を使用します。 プロフェッショナルオーディオシステム
96 kHz を使用することがよくあります。

サンプルサイズ
各サンプルの保存に使用されるビット数。 現在、16 ビットが一般的に使用されています。
8 ビットはコンピューター オーディオの初期に人気がありました。 24ビットは
プロのオーディオアリーナ。 他のサイズも使用されます。

データエンコーディング
各オーディオサンプルが表現される(または「エンコード」される)方法。 一部のエンコーディング
バイト順序またはビット順序が異なるバリアントがあります。 圧縮するものもあります
保存されたオーディオ データが占有するスペース (つまり、ディスク スペースや
伝送帯域幅)、他のフォーマットパラメータおよびサンプル数よりも
暗示するだろう。 一般的に使用されるエンコード タイプには、浮動小数点、μ-law、ADPCM、
符号付き整数 PCM、MP3、および FLAC。

チャンネル
ファイルに含まれるオーディオ チャンネルの数。 XNUMX つ (「モノ」) と XNUMX つ
(「ステレオ」) は広く使用されています。 「サラウンド サウンド」オーディオには通常 XNUMX つ以上が含まれます
チャネル。

「ビットレート」という用語は、エンコードされたオーディオが占有するストレージの量の尺度です。
単位時間にわたる信号。 これは上記のすべてに依存する可能性があり、通常は次のように表されます。
キロビット/秒 (kbps) の数。 A-law 電話信号のビットレートは 64
kbps。 MP3 でエンコードされたステレオ音楽のビットレートは通常 128 ~ 196 kbps です。 FLAC エンコード
ステレオ音楽のビットレートは通常 550 ~ 760 kbps です。

ほとんどの自己記述形式では、ファイルにテキストの「コメント」を埋め込むこともできます。
音楽、タイトル、作者など、何らかの方法でオーディオを説明するために使用できます。

オーディオ ファイル コメントの重要な用途の XNUMX つは、「再生ゲイン」情報を伝えることです。 SoX
リプレイ ゲイン情報の適用はサポートされていますが、生成はサポートされていません。 デフォルトでは、
SoX は入力ファイルのコメントをコメントをサポートする出力ファイルにコピーするため、出力ファイルは
入力ファイルにリプレイ ゲイン情報が存在する場合、その情報が含まれます。 この場合、
単純なフォーマット変換以外のものが実行された場合、出力ファイルが再生されます。
ゲイン情報は間違っている可能性があるため、次のツールを使用して再計算する必要があります。
これをサポートしています (SoX ではありません)。

この ソキシ(1) コマンドを使用して、音声ファイルのヘッダーの情報を表示できます。

決定 & 設定 この File フォーマット
SoX がフォーマットを決定または設定するために使用できるメカニズムがいくつかあります。
音声ファイルの特徴。 状況にもよりますが、個人的には
特性は、さまざまなメカニズムを使用して決定または設定される場合があります。

入力ファイルの形式を決定するために、SoX は優先順位に従って次のように使用します。
与えられた、または利用可能な:

1. コマンドライン形式のオプション。

2. ファイルヘッダーの内容。

3. ファイル名の拡張子。

出力ファイル形式を設定するために、SoX は優先順位に従って、指定された形式または
入手可能:

1. コマンドライン形式のオプション。

2. ファイル名の拡張子。

3. 入力ファイル形式の特性、または出力でサポートされている最も近いもの
ファイルの種類。

すべてのファイルについて、ファイル タイプを判断できない場合、SoX はエラーで終了します。 指図-
問題を解決するには、行形式オプションを追加または変更する必要がある場合があります。

再生 & レコーディング オーディオ
この 遊びますREC コマンドが提供されているため、基本的な再生と録音は次のように簡単です。
既存のファイル.wavを再生する

新しいファイル.wavを記録する
これら XNUMX つのコマンドは機能的には次と同等です。
sox 既存ファイル.wav -d

sox -d 新しいファイル.wav
もちろん、さらにオプションや効果 (後述) をコマンドに追加することもできます。
どちらの形でも。

* * *

一部のシステムでは、複数のタイプの (SoX 互換の) オーディオ ドライバーが提供されています (ALSA や OSS など)。
またはスナウ&アオ。 システムには複数のオーディオ デバイス (別名「サウンド カード」) を含めることもできます。
複数のオーディオ ドライバーが SoX に組み込まれており、SoX によってデフォルトが選択されている場合
録音または再生が必要なものではない場合、 オーディオドライバー 環境
変数を使用してデフォルトをオーバーライドできます。 たとえば (多くのシステム上で):
AUDIODRIVER=oss を設定します
遊ぶ ...
この オーディオデバイス 環境変数を使用して、デフォルトのオーディオデバイスをオーバーライドできます。
set AUDIODEV=/dev/dsp2
遊ぶ ...
ソックス ... -t oss
or
set AUDIODEV=hw:soundwave,1,2
遊ぶ ...
ソックス ... -t alsa
環境変数の設定方法はシステムによって異なることに注意してください。
具体的な例については、以下の「SOX_OPTS」を参照してください。

オーディオ出力デバイスがサポートしていないサンプルレートのファイルを再生する場合、
SoX は自動的に 必要なサンプルレートを実行するためのエフェクト
会話。 古いハードウェアとの互換性のため、デフォルトでは 品質レベルは次のように設定されています
「低い」。 これは、明示的に指定することで変更できます。 別の効果
品質レベル、例:
再生 ... レート -m
または --再生レート-引数 オプション(以下を参照)。

* * *

一部のシステムでは、SoX を使用すると、オーディオの再生音量を調整できます。 遊びます。 どこで
サポートされている場合、これは再生中に「v」キーと「V」キーをタップすることで実現されます。

適切な録音レベルの設定を支援するために、SoX にはピーク レベル メーターが含まれています。
次のように (実際の記録を行う前に) 呼び出されます。
レク -n
録音レベルを調整する必要があります (SoX ではなく、システムが提供するミキサー プログラムを使用してください)
メーターが at 最も 時折 フルスケールで、決して「赤字」になることはありません(
感嘆符が表示されます)。 こちらも参照 -S を参照してください。

正確さ
オーディオを圧縮する多くのファイル形式は、オーディオ信号情報の一部を破棄します。
そうする。 このような形式に変換してから再度変換しても、
オリジナルのオーディオの正確なコピー。 これは、電話で使用される多くの形式に当てはまります。
(例: A-law、GSM) 低信号帯域幅が高いオーディオ忠実度よりも重要である場合、
ポータブル音楽プレーヤーで使用される多くのフォーマット (MP3、Vorbis など) も適切な場合に対応します。
圧縮率を高くしても忠実度を維持できます。
実用的なポータブルプレーヤー。

オーディオ信号情報を破棄するフォーマットは「非可逆」と呼ばれます。 そうでないフォーマットは、
「ロスレス」と呼ばれます。 「品質」という用語は、オリジナルにどれだけ近いかを示す尺度として使用されます。
非可逆フォーマットを使用する場合でもオーディオ信号を再生できます。

SoX を使用したオーディオ ファイル変換は、可逆性のある場合、つまり非可逆性を使用していない場合には可逆的になります。
圧縮、サンプリング レートまたはチャネル数を減らさない場合、および
宛先フォーマットで使用されるビット数は、ソースフォーマットで使用されるビット数以上です。 例えば
8 ビット PCM 形式から 16 ビット PCM 形式への変換はロスレスですが、
8 ビット PCM フォーマットと (8 ビット) A-law は違います。

N.B. SoX は、実行前にすべてのオーディオ ファイルを内部非圧縮形式に変換します。
あらゆるオーディオ処理。 これは、非可逆形式で保存されたファイルを操作することを意味します。
オーディオの忠実度がさらに失われる可能性があります。 たとえば、
sox ロング.mp3 ショート.mp3 トリム 10
SoX は、まず入力 MP3 ファイルを解凍し、次に トリム 効果、そして最後に
オーディオを再圧縮して出力 MP3 ファイルを作成します。
入力ファイルの作成時よりも忠実度が高くなります。 したがって、もしそれが何であるならば、
最終的に望ましいのは非可逆圧縮オーディオです。すべてを実行することを強くお勧めします。
可逆ファイル形式を使用してオーディオ処理し、次の時点でのみ非可逆形式に変換します。
最終段階。

N.B. XNUMX 回の SoX 呼び出しで複数のエフェクトを適用すると、通常、次のような結果が得られます。
複数の SoX 呼び出しを使用して生成される結果よりも正確な結果が得られます。

ディザリング
ディザリングは、保存されたオーディオのダイナミック レンジを最大化するために使用される技術です。
特定のビット深度。 量子化によって生じた歪みは、次の追加によって無相関化されます。
信号に少量のホワイト ノイズが含まれます。 ほとんどの場合、SoX は、
選択した処理にはディザが必要であり、次の場合には出力フォーマット中にディザが追加されます。
適切な。

具体的には、デフォルトでは、出力ビット深度が次の場合、SoX は自動的に TPDF ディザを追加します。
24 未満で、次のいずれかに該当します。

· コマンドライン オプションを使用してビット深度の削減が明示的に指定されている

· 出力ファイル形式は、入力ファイルのビット深度よりも低いビット深度のみをサポートします。
形式でアーカイブしたプロジェクトを保存します.

· 内部処理チェーン内の有効ビット深度が増加したエフェクト

たとえば、次のようにして音量を調整します。 vol 0.25 追加の XNUMX ビットが必要です。
その結果をロスレスに保存します (0.25 進数の 0.01 は XNUMX 進数の XNUMX に等しいため)。 したがって、入力が
ファイルのビット深度が 16 の場合、SoX の内部表現はその後 18 ビットを使用します。
このボリューム変更を処理しています。 出力を同じ深さに保存するには、
入力の場合、ディザリングを使用して追加ビットを削除します。

-V SoX が自動的に追加した処理を確認するオプション。 の -D オプションは
自動ディザリングをオーバーライドするために指定されます。 ディザリングを手動で呼び出すには (例:
ノイズシェーピング曲線)、を参照してください。 ディザ 効果。

クリッピング
クリッピングとは、オーディオ信号レベル (または「ボリューム」) が基準を超えたときに発生する歪みです。
選択した表現の範囲。 ほとんどの場合、クリッピングは望ましくないため、クリッピングを行う必要があります。
(処理チェーン内の) ポイントより前のレベルを調整することによって修正されます。
それは起こります。

SoX では、ご想像のとおり、 vol or 利得 に影響を与える
オーディオの音量を上げます。 クリッピングは、他の多くのエフェクトでも発生する可能性があります。
ある形式を別の形式に変換する場合や、単純にオーディオを再生する場合でも同様です。

オーディオ ファイルの再生にはリサンプリングが含まれることが多く、アナログ コンポーネントによる処理では、
小さな DC オフセットや増幅が発生すると、これらすべてが歪みを引き起こす可能性があります。
オーディオ信号レベルが最初はクリッピング ポイントに近すぎました。

これらの理由により、通常はオーディオ ファイルの信号レベルがある程度であることを確認する必要があります。
「ヘッドルーム」、つまり、可能な最大レベルを下回る特定のレベルを超えない
与えられた表現に対して。 一部の標準化団体は 9dB ものヘッドルームを推奨していますが、
ただし、ほとんどの場合、3dB (ほぼ 70% の線形) で十分です。 この知恵は
現代の音楽制作では失われています。 実際、多くの CD、MP3 などは現在、あるレベルでマスタリングされています。
上記の. 0dBFS つまり、オーディオは配信時にクリップされます。

SoX の STAT統計情報 エフェクトは、オーディオ ファイル内の信号レベルを決定するのに役立ちます。
この 利得 or vol エフェクトはクリッピングを防ぐために使用できます。例:
ソックス鈍い.wav明るい.wavゲイン-6トレブル+6
高音ブーストがクリップしないことを保証します。

処理中の任意の時点でクリッピングが発生すると、SoX は警告メッセージを表示します。
その効果。

参照 -G利得ノルム 効果。

入力 File 結合
SoX の入力結合器は、以下を使用して複数のファイルを結合するように設定できます (下記のオプションを参照)。
次のメソッドのいずれか: `concatenate'、`sequence'、`mix'、`mix-power'、`merge'、または
「乗算」。 デフォルトのメソッドは「sequence」です。 遊びます、および「連結」 RECソックス.

「sequence」以外のすべてのメソッドでは、複数の入力ファイルに同じサンプリングが必要です。
レート。 必要に応じて、個別の SoX 呼び出しを使用してサンプリング レートを調整できます。
組み合わせる前。

「連結」結合方法が選択されている場合 (通常、これがデフォルトです)、
入力ファイルにも同じ数のチャンネルが必要です。 各入力からの音声
指定された順序で連結されて出力ファイルが形成されます。

「シーケンス」結合方法は自動的に選択されます。 遊びます。 それはに似ています
「連結」とは、各入力ファイルからの音声が出力ファイルにシリアルに送信されることを意味します。
ただし、ここでは出力ファイルが閉じられ、対応する遷移で再度開かれる可能性があります。
入力ファイル間。 これは、さまざまな種類の音声を送信するときに必要なものかもしれません。
出力デバイスに送信されますが、出力が通常のファイルの場合は一般に役に立ちません。

「ミックス」または「ミックスパワー」結合方法が選択されている場合、XNUMX つ以上の入力
ファイルを指定する必要があり、それらが混合されて出力ファイルが形成されます。 の数
各入力ファイルのチャンネルが同じである必要はありませんが、同じである場合、SoX は警告を発行します。
そうではなく、出力ファイルの一部のチャンネルには、すべての入力ファイルからのオーディオが含まれるわけではありません。 あ
混合されたオーディオ ファイルは、元の入力ファイルを参照せずに混合を解除することはできません。

「マージ」結合方法が選択されている場合は、XNUMX つ以上の入力ファイルを指定する必要があります。
結合されて出力ファイルが形成されます。 各入力のチャンネル数
ファイルが同じである必要はありません。 マージされたオーディオ ファイルは、すべてのチャンネルのすべてで構成されます。
入力ファイル。 マージ解除は、SoX を複数回呼び出すことで可能です。 リミックス
効果。 たとえば、XNUMX つのモノラル ファイルを結合して XNUMX つのステレオ ファイルを形成できます。 最初
XNUMX 番目のモノラル ファイルはステレオ ファイルの左チャンネルと右チャンネルになります。

「乗算」結合メソッドは、対応するチャンネルのサンプル値を乗算します。
(-1 ~ +1 の範囲の数値として扱われます)。 入力のチャンネル数が
ファイルが同じではない場合、欠落しているチャネルにはすべてゼロが含まれているとみなされます。

入力ファイルを結合するとき、SoX は指定されたエフェクト (たとえば、
vol 音声を結合した後の音量調整効果)。 ただし、多くの場合、
入力の前に個別に入力の音量を設定 (つまり「バランス」) できると便利です。
結合が行われます。

すべての結合方法で、入力ファイルの音量調整は、 -v
XNUMX つ以上の入力ファイルに指定できるオプション (下記)。 のみに与えられる場合
入力ファイルの一部では、他のファイルでは音量調整が行われません。 一部では
状況によっては、自動音量調整が適用される場合があります (下記を参照)。

この -V オプション (下記) を使用すると、調整された入力ファイルのボリューム調整を表示できます。
(手動または自動で) 選択されます。

入力ファイルを混合する場合は、特別な考慮事項がいくつかあります。

他の方法とは異なり、「ミックス」結合にはクリッピングが発生する可能性があります。
バランシングが実行されない場合はコンバイナ。 この場合、手動での音量調整ができないと、
SoX は、自動的に調整することでクリッピングが発生しないように努めます。
各入力信号の音量 (振幅) を¹/n 倍します。n は入力信号の数です。
ファイル。 その結果、オーディオが小さすぎるかバランスが崩れた場合は、入力
ファイル ボリュームは、上で説明したように手動で設定できます。 を使用して、 ノルム ミックスへの影響は
別の代替案。

混合オーディオがいくつかの点では十分に大きく聞こえるが、他の点では小さすぎる場合は、ダイナミック レンジが問題になります。
これを修正するには圧縮を適用する必要があります。を参照してください。 コンパンド 効果。

「ミックスパワー」結合方式では、混合体積は、混合体積とほぼ等しくなります。
入力信号の XNUMX つ。 これは、¹/√n の係数を使用してバランスを取ることによって実現されます。
¹/n。 このバランス係数はクリッピングが発生しないことを保証するものではないことに注意してください。
通常、クリップの数は少なく、その結果生じる歪みは一般に
知覚できない。

出力
SoX のデフォルトの動作では、XNUMX つ以上の入力ファイルを取得し、それらを単一のファイルに書き込みます。
出力ファイル。

この動作は、エフェクト内で疑似エフェクト「newfile」を指定することで変更できます。
リスト。 SoX は複数出力モードに入ります。

複数出力モードでは、`newfile' より前のエフェクトが実行されると、新しいファイルが作成されます。
完了したことを示します。 `newfile' の後にリストされているエフェクト チェーンが起動され、
その出力は新しいファイルに保存されます。

複数出力モードでは、すべての出力の末尾に一意の番号が自動的に追加されます。
ファイル名。 ファイル名に拡張子がある場合は、拡張子の前に数字が挿入されます。
拡大。 この動作は、ファイル名の任意の場所に %n を配置することでカスタマイズできます。
数字を置き換える必要がある場所。 オプションの数値を % の後に置くことができます。
数値の最小固定幅を示します。

マルチ出力モードは、エフェクトチェーンを停止するエフェクトでない限り、あまり役に立ちません。
early は `newfile' の前に指定されます。 エフェクトが適用される前にファイルの終わりに達した場合
チェーン自体が停止すると、ファイルは空になるため、新しいファイルは作成されません。

以下は、入力ファイルの最初の 60 秒を 30 つの XNUMX 秒に分割する例です。
XNUMX 番目のファイルは無視され、残りは無視されます。
sox の歌.wav 着信音%1n.wav トリム 0 30 : 新しいファイル : トリム 0 30

停止 ソックス
通常、SoX は処理を完了し、すべてを読み込んだら自動的に終了します。
入力ファイルから利用可能なオーディオ データ。

必要に応じて、プロセスに割り込み信号を送信することで、より早く終了することができます。
(通常はキーボードの割り込みキー (通常は Ctrl-C です) を押します)。 これは
SoX を使用して録音する場合など、状況によっては当然の要件となります。 ノート
SoX を使用して複数のファイルを再生する場合、Ctrl-C の動作は少し異なります。
これにより、SoX は一度次のファイルにスキップされます。 素早くXNUMX回続けて押すと、
SoX は終了します。

処理を早期に停止するもう XNUMX つのオプションは、期間を指定するエフェクトを使用することです。
停止点を決定するサンプル数。 トリム効果はその一例です。 一度
すべてのエフェクト チェーンが停止すると、SoX も停止します。

ファイル名


ファイル名には、単純なファイル名、絶対パス名または相対パス名、または URL (入力ファイル) を使用できます。
それだけ)。 URL のサポートには次のことが必要であることに注意してください。 wgetの(1)が利用可能です。

注: SoX エフェクト名と同じ入力または出力ファイル名を SoX に与えると、
SoX はそれをエフェクト仕様として扱うため、機能しません。 これに対する唯一の回避策は、
そのようなファイル名を避けることです。 ほとんどのオーディオ ファイル名は
エフェクト名にはファイル名「拡張子」がありませんが、エフェクト名にはそれがありません。

Special ファイル名
次の特別なファイル名は、特定の状況で通常のファイル名の代わりに使用される場合があります。
コマンドラインのファイル名:

- SoX は、特別なファイル名 `-' を使用することで、単純なパイプライン操作で使用できます。
これを入力ファイル名として使用すると、SoX は次のファイルからオーディオ データを読み取ります。
「標準入力」(stdin)。これを出力ファイル名として使用すると、SoX が発生します。
音声データを「標準出力」(stdout) に送信します。 これを使用するときの注意点
出力ファイルのオプション、および場合によっては入力ファイルに使用する場合、
ファイルタイプ (参照 -t 以下)も指定する必要があります。

"|プログラム [オプション]..。"
これを入力ファイル名の代わりに使用して、指定されたプログラムの
標準出力 (stdout) を入力ファイルとして使用します。 ようではない - (上)、これは次のことが考えられます
XNUMX つの SoX コマンドへの複数の入力に使用されます。 たとえば、「genw」がモノラルを生成する場合、
WAV 形式の信号を標準出力に出力し、次のコマンドで
生成された XNUMX つの信号からのステレオ ファイル:
sox -M "|genw --imd -" "|genw --thd -" out.wav
ヘッダーレス (生) オーディオの場合、 -t (おそらく他の形式オプションも)
入力コマンドの前に指定されます。

"ワイルドカードファイル名"
SoX によってファイル名の「グロビング」(ワイルドカード マッチング) が実行されるように指定します。
シェルの代わりに。 これにより、単一セットのファイル オプションを適用できるようになります。
ファイルのグループ。 たとえば、現在のディレクトリに XNUMX つの `vox' が含まれているとします。
ファイル、file1.vox、file2.vox、および file3.vox、その後
play --rate 6k *.vox
(ほとんどの環境では) `shell' によって展開され、
play --rate 6k file1.vox file2.vox file3.vox
これにより、最初の vox ファイルのみが 6k のサンプル レートを持つものとして扱われます。 と
play --rate 6k "*.vox"
指定されたサンプル レート オプションは XNUMX つの vox ファイルすべてに適用されます。

-p, --ソックスパイプ
これを出力ファイル名の代わりに使用して、SoX コマンドが実行されることを指定できます。
別の SoX コマンドへの入力パイプとして使用する必要があります。 たとえば、次のコマンドを実行します。
「|sox -n -p シンセ 2」「|sox -n -p シンセ 2 トレモロ 10」の統計を再生します
は、それぞれ異なる効果を持つ XNUMX つの「ファイル」を連続して再生します。

-p 実際には ` のエイリアスです-t ソックス -'.

-d, - 標準デバイス
これを入力または出力ファイル名の代わりに使用して、
デフォルトのオーディオ デバイス (SoX に組み込まれている場合) が使用されます。 これは似ています
呼び出すために REC or 遊びます (上記のように)。

-n, - ヌル
これを入力または出力ファイル名の代わりに使用して、「null」であることを指定できます。
ファイル」が使用されます。 ここで、「null ファイル」とは SoX 固有のファイルを指すことに注意してください。
このメカニズムは、同様の名前を持つオペレーティング システムのメカニズムとは関係がありません。

Null ファイルを使用してオーディオを入力することは、通常のオーディオ ファイルを使用することと同じです。
無限の量の沈黙が含まれるため、通常はそうでない限り役に立ちません。
有限の時間長を指定するエフェクトとともに使用されます(例: トリム or シンセ).

Null ファイルを使用してオーディオを出力すると、オーディオが破棄されることになるため、便利です。
主にオーディオに影響を与えるのではなく、オーディオに関する情報を生成するエフェクトを使用します。
それ(例えば ノイズプロフ or STAT).

Null ファイルに関連付けられたサンプリング レートはデフォルトで 48 kHz ですが、
通常のファイル。必要に応じて、コマンドライン形式のオプションを使用してこれをオーバーライドできます。
(下記参照)。

サポート File & オーディオ デバイス 種類
見る ソックスフォーマット(7) サポートされているファイル形式とオーディオデバイスのリストと説明については、
ドライバー。

OPTIONS


グローバル オプション
これらのオプションは、最初の効果の前の任意の時点でコマンド ラインで指定できます。
名前。

この SOX_OPTS 環境変数を使用して、代替のデフォルト値を提供できます。
SoX のグローバル オプション。 例えば:
SOX_OPTS="--buffer 20000 --play-rate-arg -hs --temp /mnt/temp"
SOX_OPTS を設定すると、動作に望ましくない変更が生じる可能性があることに注意してください。
SoX を呼び出すスクリプトまたはその他のプログラム。 SOX_OPTS は、次のような用途に使用するのが最適かもしれません。
指定された例のように)、SoX が実行されている環境を反映しています。 有効化
などのオプション -- 破壊者なし デフォルトとして、シェルエイリアスを使用するとより適切に処理される可能性があります。
シェルエイリアスはスクリプトなどの動作には影響しません。

スクリプトが SOX_OPTS の影響を受けないようにする XNUMX つの方法は、次の時点で SOX_OPTS をクリアすることです。
スクリプトの開始ですが、これにより、当然ながら、いくつかの情報を運ぶ SOX_OPTS の利点が失われます。
システム全体のデフォルトのオプション。 別のアプローチは、次のコマンドを使用して SoX を明示的に呼び出すことです。
デフォルトのオプション値、例:
SOX_OPTS="-V --no-clobber"
...
sox -V2 --clobber $input $output ...
環境変数を設定する方法はシステムによって異なることに注意してください。 ここにあるいくつかの
例:

Unix バッシュ:
エクスポート SOX_OPTS="-V --no-clobber"
Unix csh:
setenv SOX_OPTS "-V --no-clobber"
MS-DOS/MS-Windows:
set SOX_OPTS=-V --no-clobber
MS-Windows GUI: コントロール パネル経由 : システム : 詳細設定 : 環境変数

Mac OS X GUI: Apple のテクニカル Q&A QA1067 ドキュメントを参照してください。

- バッファ バイト, --入力バッファ バイト
オーディオの処理に使用されるバッファのサイズをバイト単位で設定します (デフォルトは 8192)。
- バッファ 入力、エフェクト、出力処理に適用されます。 --入力バッファ 適用
入力処理のみ (オーバーライドされます) - バッファ 両方が与えられた場合)。

値が大きいことに注意してください。 - バッファ SoX の応答が遅くなる原因になります
現在の入力ファイルの終了またはスキップを要求します。

-- クロバー
指定された名前と同じ名前の既存のファイルを上書きする前にプロンプ​​トを表示しない
出力ファイル用。 これはデフォルトの動作です。

- 混ぜる 連結する|マージ|ミックス|ミックスパワー|掛ける|シーケンス
入力ファイルの結合方法を選択します。 これらの一部については、短いオプションは次のとおりです。
入手可能: -m 「ミックス」を選択すると、 -M 「マージ」を選択し、 -T 「乗算」を選択します。

見る 入力 File 結合 さまざまな組み合わせについては上記を参照してください
方法。

-D, -ディザなし
自動ディザリングを無効にします。上記の「ディザリング」を参照してください。 これが起こる理由の例
ファイルが 16 ビットから 24 ビットに変換されている場合に役立つことがあります。
何らかの処理を行うつもりですが、実際にはその後の処理は必要ありません。
すべてが失われ、元の 16 ビット ファイルが失われているため、厳密に言えば、ディザはありません。
ファイルを 16 ビットに変換し直す場合に必要です。 も参照してください。 統計情報 どのように効果があるか
ファイル内のオーディオの実際のビット深度を決定します。

--エフェクトファイル ファイル名
すべてのエフェクトとその引数を取得するには、FILENAME を使用します。 ファイルは次のように解析されます
値はコマンドラインで指定されました。 代わりに新しい行を使用できます
特別な : エフェクトチェーンを分離するためのマーカー。 便宜上、このようなマーカーは
ファイルの終わりは通常無視されます。 空の最後を指定したい場合
エフェクト チェーン、明示的なエフェクトを使用する : ファイルの最終行に単独で記述されます。 これ
このオプションを使用すると、コマンドラインで指定された効果がすべて破棄されます。

-G, - ガード
自動的に呼び出します 利得 クリッピングを防ぐ効果があります。 例えば
sox -G infile -b 16 outfile レート 44100 ディザ -s
の略記です
sox infile -b 16 outfile ゲイン -h レート 44100 ゲイン -rh ディザ -s
参照 -V、 --標準、利得 効果。

-h, - 助けて
バージョン番号と使用法情報を表示します。

--ヘルプ効果 NAME
指定したエフェクトの使用法情報を表示します。 名前 を示すために使用できます
すべてのエフェクトでの使用。

--ヘルプ形式 NAME
指定されたファイル形式に関する情報を表示します。 名前 を示すために使用できます
すべてのフォーマットに関する情報。

- 私, - 情報
最初のパラメータとして指定された場合のみ ソックス、のように振る舞う ソキシとします。

-m|-M に相当 - 混ぜる ミックス- 混ぜる マージそれぞれ。

- 魔法
SoX がオプションの `libmagic' ライブラリを使用して構築されている場合、このオプションは次のようになります。
オーディオ ファイル タイプの検出に使用できるようにするために与えられています。

--マルチスレッド | --シングルスレッド
デフォルトでは、SoX は「シングルスレッド」です。 もし --マルチスレッド オプションが与えられる
ただし、SoX はほとんどのマルチチャンネル エフェクトのオーディオ チャンネルを処理します。
ハイパースレッディング/マルチコアアーキテクチャ上で並列。 これにより処理が軽減される可能性があります
ただし、場合によってはこのオプションを併用する必要があるかもしれません。
マルチスレッドの利点を得るには、デフォルトよりも大きなバッファ サイズを使用します
処理 (例: 131072; を参照) - バッファ 上記)。

-- 破壊者なし
に指定されたものと同じ名前の既存のファイルを上書きする前にプロンプ​​トを表示します。
出力ファイル。

N.B. ファイルを意図せず上書きしてしまうのは、思っているより簡単です。
たとえば、誤って入力した場合
sox ファイル1 ファイル2 エフェクト1 エフェクト2 ...
あなたが本当に言いたかったのは
再生 ファイル1 ファイル2 エフェクト1 エフェクト2 ...
このオプションを使用しない場合、file2 は上書きされます。 したがって、このオプションを使用することは、
おすすめされた。 SOX_OPTS (上記)、「シェル」エイリアス、スクリプト、またはバッチ ファイルは、
永続的に有効にする適切な方法。

-ノルム[=dBレベル]
自動的に呼び出します 利得 クリッピングを防ぎ、正規化する効果があります。
オーディオ。 例えば
sox --norm infile -b 16 outfile レート 44100 ディザ -s
の略記です
sox infile -b 16 outfile ゲイン -h レート 44100 ゲイン -nh ディザ -s
オプションで、オーディオを (通常は) 0 dBFS 未満の特定のレベルに正規化できます。
sox --norm=-3 入力ファイル 出力ファイル

参照 -V、 -NS、利得 効果。

--再生レート-引数 ARG
「レート」エフェクトが自動的に呼び出されるときに使用する品質オプションを選択します。
オーディオを再生しながら。 このオプションは通常、 SOX_OPTS 環境
変数 (上記を参照)。

- プロット gnuplot|オクターブ|OFF
に設定されていない場合 OFF (デフォルトの場合 - プロット が与えられていない)、可能なモードで実行します。
gnuplot プログラムまたは GNU Octave プログラムと組み合わせて使用​​され、支援するために使用されます。
伝達関数ベースの多くの選択と構成を使用して、
効果。 選択したプロット プログラムをサポートする最初のエフェクトについては、
SoX は、エフェクトの伝達関数をプロットするコマンドを出力し、終了します。
実際に音声を処理することはありません。 例えば
sox --plot オクターブ入力ファイル -n highpass 1320 > highpass.plt
オクターブハイパス.plt

-q, --no-show-progress
SoX が静音モードで実行しない場合は、静音モードで実行します。 これはその逆です
-S オプションを選択します。

-R 「繰り返し可能」モードで実行します。 このオプションを指定すると、該当する場合、SoX は
出力ファイルに固定タイムスタンプを埋め込みます (例: AIFF) 擬似的に「シード」します
乱数発生器 (例: ディザ) を固定数に設定することで、次のことが保証されます。
同じ入力と同じパラメータを使用して連続して SoX を呼び出すと、次の結果が得られます。
同じ出力です。

--リプレイゲイン 追跡する|アルバム|OFF
入力ファイルにリプレイゲイン調整を適用するかどうかを選択します。 デフォルト
is OFF for ソックスREC, アルバム for 遊びます ここで、(少なくとも) 最初の XNUMX つの入力ファイル
同じアーティスト名とアルバム名でタグ付けされており、 追跡する for 遊びます さもないと。

-S, --show-progress
入力ファイル形式/ヘッダー情報、および入力としての処理の進行状況を表示
ファイルの完了率、経過時間、残り時間 (既知の場合、図に表示)
括弧)、および出力ファイルに書き込まれるサンプルの数。 また、
ピークレベルメーター、およびクリッピングが発生したかどうかを示すインジケーター。 ピークレベルメーター
最大 XNUMX つのチャンネルが表示され、次のようにデジタル オーディオ用に調整されます (右)
チャンネルを表示):

dB FSD ディスプレイ dB FSD ディスプレイ
-25 - -11 ====
-23 = -9 ====-
-21 =- -7 =====
-19 == -5 =====-
-17 ==- -3 ======

-15 === -1 =====!
-13 ===-

ヘッドルームの XNUMX 秒間のピークホールド値が dB 単位で右側に表示されます。
これが 6dB 未満の場合はメーターを押してください。

このオプションは、SoX を使用してオーディオを再生または録音する場合、デフォルトで有効になります。

-T に相当 - 混ぜる 掛ける.

--temp DIRECTORY
一時ファイルが指定された場所に作成されるように指定します。 DIRECTORY。 この
デフォルトで権限や空き領域に問題がある場合に役立ちます。
位置。 この場合、`を使用すると、--temp .' (現在のディレクトリを使用する) は、多くの場合、
良い解決策。

- バージョン
SoX のバージョン番号を表示して終了します。

-V[レベル]
冗長性を設定します。 これは、自動エフェクトがどのように機能するかを確認するのに特に役立ちます。
SoX によって呼び出されています。

SoX は、次の詳細度に従ってコンソール (stderr) にメッセージを表示します。
レベル:

0 メッセージはまったく表示されません。 終了ステータスを使用してエラーかどうかを判断します
発生しました。

1 エラーメッセージのみが表示されます。 これらは、SoX が完了できない場合に生成されます
要求されたコマンド。

2 警告メッセージも表示されます。 これらは、SoX が完了できる場合に生成されます
要求されたコマンドですが、要求されたコマンドと正確には一致していません
パラメータ、またはクリッピングが発生したかどうか。

3 SoX の処理フェーズの説明も示されています。 見るのに便利
SoX がオーディオをどのように処理しているかを正確に確認できます。

4以上
SoX のデバッグに役立つメッセージも表示されます。

デフォルトでは、冗長レベルは 2 (エラーと警告を表示) に設定されています。 各
の発生 -V オプションを使用すると、冗長レベルが 1 ずつ増加します。
詳細レベルは、直後に指定することで絶対数値に設定できます。
  -V、例えば -V0 それを 0 に設定します。

入力 File オプション
これらのオプションは入力ファイルにのみ適用され、入力ファイル名のみより前に置くことができます。
コマンドライン。

--ignore-length
オーディオ ファイルのヘッダーに指定された (間違った) オーディオの長さをオーバーライドします。 これなら
オプションが指定されている場合、SoX は音声の最後に達するまで音声を読み続けます。
入力ファイル。

-v, - 音量 因子
このオプションは、複数の入力ファイルを結合するときに使用することを目的としており、
コマンドラインで後続するファイルのボリュームを係数で指定します。 因子。 この
他の入力ファイルとのバランスを保つことができます。 これは直線的です
(振幅) 調整なので、1 未満の数値を指定すると音量が下がり、数値が小さくなります。
1 より大きいと増加します。 負の数が指定された場合は、それに加えて、
音量を調整すると、音声信号が反転されます。

参照してください ノルム, vol, 利得 効果を確認してください 入力 File バランシング 上記。

入力 & 出力 File フォーマット オプション
これらのオプションは、名前の直前にある入力ファイルまたは出力ファイルに適用されます。
コマンド ラインであり、主にヘッダーのないファイル形式を操作する場合、または次の場合に使用されます。
入力ファイルとは異なる形式を出力ファイルに指定する。

-b BITS, -ビット BITS
エンコードされたそれぞれのビット数 (ビット深度、場合によってはワード長とも呼ばれます)
サンプル。 MP3 や GSM などの複雑なエンコードには適用されません。 必要はありません
A/μ-law、ADPCM など、固定ビット数を持つエンコーディングを使用します。

入力ファイルの場合、このオプションの最も一般的な使用法は、SoX に
「生」 (「ヘッダーなし」) オーディオ ファイルのサンプルあたりのビット数。 例えば
sox -r 16k -e signed -b 8 入力.生出力.wav
特定の「raw」ファイルを自己記述型の「WAV」ファイルに変換します。

出力ファイルの場合、このオプションを使用できます (おそらく、 -e)を設定するには
出力エンコードサイズ。 デフォルトでは (つまり、このオプションが指定されていない場合)、出力は
エンコード サイズは (出力ファイルの種類でサポートされている場合) に設定されます。
入力エンコードサイズ。 例えば
sox 入力.cdda -b 24 出力.wav
RAW CD デジタル オーディオ (16 ビット、符号付き整数) を 24 ビット (符号付き整数) に変換します。
「WAV」ファイル。

-1/-2/-3/-4/-8
各エンコードされたサンプルのバイト数。 非推奨のエイリアス -b 8, -b 16, -b
24, -b 32, -b 64

-c チャンネル, -チャネル チャンネル
オーディオ ファイル内のオーディオ チャネルの数。 これより大きい任意の数値を指定できます
ゼロ。

入力ファイルの場合、このオプションの最も一般的な使用法は、SoX に
「生」 (「ヘッダーなし」) オーディオ ファイル内のチャンネルの数。 場合によっては、そうかもしれません
をオーバーライドするために、「ヘッダー付き」ファイルでこのオプションを使用すると便利です。
ヘッダー内の (おそらく正しくない) 値 - これはでのみサポートされていることに注意してください。
特定のファイルタイプ。 例:
sox -r 48k -e float -b 32 -c 2 入力.生出力.wav
特定の「raw」ファイルを自己記述型の「WAV」ファイルに変換します。
再生 -c 1 music.wav
ファイルデータが何であるかに関係なく、単一のチャネルに属するものとして解釈します。
ファイルヘッダーに示されます。 ファイルに実際には XNUMX つのファイルがある場合に注意してください。
これにより、ファイルは半分の速度で再生されます。

出力ファイルの場合、このオプションは、
チャンネル (必要に応じて) の数を変更するには、エフェクトを呼び出す必要があります。
オーディオ信号のチャンネルを指定された番号に変換します。 例えば、以下の2つ
コマンドは同等です。
sox 入力.wav -c 1 出力.wav ベース -b 24
sox 入力.wav 出力.wav ベース -b 24 チャンネル 1
ただし、XNUMX 番目の形式はエフェクトを順序付けできるため、より柔軟です。
任意に。

-e エンコーディング, - エンコーディング エンコーディング
オーディオエンコーディングタイプ。 以上をサポートするファイルタイプで必要になる場合があります。
XNUMX つのエンコーディング タイプ。 たとえば、raw、WAV、または AU の場合 (ただし、たとえば、
MP3 または FLAC)。 利用可能なエンコードタイプは次のとおりです。

符号付き整数
PCM データは符号付き (「XNUMX の補数」) 整数として保存されます。 一般的に使用されるのは
16 ビットまたは 24 ビットのエンコード サイズ。 値 0 は最小信号を表します
パワー。

符号なし整数
PCM データは符号なし整数として保存されます。 一般的に 8 ビットエンコーディングで使用されます
サイズ。 値 0 は最大信号パワーを表します。

浮動小数点
IEEE 753 単精度 (32 ビット) または倍精度として保存された PCM データ
(64 ビット) 浮動小数点 (「実数」) 数値。 値 0 は最小値を表します
信号電力。

法律 8 ビットあたりの対数符号化のための国際電話標準
サンプル。 約13ビットPCMと同等の精度を持ち、
逆のビット順序でエンコードされる場合があります ( -X オプション)。

法則、 ミュー法
8 ビットあたりの対数エンコーディングのための北米の電話標準
サンプル。 通称μ-law。 約14ビットPCMと同等の精度を持ちます。
また、逆のビット順序でエンコードされることもあります ( -X オプション)。

沖-adpcm
OKI (別名 VOX、Dialogic、または Intel) 4 ビット ADPCM。 それは精度を持っています
約 12 ビット PCM に相当します。 ADPCM はオーディオ圧縮形式の XNUMX つで、
オーディオ品質とエンコード/デコード速度の間で適切な妥協点があります。

ima-adpcm
IMA (別名 DVI) 4 ビット ADPCM。 およそと同等の精度があります
13ビットPCM。

ms-adpcm
Microsoft 4 ビット ADPCM。 およそ 14 ビット PCM と同等の精度があります。

GSM フルレート
GSM は現在、世界中のデジタル無線の大部分に使用されています。
電話。 ビットレートの異なる複数のオーディオ形式を利用します
およびそれに関連する音声品質。 SoX は GSM のオリジナル 13kbps をサポートしています
「フルレート」オーディオ形式。 通常、GSM を使用すると CPU に負荷がかかります
オーディオ。

曖昧にならない場合は、エンコーディング名を省略できます。 例えば
「unsigned-integer」は「un」として指定できますが、「u」としては指定できません(「u-law」とあいまいです)。

入力ファイルの場合、このオプションの最も一般的な使用法は、SoX に
「生」 (「ヘッダーなし」) オーディオ ファイルのエンコード (次の例を参照) -b-c
上記)。

出力ファイルの場合、このオプションを使用できます (おそらく、 -b)を設定するには
出力エンコードタイプの例
sox input.cdda -e float Output1.wav

sox 入力.cdda -b 64 -e float 出力 2.wav
RAW CD デジタル オーディオ (16 ビット、符号付き整数) を浮動小数点の「WAV」ファイルに変換します。
(それぞれ単精度と倍精度)。

デフォルトでは (つまり、このオプションが指定されていない場合)、出力エンコーディング タイプは
(出力ファイルの種類でサポートされている場合) 入力エンコーディングに設定される
タイプ。

-s/-u/-f/-A/-U/-o/-i/-a/-g
エンコードタイプを指定するための非推奨のエイリアス 符号付き整数, 署名なし-
整数, 浮動小数点, 法律, ミュー法, 沖-adpcm, ima-adpcm, ms-adpcm, gsm-フル-
それぞれ(参照 -e 上記)。

--グロブなし
ファイル名の「グロビング」(ワイルドカード一致) が実行されないことを指定します。
SoX は次のファイル名にあります。 たとえば、現在のディレクトリに
XNUMX つのファイル「five-seconds.wav」と「five*.wav」、そして
play --no-glob "five*.wav"
単一ファイル「five*.wav」だけを再生するために使用できます。

-NS、 - 割合 レート[k]
ファイルのサンプルレートを Hz (または「k」が付加されている場合は kHz) で示します。

入力ファイルの場合、このオプションの最も一般的な使用法は、SoX に
「生」 (「ヘッダーなし」) オーディオ ファイルのサンプル レート (次の例を参照) -b-c
その上)。 場合によっては、「ヘッダー付き」ファイルでこのオプションを使用すると便利な場合があります。
ヘッダー内の (おそらく正しくない) 値をオーバーライドするには、次の点に注意してください。
これは特定のファイル タイプでのみサポートされます。 たとえば、音声が録音されている場合
たとえば 48% など、少し再生されたソースからのサンプルレートが 1.5k の場合、
遅すぎると、
sox -r 48720 入力.wav 出力.wav
ファイルヘッダーのみを変更することで速度を効果的に補正します (ただし、
スピード この問題のより一般的な解決策として効果があります)。

出力ファイルの場合、このオプションは、
(必要に応じて) サンプルレートを変更するには、エフェクトを呼び出す必要があります。
オーディオ信号を指定された値に設定します。 たとえば、次の XNUMX つのコマンドは次のとおりです。
同等:
sox 入力.wav -r 48k 出力.wav ベース -b 24
sox 入力.wav 出力.wav ベース -b 24 レート 48k
ただし、XNUMX 番目の形式はより柔軟です。 与えられる選択肢、そして
エフェクトを任意に順序付けできます。

-t, - タイプ ファイルの種類
音声ファイルの種類を示します。 入力ファイルと出力ファイルの両方の場合、このオプションは次のようになります。
SoX に「ヘッダーなし」オーディオ ファイルのタイプ (生、mp3 など) を通知するために一般的に使用されます。
ここで、実際の/必要なタイプは、指定されたファイル名拡張子からは判断できません。
例:
別のコマンド | sox -t mp3 - 出力.wav

sox input.wav -t raw Output.bin
また、入力ファイル名拡張子によって暗示されるタイプをオーバーライドするために使用することもできます。
ただし、ヘッダーを持つ型でオーバーライドする場合、SoX は適切なエラーで終了します。
そのようなヘッダーが実際には存在しない場合は、エラー メッセージが表示されます。

見る ソックスフォーマット(7) サポートされているファイル タイプのリストを参照してください。

-L, -エンディアン 少し
-B, -エンディアン ビッグ
-x, -エンディアン swap
これらのオプションは、オーディオ データのバイトオーダーがそれぞれ次であるかどうかを指定します。
「リトル エンディアン」、「ビッグ エンディアン」、または SoX が動作するシステムの逆
使用されています。 エンディアンは浮動小数点としてエンコードされたデータにのみ適用されます。
16 ビット以上の符号付きまたは符号なし整数。 指定する必要がある場合が多い
ヘッダーなしファイル用のこれらのオプションの XNUMX つであり、場合によっては (それ以外の場合) 必要になります。
自己記述型ファイル。 指定されたエンディアン設定オプションは入力に対して無視される場合があります
ヘッダーに特定のエンディアン識別子が含まれるファイル、または出力ファイルの場合
それは実際にはオーディオデバイスです。

N.B. 他のフォーマット特性とは異なり、エンディアンネス (バイト、ニブル、ビット)
入力ファイルの順序付け) は、出力ファイルには自動的には使用されません。 それで、のために
たとえば、リトル エンディアン システムで次のコマンドを実行すると、次のようになります。
sox -B audio.s16 トリミング.s16 トリミング 2
rimmed.s16 はリトルエンディアンとして作成されます。
sox -B audio.s16 -B トリム.s16 トリム 2
出力ファイルでビッグエンディアンを保持するには、これを使用する必要があります。

この -V オプションを使用して、選択した順序を確認できます。

-N, --reverse-nibbles
サンプルのニブル順序 (つまり、バイトの 2 つの半分) を指定します。
逆にすべきです。 ADPCM ベースの形式で役立つ場合があります。

N.B. のセクションの「NB」も参照してください。 -x 上記。

-X, --reverse-bits
サンプルのビット順序を逆にすることを指定します。 時々役に立つ
いくつかの (ほとんどがヘッダーなし) 形式で。

N.B. のセクションの「NB」も参照してください。 -x 上記。

出力 File フォーマット オプション
これらのオプションは出力ファイルにのみ適用され、出力ファイル名のみの前に置くことができます。
コマンドライン。

- コメントを追加 TEXT
出力ファイルのヘッダーにコメントを追加します (該当する場合)。

- コメント TEXT
出力ファイルのヘッダーに保存するコメント テキストを指定します (該当する場合)。

このオプション (または --コメントファイル)は与えられません。
出力ファイルにコメントを保存しないように指定するには、次を使用します。 - コメント "" .

--コメントファイル ファイル名
出力ファイルのヘッダーに保存するコメント テキストを含むファイルを指定します
(該当する場合)。

-C, - 圧縮 因子
出力ファイル形式を可変圧縮するための圧縮率。 これなら
オプションが指定されていない場合は、デフォルトの圧縮率が適用されます。 圧縮
係数は、圧縮ファイル形式によって解釈が異なります。 を参照してください。
このオプションを使用するファイル形式の説明 ソックスフォーマット(7)詳細
情報を表示します。

影響


SoX は、オーディオ ファイルの変換、再生、録音に加えて、
オーディオの「エフェクト」の数。 複数のエフェクトを後で指定することで適用できます。
もう XNUMX つは SoX コマンド ラインの最後にあり、「エフェクト チェーン」を形成します。 ご了承ください
複数のエフェクトをリアルタイム (つまり、オーディオの再生時) で適用するには、
高性能コンピューター。 他のアプリケーションを停止すると、パフォーマンスの問題が軽減される可能性があります
それらが発生した場合。

SoX エフェクトの一部は、主に XNUMX つの楽器または単一の楽器に適用することを目的としています。
「声」。 これを容易にするために、 リミックス 効果とグローバル SoX オプション -M に使用することができます
マルチトラック録音からトラックを分離し、再結合します。

複数 エフェクト チェーン
単一のエフェクト チェーンは XNUMX つ以上のエフェクトで構成されます。 入力からの音声が流れます
入力ファイルの終わりに達するか、エフェクト内のエフェクトに到達するまで、チェーンを介して
chain はチェーンの終了を要求します。

SoX は、入力オーディオ上で複数のエフェクト チェーンを実行することをサポートしています。 この場合、XNUMX つのとき、
チェーンはオーディオの処理が完了したことを示し、オーディオ データは次のチェーンに送信されます。
エフェクトチェーン。 これは、エフェクト チェーンが存在しなくなるか、入力がなくなるまで続きます。
ファイルの終わりに達しました。

エフェクトチェーンは、 : (コロン) エフェクトの後。 以下のいずれか
エフェクトは新しいエフェクト チェーンの一部です。

チェーンを止める効果を最初の効果として配置することが重要です。
鎖。 これは、サンプルがエフェクトの左側にバッファリングされているためです。
終了効果は破棄される。 廃棄されたサンプルの量は、
- バッファ オプションを使用し、サンプル レートに比べて小さい値に保つ必要があります。
終了効果を先に置くことはできません。 効果の停止に関する詳細情報はこちらをご覧ください。
会場は 停止 ソックス のセクションから無料でダウンロードできます。

複数のエフェクト チェーンの使用を支援する疑似エフェクトがいくつかあります。 これらには以下が含まれます
新しいファイル これにより、次のエフェクトに移動する前に、新しい出力ファイルへの書き込みが開始されます。
チェーンと 再起動 これにより、最初のエフェクト チェーンに戻ります。 疑似効果は次のようにする必要があります。
チェーン内の最初のエフェクトとして、およびチェーン内の唯一のエフェクトとして指定されます (それらは
a : それらが指定される前後)。

以下は複数のエフェクト チェーンの例です。 入力ファイルを次のように分割します。
長さ 30 秒の複数のファイル。 各出力ファイル名には固有の番号が付けられます。
その名前は、 出力 のセクションから無料でダウンロードできます。
sox infile.wav Output.wav トリム 0 30 : 新しいファイル : 再起動

コマンドと 表記法 Parameters
以下の説明では、括弧 [ ] はパラメータを示すために使用されます。
オプション、中括弧 { } はオプションであり繰り返し可能であることを示します。
括弧 < > は、反復可能だがオプションではないものを示します。 該当する場合、
オプションのパラメータのデフォルト値は括弧 ( ) 内に示されています。

次のパラメータは、いくつかのエフェクトで使用され、同じ意味を持ちます。

センター[k]
見る 周波数.

周波数[k]
周波数 (Hz)、または「k」が追加されている場合は kHz。

利得 dB単位のパワーゲイン。 ゼロでは利益は得られません。 ゼロより小さい場合は減衰します。

[h|k|o|q]
フィルターの帯域幅を指定するために使用されます。 さまざまな方法で
幅を指定することができます (ただし、すべてのエフェクトですべてが使用できるわけではありません)。 一つ
表示されている文字を追加して、次のように目的の方法を選択できます。

方法 Notes
h Hz
k kHzの
o オクターブ
q Q ファクター [2] を参照

このパラメータを使用するエフェクトごとに、デフォルトのメソッド (つまり、文字が存在しない場合)
が追加されます) は、エフェクトの最初の行に最初にリストされているものです。
説明。

SoX がオプションのエフェクトをサポートしているかどうかを確認するには、次のように入力します。 ソックス -h その名前を探します
リスト:「エフェクト」。

サポート エフェクト
注: エフェクトの分類されたリストは、付属の「README」ファイルに記載されています。

オールパス 周波数[k] [h|k|o|q]
中心周波数(Hz)のXNUMX極オールパスフィルターを適用します 周波数,
フィルタ幅 。 オールパスフィルターはオーディオの周波数を位相に変更します。
周波数と振幅の関係を変更せずに関係を構築します。 フィルター
詳細は[1]で説明されています。

この効果は、 - プロット グローバルオプション。

バンド [-n] センター[k] [[h|k|o|q]]
バンドパスフィルターを適用します。 周波数応答は、周囲で対数的に低下します。
センター 周波数。 の パラメータはドロップの傾きを与えます。 の
の周波数 センター + センター - 元の半分になります
振幅。 バンド デフォルトでは、ピッチのあるオーディオ、つまり音声を重視したモードになります。
歌とか器楽とか。 の -n (ノイズ用) オプションは代替モードを使用します
ピッチのないオーディオ (パーカッションなど) 用。 警告: -n のパワーゲインが導入されます
フィルターでは約 11dB なので、出力クリッピングに注意してください。 バンド にノイズが入り込む
フィルターの形状、すなわちピークで センター 周波数と落ち着き
ボーマンは

この効果は、 - プロット グローバルオプション。

参照 シンク より急な肩を持つバンドパス フィルターの場合。

バンドパス|帯域拒否 [-c] 周波数[k] [h|k|o|q]
中心周波数を使用して XNUMX 極バターワース バンドパス フィルターまたはバンド リジェクト フィルターを適用します。
周波数、および (3dB ポイント) 帯域幅 を選択します。 -c オプションは以下にのみ適用されます
バンドパス そして、デフォルトの代わりに一定のスカート ゲイン (ピーク ゲイン = Q) を選択します。
一定の 0dB ピークゲイン。 フィルターはオクターブあたり 6dB (20 年あたり XNUMXdB) でロールオフします。
詳細については[1]で説明されています。

これらの効果は、 - プロット グローバルオプション。

参照 シンク より急な肩を持つバンドパス フィルターの場合。

帯域拒否 周波数[k] [h|k|o|q]
帯域拒否フィルターを適用します。 の説明を参照してください。 バンドパス に対する効果
詳細。

ベース|高音域 利得 [周波数[k] [[s|h|k|o|q]]]
オーディオの低音 (低音) または高音 (高音) 周波数をブーストまたはカットします。
標準的なハイファイの応答と同様の応答を持つ XNUMX ポールシェルビングフィルター
トーンコントロール。 これはシェルビングイコライゼーション (EQ) とも呼ばれます。

利得 0 Hz でのゲインを与えます ( ベース)、または 〜22 kHz のいずれか低い方、および
ナイキスト周波数 ( 高音域)。 有効範囲は約 -20 (大型の場合)
カット)から+20(大きなブーストの場合)。 気づく クリッピング ポジティブを使うとき 利得.

必要に応じて、次のオプションのパラメータを使用してフィルタを微調整できます。

周波数 フィルターの中心周波数を設定するため、拡張または拡張に使用できます。
ブーストまたはカットする周波数範囲を減らします。 デフォルト値は 100 Hz (
ベース) または 3 kHz ( 高音域).

フィルターのシェルフ遷移の急勾配を決定します。 に加えて、
上で説明した一般的な幅指定方法、「slope」(デフォルト、または
` が追加されたs') が使用される場合があります。 「slope」の有用な範囲は約 0.3 です。
緩やかな傾斜、急な傾斜の場合は 1 (最大)。 デフォルト値は 0.5 です。

フィルターについては、[1] で詳しく説明されています。

これらの効果は、 - プロット グローバルオプション。

参照 イコライザ ピーキングイコライゼーションエフェクト用。

曲げる [-f フレームレート(25)][-o オーバーサンプル(16)] { 遅らせる,セント,デュレーション }
指定した時刻に指定した量だけピッチを変更します。 与えられた各トリプル:
遅らせる,セント,デュレーション XNUMX つの曲げを指定します。 遅らせる 後の時間です
オーディオ ストリームの開始点、または前のベンドの終了点 (開始位置)
ピッチを曲げる。 セント はセント数 (100 セント = 1 半音) です。
ピッチを曲げる、そして デュレーション ピッチが続く時間の長さ
あります。

ピッチベンドアルゴリズムは、離散フーリエ変換 (DFT) を利用します。
特定のフレーム レートとオーバーサンプリング レート。 の -f-o パラメータを使用することもできます
を使用してこれらのパラメータを調整し、ピッチの変化の滑らかさを制御します。

たとえば、最初のトーンが生成され、その後 XNUMX 回曲げられ、XNUMX つのトーンが得られます。
合計で異なるノート:
play -n シンセ 2.5 sin 667 ゲイン 1
bend .35,180,.25 .15,740,.53 0,-520,.3
この例で生成されるクリッピングは意図的なものであることに注意してください。 削除する
それ、使って 利得 -5 代わりに 利得 1.

参照 ピッチ.

バイクアッド b0 b1 b2 a0 a1 a2
指定された係数を使用してバイクワッド IIR フィルターを適用します。 ここで、b* と a* は
それぞれ分子と分母の係数。

見る http://en.wikipedia.org/wiki/Digital_biquad_filter (a0 = 1)。

この効果は、 - プロット グローバルオプション。

チャンネル チャンネル
単純なアルゴリズムを呼び出して、オーディオ信号のチャネル数を次のように変更します。
与えられた数 チャンネル: チャンネル数を減らす場合のミキシング、または
チャネル数を増やす場合は複製します。

この チャンネル SoX の場合、エフェクトは自動的に呼び出されます。 -c オプションで数値を指定します
入力ファイルのチャンネルとは異なるチャンネルの数。 あるいは、これであれば、
効果が明示的に与えられている場合、SoX の -c オプションを与える必要はありません。 例えば、
次の XNUMX つのコマンドは同等です。
sox 入力.wav -c 1 出力.wav ベース -b 24
sox 入力.wav 出力.wav ベース -b 24 チャンネル 1
ただし、XNUMX 番目の形式はエフェクトを順序付けできるため、より柔軟です。
任意に。

参照 リミックス チャンネルを任意にミックス/選択できるエフェクト。

コー​​ラス ゲインイン ゲインアウト <遅らせる 崩壊 スピード 深さ -s|-t>
オーディオにコーラス効果を追加します。 これにより、単一のボーカルが次のように聞こえる可能性があります。
コーラスだけでなく、楽器編成にも適用できます。

コーラスは短い遅延を伴うエコー効果に似ていますが、エコーの場合は遅延が大きくなります。
は一定ですが、コーラスがある場合は、正弦波または三角波変調を使用して変化します。
モジュレーションの深さは、モジュレーションされたディレイがその前に再生される範囲を定義します。
遅延後。 したがって、遅延したサウンドは遅くなったり速く聞こえたりします。
一部のボーカルがコーラスなどでオリジナルのサウンドを中心に調整されたディレイサウンド
キーが少しずれています。 コーラス効果の詳細については、[3] を参照してください。

XNUMX つのタプルの各パラメーターの遅延/減衰/速度/深度は、遅延をミリ秒単位で示します。
およびデプスを使用した Hz 単位の変調速度による減衰 (ゲインインに対する)
ミリ秒。 変調は正弦波 (-s) または三角 (-t)。 得-
out は出力のボリュームです。

一般的な遅延は約 40 ミリ秒から 60 ミリ秒です。 変調速度は0.25Hz付近が最適です
変調深さは約2msです。 たとえば、単一の遅延の場合は次のようになります。
ギターを弾く 1.wav コーラス 0.7 0.9 55 0.4 0.25 2 -t
オリジナルサンプルの XNUMX つの遅延:
ギターを弾く 1.wav コーラス 0.6 0.9 50 0.4 0.25 2 -t
60 0.32 0.4 1.3 -s
より充実したサウンドのコーラス (XNUMX つの追加ディレイを追加):
ギターを弾く 1.wav コーラス 0.5 0.9 50 0.4 0.25 2 -t
60 0.32 0.4 2.3 -t 40 0.3 0.3 1.3 -s

コンパンド 攻撃1,減衰1{,攻撃2,減衰2}
[ソフトニーdB:]イン dB1[,出力 dB1]{,イン dB2,出力 dB2}
[利得 [初期音量 dB [遅らせる]]]

オーディオのダイナミックレンジをコンパンド(圧縮または拡張)します。

この 攻撃崩壊 パラメータ (秒単位) によって、
入力信号の瞬時レベルが平均化されて、その音量が決定されます。
アタックは音量の増加を指し、ディケイは音量の減少を指します。 ほとんどの人にとって
状況に応じて、アタックタイム(音楽が大きくなるときの応答)は次のようにする必要があります。
人間の耳は突然の大音量に敏感であるため、減衰時間よりも短くなります。
突然の柔らかい音楽よりも音楽。 アタック/ディケイパラメータのペアが複数ある場合
が指定されている場合、各入力チャンネルは個別に圧縮され、ペアの数は
入力チャンネル数と一致する必要があります。 典型的な値は次のとおりです。 0.3,0.8 秒です。

XNUMX 番目のパラメータは、コンパンダの伝達関数上の点のリストです。
可能な最大信号振幅を基準とした dB 単位で指定されます。 入力
値は厳密に増加する順序でなければなりませんが、伝達関数はそうではありません
単調に上昇する必要があります。 省略した場合、の値は 出力 dB1 デフォルトは
と同じ値 イン dB1; 以下のレベル イン dB1 コンパンデッドではありません(ただしゲインはあるかもしれません)
それらに適用されます)。 ポイント 0,0 が想定されていますが、オーバーライドされる可能性があります ( 0,出力 dBn).
リストの前に ソフトニーdB 値、次に隣接する点
伝達関数を満たす線分は指定された量で丸められます。
伝達関数の一般的な値は次のとおりです。 6:-70、-60、-20.

XNUMX 番目の (オプション) パラメーターは、適用される追加ゲイン (dB 単位) です。
伝達関数上のポイントを調整し、全体のゲインを簡単に調整できます。

XNUMX 番目の (オプション) パラメーターは、各チャンネルで想定される初期レベルです。
コンパンディングが開始されるとき。 これにより、ユーザーは最初に公称レベルを指定できます。
たとえば、初期信号レベルに非常に大きなゲインが適用されないようにします。
圧伸動作が動作し始める前: おそらく、
このようなイベントが発生すると、コンパンダのゲインが上昇している間に出力が大幅にクリップされてしまいます。
適切に調整します。 典型的な値 (最初は静かなオーディオの場合) は次のとおりです。
-90 dB。

XNUMX 番目の (オプション) パラメータは秒単位の遅延です。 入力信号を解析します
すぐにコンパンダーを制御しますが、コンパンダーに供給されるまでに遅れます。
ボリュームアジャスター。 アタック/ディケイタイムにほぼ等しい遅延を指定する
コンパンダーが、「予測」ではなく「予測」で効果的に動作できるようになります。
リアクティブモード。 典型的な値は次のとおりです。 0.2 秒です。

* * *

次の例は、静かな音と静かな音の両方を備えた音楽を作成するために使用できます。
移動中などの騒がしい環境でのリスニングに適した大音量のパッセージ
車両:
sox asz.wav asz-car.wav compand 0.3,1 6:-70,-60,-20 -5 -90 0.2
伝達関数 (「6:-70,...」) は、非常に小さな音 (-70dB 未満) が、
変わらないまま。 これにより、コンパンダーによるボリュームのブーストが停止されます。
楽章の間などの「静かな」パッセージ。 ただし、-60dB~-XNUMXdBの範囲の音は聞こえます。
0dB(最大音量)がブーストされ、オリジナルの60dBのダイナミックレンジが向上します。
音楽は 3 対 1 で 20dB の範囲に圧縮され、楽しむのに十分な幅になります。
音楽は聞こえますが、ロードノイズを回避するには十分な幅です。 「6:」は 6dB を選択します
ソフトニーコンパンディング。 -5 (dB) 出力ゲインは、クリッピングを避けるために必要です (
数値は不正確であり、実験によって導出されました)。 -90 (dB)
初期ボリュームは、ほぼ無音で始まるクリップでは問題なく機能します。
0.2 (秒) の遅延は、コンパンダーの反応をもう少し大きくする効果があります。
突然の音量変化にも素早く対応します。

次の例では、ノイズが次のレベルにある場合のノイズ ゲートとしてコンパンドが使用されています。
信号よりも低いレベル:
infile コンパンドの再生 .1,.2 -inf,-50.1,-inf,-50,-50 0 -90 .1
これは別のノイズ ゲートです。今回は、ノイズが次のレベルより高い場合に使用します。
信号 (ある意味スケルチに似ています):
infile コンパンドの再生 .1,.1 -45.1,-45,-inf,0,-inf 45 -90 .1
この効果は、 - プロット グローバル オプション (伝達関数用)。

参照 mcompand マルチバンドのコンパンディング効果用。

コントラスト [強化量(75)]
圧縮と同様に、このエフェクトはオーディオ信号を変更して聞こえるようにします。
より大きな声で。 強化量 強化の量を制御する数値です
0 ~ 100 の範囲で指定します。 ご了承ください 強化量 = 0 でも有意な結果が得られます
コントラストの強調。

参照してください コンパンドmcompand 効果。

DCシフト シフト [リミッターゲイン]
オーディオに DC シフトを適用します。 これは、DC オフセット (原因となる) を除去するのに役立ちます。
おそらく録音チェーンのハードウェアの問題により) オーディオから。 の効果
DC オフセットが大きいとヘッドルームが減少し、したがって音量が減少します。 の STAT or 統計情報 効果ができる
信号に DC オフセットがあるかどうかを判断するために使用されます。

与えられた DCシフト value は、±2 の範囲の浮動小数点数です。
オーディオをシフトする量を示します (±1 の範囲)。

オプション リミッターゲイン も指定できます。 値ははるかに小さいはずです
1 よりも大きく (例: 0.05 または 0.02)、クリッピングを防ぐためにピークにのみ使用されます。

* * *

DC オフセットを (短い遅延ではあるが) 除去する別のアプローチは、次のとおりです。
使用 ハイパス 図に示すように、たとえば 10Hz の周波数でのフィルタ効果
次の例:
sox -n dc.wav シンセ 5 sin %0 50
sox dc.wav fixed.wav ハイパス 10

ディエンフ コンパクト ディスク (IEC 60908) ディエンファシス (高音減衰シェルビング フィルター) を適用します。

1980 年代初頭に発行された一部の CD のマスタリングでは、プリエンファシスが適用されました。
これらには、多くのクラシック音楽のアルバムだけでなく、今人気の雑誌も含まれていました。
ビートルズ、ピンク・フロイドなどのアルバム。 プリエンファシスは次の時点で削除する必要があります。
再生機器のディエンファシスフィルターによる再生時間。 ただし、すべてではありません
最近の CD プレーヤーにはこのフィルターが付いていますが、PC の CD ドライブにはこのフィルターが付いているものはほとんどありません。 プレプレイ
適切なディエンファシス フィルターを使用せずに強調されたオーディオを使用すると、次のようなオーディオが生成されます。
厳しいように聞こえますし、作成者の意図とは程遠いものです。

ディエンフ エフェクトを使用すると、オーディオに必要なディエンファシスを適用できます。
プリエンファシスされた CD から抽出されたものを、デエンファシスされた CD に書き込むか、
強調されたオーディオを新しい CD に保存します (その後、どの CD プレーヤーでも正しく再生されます)、または
正しくディエンファシスされたオーディオ ファイルを PC 上で再生するだけです。 例えば:
ソックス track1.wav track1-deemph.wav deemph
そして、track1-deemph.wav を CD に書き込むか、
track1-deemph.wav を再生します
または単に
track1.wav を再生します
ディエンファシス フィルターはバイクワッドとして実装されます。 からの最大偏差
理想的な応答はわずか 0.06dB (20kHz まで) です。

この効果は、 - プロット グローバルオプション。

参照してください ベース高音域 シェルビングイコライゼーションエフェクト。

遅らせる {長さ}
XNUMXつまたは複数のオーディオチャネルを遅延させます。 長さ 時刻を指定することも、付加されている場合は、
`s'、サンプルの数。 時間遅延とサンプル遅延の両方を指定しないでください。
同じコマンドです。 例えば、 遅らせる 1.5 0 0.5 最初のチャンネルを 1.5 遅らせます
秒、0.5 番目のチャネルは XNUMX 秒ずつ進み、XNUMX 番目のチャネル (および任意のチャネル) から離れます。
存在する可能性のある他のチャネル) は遅延されません。 次の (XNUMX つの長い) コマンド
チャイム音を鳴らします:
play -n synth -j 3 sin %3 sin %-2 sin %-5 sin %-9
sin %-14 sin %-21 フェード h .01 2 1.5 ディレイ
1.3 1 .76 .54 .27 リミックス - フェード h 0 2.7 2.5 ノルム -1
これでギターのコードが演奏されます。
再生 -n シンセ pl G2 pl B2 pl D3 pl G3 pl D4 pl G4
ディレイ 0 .05 .1 .15 .2 .25 リミックス - フェード 0 4 .1 ノルム -1

ディザ [-S|-s|-f filter ] [-a] [-p 精度]
オーディオにディザリングを適用します。 ディザリングは意図的に少量のノイズを追加します
場合に発生する可能性のある可聴量子化効果をマスクするために信号に追加します。
出力サンプル サイズが 24 ビット未満です。 オプションを指定しないと、この効果が追加されます。
三角波 (TPDF) ホワイト ノイズ。 ノイズシェーピング (特定のサンプルレートのみ)
で選ばれる -s。 とともに -f オプションでは、特定のものを選択することができます
次のリストからのノイズシェーピング フィルター: lipshitz、f-weighted、modified-e-
加重、改良型 e-加重、ゲーゼマン、柴田、低柴田、高柴田。 ノート
ほとんどのフィルター タイプは 44100Hz のサンプル レートでのみ使用可能です。 フィルター
タイプは次の特性によって区別されます: 騒音の可聴性、騒音のレベル。
(聞こえないが、状況によっては問題がある) 整形された高周波
ノイズや処理速度など。
見る http://sox.sourceforge.net/SoX/NoiseShaping さまざまなノイズのグラフについては、
曲線を形作ること。

この -S このオプションは、より高い周波数に偏った、わずかに「傾斜した」TPDF を選択します。
任意のサンプリング レートで使用できますが、約 22k 未満ではプレーン TPDF の方がおそらく優れています。
≈ 37k を超えると、ノイズシェイプの方がおそらく優れています。

この -a オプションは、ディザリング (および該当する場合はノイズシェーピング) が有効なモードを有効にします。
必要な場合にのみ自動的に有効になります。 これが最もよく使用されるのは次のような場合です。
すでにディザリングされたファイルにフェードインまたはフェードアウトを適用すると、再ディザリングが
色あせた部分のみに適用されます。 ただし、自動ディザリングは確実ではありません。
フェードにノイズ変調がないか注意深くチェックする必要があります。 このようなことが起こった場合、
次に、ファイル全体を再ディザリングするか、次のいずれかを使用します。 トリム, フェード、連結します。

この -p オプションを使用すると、ターゲットの精度をオーバーライドできます。

SoX グローバル オプションの場合 -R オプションが指定されていない場合、擬似乱数
ホワイト ノイズの生成に使用されるジェネレーターは「再シード」されます。つまり、生成された
ノイズは呼び出しごとに異なります。

このエフェクトの後に、オーディオに影響を与える他のエフェクトを続けてはいけません。

上記の「ディザリング」セクションも参照してください。

ダウンサンプル [要因(2)]
信号を整数係数でダウンサンプリングします: 各信号の最初のみ 要因
サンプルは保持され、その他は破棄されます。

デシメーションフィルターは適用されません。 入力が適切に帯域制限されていない場合
ベースバンド信号ではエイリアシングが発生します。 これは、周波数などの点で望ましい場合があります。
翻訳。

アンチエイリアスを使用した一般的なリサンプリング効果については、を参照してください。 。 参照 アップサンプル.

耳垢 ヘッドフォンで音声を聞きやすくします。 44.1kHz ステレオに「キュー」を追加します (つまり、
オーディオ CD フォーマット)オーディオなので、ヘッドフォンで聴くとステレオ イメージが得られます。
頭の内側(ヘッドフォンの標準)から外側と前に移動します。
リスナー(スピーカーの標準)。

echo ゲインイン ゲインアウト <遅らせる 崩壊>
オーディオにエコーを追加します。 エコーは反射音であり、自然に発生する可能性があります
山(場合によっては大きな建物)の中で話したり叫んだりするとき。 デジタル
エコー効果はこの動作をエミュレートし、サウンドを埋めるためによく使用されます。
単一の楽器またはボーカルの。 元の信号間の時間差
反射は「遅延」(時間) であり、反射信号の大きさです。
それは「衰退」です。 複数のエコーには、異なる遅延と減衰が発生する可能性があります。

それぞれ与えられた 遅らせる 崩壊 ペアはミリ秒単位の遅延と減衰 (相対値) を示します。
そのエコーをゲインインします)。 ゲインアウトは出力の音量です。 例: これ
実際のXNUMX倍の楽器があるかのように聞こえます
再生:
リードを再生します。aiff エコー 0.8 0.88 60 0.4
遅延が非常に短い場合は、(金属的な) ロボットが音楽を演奏しているように聞こえます。
リードを再生します。aiff エコー 0.8 0.88 6 0.4
ディレイを長くすると、山の中の野外コンサートのように聞こえます。
リードを再生します。aiff エコー 0.8 0.9 1000 0.3
あと一つ山、そして:
リードを再生します。aiff エコー 0.8 0.9 1000 0.3 1800 0.25

エコー ゲインイン ゲインアウト <遅らせる 崩壊>
一連のエコーをオーディオに追加します。 各 遅らせる 崩壊 ペアは遅延を与えます
ミリ秒とそのエコーの減衰(ゲインインに対する)。 ゲインアウトとは、
出力の音量。

エコー効果と同様に、エコーは「ECHO in Sequel」の略で、最初のエコーです。
入力を受け取り、XNUMX 番目は入力と最初のエコー、XNUMX 番目は入力と
最初のエコーと XNUMX 番目のエコー、...というように続きます。 多用する場合は注意が必要
反響する。 単一のエコーは単一のエコーと同じ効果があります。

サンプルは対称エコーで XNUMX 回反射されます。
リードを再生します。aiff エコー 0.8 0.7 700 0.25 700 0.3
サンプルは非対称エコーで XNUMX 回反射されます。
リードを再生します。aiff エコー 0.8 0.7 700 0.25 900 0.3
サンプルはガレージで再生されているかのように聞こえます。
リードを再生します。aiff エコー 0.8 0.7 40 0.25 63 0.3

イコライザ 周波数[k] [q|o|h|k] 利得
XNUMX 極ピーキング等化 (EQ) フィルターを適用します。 このフィルターを使用すると、信号は
選択した周波数およびその周囲のレベルは増減できますが、
(バンドパスフィルターやバンドリジェクトフィルターとは異なり) 他のすべての周波数では
変更なし。

周波数 フィルターの中心周波数を Hz で与えます。 、帯域幅、および
利得 必要なゲインまたは減衰 (dB)。 気づく クリッピング 使用するとき
正の 利得.

複雑なイコライゼーション カーブを生成するために、このエフェクトにいくつかの効果を与えることができます。
それぞれ異なる中心周波数を持ちます。

フィルタについては [1] で詳しく説明されています。

この効果は、 - プロット グローバルオプション。

参照 ベース高音域 シェルビングイコライゼーションエフェクト用。

フェード [type] フェードインの長さ [停止時間 [フェードアウトの長さ]]
オーディオの先頭、末尾、または両方にフェード効果を適用します。

オプション type フェードカーブの形状を選択するために指定できます。 q for
正弦波の XNUMX 分の XNUMX、 h 半正弦波の間、 t 線形 (「三角形」) の勾配の場合、
l 対数の場合、および p 逆放物線の場合。 デフォルトは対数です。

フェードインは最初のサンプルから始まり、信号レベルが 0 から最大まで上昇します。
ボリュームオーバー フェードインの長さ 秒。 フェードインを必要としない場合は、0 秒を指定します。

フェードアウトの場合、オーディオは次の時点で切り詰められます。 停止時間 信号レベルは
から開始してフルボリュームから 0 まで徐々に下げることができます フェードアウトの長さ 数秒前
停止時間。 場合 フェードアウトの長さ が指定されていない場合は、デフォルトで次と同じ値になります。
フェードインの長さ。 以下の場合はフェードアウトは行われません。 停止時間 は指定されていません。 もし
ファイルの長さは、入力ファイルのヘッダーと長さの変更から決定できます。
効果は発揮されていないので、 0 に指定される場合があります 停止時間 を示すために
入力オーディオ ストリームの終わりで終了するフェードアウトの通常のケース。

すべての時間を期間またはサンプル数で指定できます。 指定します
期間には hh:mm:ss.frac 形式が使用されます。 サンプル数を使用して指定するには、
サンプル数を指定し、サンプル数に文字「s」を追加します(
例: `8000s')。

参照してください スプライス 効果。

モミ [coefs ファイル|係数]
指定された FIR フィルター係数で SoX の FFT 畳み込みエンジンを使用します。 シングルなら
引数が指定されている場合、これはフィルタを含むファイルの名前として扱われます。
係数 (空白で区切られ、「#」コメントが含まれる場合があります)。 与えられた場合
ファイル名が `-' であるか、引数が指定されていない場合、係数は次から読み取られます。
「標準入力」(stdin); それ以外の場合は、コマンドで係数を指定できます。
ライン。 例:
sox infile outfile fir 0.0195 -0.082 0.234 0.891 -0.145 0.043
sox infile outfile fir coefs.txt
coefs.txt に含まれる
# HPフィルター
# 頻度=10000
1.2311233052619888e-01
-4.4777096106211783e-01
5.1031563346705155e-01
-6.6502926320995331e-02
...

この効果は、 - プロット グローバルオプション。

フランジャー [遅らせる 深さ かき混ぜる スピード 形状 インタープ]
オーディオにフランジング効果を適用します。 の詳細な説明については、[3] を参照してください。
フランジ加工。

すべてのパラメータはオプションです (右から左へ)。

レンジ デフォルト 説明
遅らせる 0 - 30 0 ミリ秒単位の基本遅延。
深さ 0 - 10 2 ミリ秒単位のスイープ遅延を追加します。
かき混ぜる -95 - 95 0 再生率 (遅延)
信号フィードバック)。
0 ~ 100 71 遅延信号の混合率
オリジナル付き。
スピード 0.1 ~ 10 0.5 XNUMX 秒あたりのスイープ数 (Hz)。
形状 sin スイープ波形: 正弦|三角形.
0 - 100 25 掃引波の位相シフトの割合
マルチチャンネル用 (ステレオなど)
フランジ。 0 = 100 = 同相オン
各チャネル。
インタープ lin デジタル遅延線補間:
線形|二次.

利得 [-e|-B|-b|-r] [-n] [-l|-h] [ゲインdB]
オーディオ信号に増幅または減衰を適用します。場合によっては、オーディオ信号に増幅または減衰を適用します。
そのチャンネルの。 以下のいずれかを使用することに注意してください。 -e, -B, -b, -rまたは -n 一時的な必要がある
処理されるオーディオを保存するためのファイル スペースが必要なため、次の用途には適さない可能性があります。
「ストリーミング」オーディオ。

他の選択肢がなければ、 ゲインdB 信号パワーレベルを調整するために使用されます。
指定された dB 数: 正は増幅 (クリッピングに注意)、負は減衰します。
他のオプションを使用すると、 ゲインdB 増幅または減衰が(論理的に)適用されます
これらのオプションによる処理後。

与えられた -e オプションを使用すると、マルチチャンネル ファイルのオーディオ チャンネルのレベルは次のようになります。
「等化」、つまりゲインが最も高いチャンネル以外のすべてのチャンネルに適用されます。
すべてのチャンネルが同じピーク レベルに達するようなピーク レベル(ただし、
与え -n、オーディオは「正規化」されていません)。

この -B (バランス) オプションは次と同様です -eしかし、と -NS、 RMSレベルが使用されます
ピークレベルの代わりに。 -B 原因となるステレオの不均衡を修正するために使用される場合があります。
不完全なレコードターンテーブルカートリッジ。 とは異なることに注意してください -e, -B 何らかの原因となる可能性があります
クリッピング。

-b に似ています -B ただし、クリッピング保護機能があります。つまり、必要に応じて防止します。
バランスを取りながらクリッピングすると、減衰がすべてのチャンネルに適用されます。 ただし、注意してください。
それと併せて -n, -B-b は同義です。

この -r オプションは、以前の呼び出しと組み合わせて使用​​されます。 利得 -h
オプション - 詳細については以下を参照してください。

この -n オプションはオーディオを 0dB FSD に正規化します。 と組み合わせて使用​​されることが多いです
ネガティブ ゲインdB オーディオが特定のレベルに正規化されるという効果
0dB以下。 例えば、
sox infile outfile ゲイン -n
0dBに正規化され、
sox infile outfile ゲイン -n -3
-3dB に正規化されます。

この -l オプションは単純なリミッターを呼び出します。例:
sox infile outfile ゲイン -l 6
6dB のゲインを適用しますが、クリップすることはありません。 数 dB 以上を制限すると、
時々(音声の一部で)使用することは、聞こえなくなる可能性があるため推奨されません。
ねじれ。 を参照してください。 コンパンド より有能なリミッターのエフェクト。

この -h このオプションを使用してゲインを適用し、後続の処理のためのヘッドルームを提供します。
たとえば、
sox infile outfile ゲイン -h ベース +6
低音ブースト効果の前に 6dB の減衰が適用されるため、
クリップしないこと。 もちろん、低音の場合、どのくらいのヘッドルームが得られるかは明らかです。
必要ですが、他のエフェクト (レート、ディザなど) を使用すると、必ずしも明確になるとは限りません。
を使用することのもう一つの利点 利得 -h 明示的な減衰ではなく、
ヘッドルームは後続のエフェクトによって使用されず、次のコマンドで再利用できます。 利得 -r,
たとえば、次の
sox infile outfile ゲイン -h ベース +6 レート 44100 ゲイン -r
上記のエフェクト チェーンは、クリップや増幅が決してないことを保証します。 場合は減衰します
クリッピングを防ぐために必要ですが、そのために必要な量だけです。

出力フォーマット (ディザリングとビット深度の削減) にもヘッドルームが必要です (
「再利用」することはできません)、例:
sox infile outfile ゲイン -h ベース +6 レート 44100 ゲイン -rh ディザ
ここで、XNUMXつ目は、 利得 呼び出しにより、可能な限り多くのヘッドルームを回収します。
前のエフェクトを維持しますが、後続のエフェクトに必要なだけのヘッドルームを保持します。
処理。 SoX グローバル オプション -G を指定して自動的に呼び出すことができます 利得 -h
利得 -r.

参照してください ノルムvol 効果。

ハイパス|ローパス [-1|-2] 周波数[k] [幅[q|o|h|k]]
3dB ポイントのハイパスまたはローパス フィルターを適用します 周波数。 フィルターは次のとおりです。
いずれかの単極( -1)、または二極 (デフォルト、または -2).
双極フィルタにのみ適用されます。 デフォルトは Q = 0.707 で、
バターワースの返答。 フィルターは、オクターブあたり 6 ポールあたり 20dB (XNUMX オクターブあたり XNUMXdB) でロールオフします。
1年あたりの極)。 双極フィルターについては、[XNUMX] で詳しく説明されています。

これらの効果は、 - プロット グローバルオプション。

参照 シンク ロールオフが急峻なフィルターの場合。

ヒルベルト [-n タップ]
奇数タップのヒルベルト変換フィルターを適用し、信号を 90 度位相シフトします。

これは、多くの行列コーディング スキームや解析信号生成に使用されます。 の
プロセスは、多くの場合、次の乗算として記述されます。 i (または j)、虚数単位。

奇数タップのヒルベルト変換フィルターには帯域通過特性があり、
最低周波数と最高周波数。 その帯域幅は、次の数によって制御できます。
フィルタ タップ。次のように指定できます。 -n。 デフォルトでは、タップ数は
約 75 Hz のカットオフ周波数が選択されます。

この効果は、 - プロット グローバルオプション。

ラスパ モジュール [プラグイン] [引数...]
LADSPA [5] (Linux Audio Developer's Simple Plugin API) プラグインを適用します。 かかわらず
LADSPA は Linux 固有のものではなく、さまざまなエフェクトが利用可能です。
cmt [6] (Computer Music Toolkit) や Steve Harris のような LADSPA プラグイン
プラグインコレクション[7]。 最初の引数はプラグイン モジュール、XNUMX 番目の引数は名前です
プラグイン (モジュールには複数のプラグインを含めることができます) およびその他の引数
プラグインの制御ポート用です。 不足している引数はデフォルトで提供されます
可能であれば値。 最大で XNUMX つのオーディオ入力と XNUMX つのオーディオ出力を持つプラグインのみ
ポートを使用できます。 見つかった場合、環境変数 LADSPA_PATH が次のように使用されます。
プラグインの検索パス。

ラウドネス [利得 [参照]]
ラウドネスコントロール - と同様 利得 効果はありますが、イコライゼーションを提供します。
人間の聴覚系。 見る http://en.wikipedia.org/wiki/Loudness 詳細については
音量の説明。 ゲインは指定された値によって調整されます 利得 パラメータ(通常は
負)、ISO 226 に従ってイコライズされた信号は、基準レベルを書き込みます
65dB、ただし代替品 参照 元のオーディオが
他の最適なレベルにイコライズされています。 デフォルトのゲイン -10dB が使用されるのは、
利得 値は与えられていません。

参照してください 利得 効果。

ローパス [-1|-2] 周波数[k] [幅[q|o|h|k]]
ローパスフィルターを適用します。 の説明を参照してください。 ハイパス 詳細については、エフェクトを参照してください。

mcompand "攻撃1,減衰1{,攻撃2,減衰2}
[ソフトニーdB:]イン dB1[,出力 dB1]{,イン dB2,出力 dB2}
[利得 [初期音量 dB [遅らせる]]]" {クロスオーバー周波数[k] "攻撃1、..."}

マルチバンド コンパンダはシングルバンド コンパンダと似ていますが、オーディオは
最初にリンクウィッツ・ライリー クロスオーバー フィルターを使用して帯域に分割し、個別に
各バンドで指定可能なコンパンダーを実行します。 を参照してください。 コンパンド 定義に対する効果
そのパラメータの。 コンパンドパラメータは二重引用符と
その帯域のクロスオーバー周波数は次の式で与えられます。 クロスオーバー周波数; これらは繰り返すことができます
複数のバンドを作成します。

たとえば、次の (XNUMX つの長い) コマンドは、マルチバンド コンパンディングがどのように行われるかを示しています。
通常は FM ラジオで使用されます。
track1.wav を再生 ゲイン -3 sinc 8000- 29 100 mcompand
"0.005,0.1 -47,-40,-34,-34,-17,-33" 100
"0.003,0.05 -47,-40,-34,-34,-17,-33" 400
"0.000625,0.0125 -47,-40,-34,-34,-15,-33" 1600
"0.0001,0.025 -47,-40,-34,-34,-31,-31,-0,-30" 6400
"0,0.025 -38,-31,-28,-28,-0,-25"
ゲイン 15 ハイパス 22 ハイパス 22 sinc -n 255 -b 16 -17500
ゲイン 9 ローパス -1 17801
オーディオ ファイルは、シミュレートされた FM ラジオ サウンド (または放送信号) で再生されます。
最後のローパスフィルターがスキップされた場合の条件)。 パイプラインは
米国スタイルの 75us プリエンファシスでセットアップします。

参照 コンパンド シングルバンドのコンパンディングエフェクト用。

ノイズプロフ [プロファイルファイル]
ノイズ低減に使用するオーディオのプロファイルを計算します。 説明を参照してください
騒々しい 詳細については、エフェクトを参照してください。

騒々しい [プロファイルファイル []]
プロファイリングとフィルタリングによってオーディオ信号のノイズを低減します。 この効果は、
ヒスノイズやハムノイズなどの一貫した背景ノイズを除去するのに中程度の効果があります。
これを使用するには、まず SoX を実行します。 ノイズプロフ オーディオのセクションに影響を与える
理想的には沈黙が含まれますが、実際にはノイズが含まれます - そのようなセクションは
通常、録音の最初または最後にあります。 ノイズプロフ 書こう
ノイズプロファイルを出力して、 プロファイルファイル、そうでない場合は stdout に送信 プロファイルファイル または `-' の場合
与えられた。 例えば
sox speech.wav -n トリム 0 1.5 ノイズプロファイル speech.noise-profile
実際にノイズを除去するには、今度は SoX を再度実行します。 騒々しい 効果;
騒々しい ノイズ プロファイル (によって生成された) に従ってノイズを低減します。
ノイズプロフから、 プロファイルファイル、そうでない場合は標準入力から プロファイルファイル または `-' が指定された場合。
例えば
sox speech.wav clean.wav ノイズレッド speech.noise-profile 0.3
どの程度のノイズを除去する必要があるかは、次のように指定されます。 -a 0から1までの数字
デフォルトは 0.5 です。 数値が大きいほど、より多くのノイズが除去されますが、より大きなノイズが発生します。
オーディオ信号の必要な成分を除去する可能性。 交換する前に
オリジナル録音とノイズ低減バージョン、さまざまな実験を行ってください
オーディオに最適な値を見つけるための値。 ヘッドフォンを使用して自分がいることを確認してください
結果には満足していますが、静かなセクションに特に注意を払っています。
オーディオ。

ほとんどのシステムでは、プロファイリングとリダクションの XNUMX つの段階を、
パイプ、例:
sox noisy.wav -n トリム 0 1 ノイズプロフ | 騒々しい音を立てて再生します。wav ノイズレッド

ノルム [dBレベル]
オーディオを正規化します。 ノルム は単なるエイリアスです 利得 -n; を参照してください 利得 に対する効果
詳細。

おっと! 位相がずれたステレオ効果。 各モノラルチャンネルでステレオをツインモノラルにミックスします。
左右のステレオチャンネルの差が含まれます。 これは
多くの場合、ほとんどの情報を除去する効果があるため、「カラオケ」効果として知られることもあります。
またはレコーディングからのすべてのボーカル。 と同等です リミックス 1,2 1,2.

オーバードライブ [利得(20)[カラー(20)]]
非線形歪み。 の カラー パラメータは偶数高調波の量を制御します
オーバードライブされた出力のコンテンツ。

パッド { 長さ[@位置]}
オーディオの先頭、末尾、または指定したポイントに無音を埋め込みます。
オーディオを通して。 両方 長さ位置 時刻を指定することも、追加される場合は、
`s' はサンプルの数を表します。 長さ は挿入する無音の量であり、
位置 入力オーディオ ストリーム内で挿入する位置。 いずれかの番号
指定された位置が指定されている限り、長さと位置を指定できます。
以前のものよりも劣っていません。 位置 最初と最後はオプションです
指定された長さは省略された場合、長さの先頭と末尾に対応します。
それぞれオーディオ。 例えば、 パッド 1.5 1.5 1.5 秒間の無音パディングを追加します
オーディオの両端で パッド 4000秒@3:00 4000 個の無音サンプルを挿入します 3
音声開始から数分。 音声の終わりにのみ無音が必要な場合は、次のように指定します。
終了位置を指定するか、開始位置に長さゼロのパッドを指定します。

参照 遅らせる オーディオの先頭に沈黙を追加できるエフェクトの場合
チャンネルごとに。

フェイザー ゲインイン ゲインアウト 遅らせる 崩壊 スピード [-s|-t]
オーディオに位相効果を追加します。 フェーズの詳細な説明については、[3] を参照してください。

遅延/減衰/速度は、ミリ秒単位の遅延と減衰 (ゲインに対する相対値) を示します。
in) 変調速度 (Hz)。 変調は正弦波 (-s) -
複数の機器、または三角形 (-t) - 単一の楽器を提供します
より鋭いフェージング効果。 フィードバックを避けるために、減衰は 0.5 未満である必要があります。
通常は 0.1 以上です。 ゲインアウトは出力の音量です。

例:
スネアを再生します。flac フェイザー 0.8 0.74 3 0.4 0.5 -t
もっと優しい:
スネアを再生します。flac フェイザー 0.9 0.85 4 0.23 1.3 -s
人気のあるサウンド:
スネアを再生します。flac フェイザー 0.89 0.85 1 0.24 2 -t
より深刻な:
スネアを再生します。flac フェイザー 0.6 0.66 3 0.6 2 -t

ピッチ [-q] シフト [セグメント [サーチ [オーバーラップ]]]
オーディオのピッチを変更します (テンポは変更しません)。

シフト ピッチシフトを正または負の「セント」(すなわち、100分のXNUMX)として与えます。
半音)。 を参照してください。 テンポ 他のパラメータの説明の効果。

参照してください 曲げる, スピード, テンポ 効果。

[-q|-l|-m|-h|-v] [オーバーライドオプション] レート[k]
オーディオのサンプリング レートを任意の値に変更します (つまり、オーディオをリサンプリングします)。 レート (さえ
出力ファイル形式でサポートされている場合は非整数)、品質レベルを使用
次のように定義されます。

品質 バンド- リジェ dB 分解能  

-q クイック N/A ≈30 @ 再生オン
Fs/4 古代ハードウェア
-l 古いものでは 80% 100 再生が低い
ハードウェア
-m 中 95% 100 オーディオ再生
-h 高 95% 125 16 ビット マスタリング
(ディザと併用)
-v 非常に高い 95% 175 24 ビット マスタリング

コラボレー 帯域幅 保存されるオーディオ周波数帯域の割合です。
リジェ dB ノイズ除去のレベルです。 リサンプリングのレベルを上げる
品質を向上させるためには、オーディオの処理にかかる時間が増加します。 もしも
品質オプションは指定されておらず、使用される品質レベルは「高」です (ただし、「再生と」を参照してください)。
再生に関しては上記の「オーディオの録音」を参照してください)。

「クイック」アルゴリズムは三次補間を使用します。 他のすべては帯域制限を使用します
補間。 デフォルトでは、すべてのアルゴリズムは「線形」位相応答を持ちます。 ために
「中」、「高」、「非常に高」の位相応答は設定可能です (以下を参照)。

この SoX の場合、エフェクトは自動的に呼び出されます。 -r オプションでレートを指定します。
入力ファイルのものとは異なります。 あるいは、この効果が付与されている場合、
明示的に、次に SoX の -r オプションを与える必要はありません。 例えば、以下の2つ
コマンドは同等です。
sox 入力.wav -r 48k 出力.wav ベース -b 24
sox 入力.wav 出力.wav ベース -b 24 レート 48k
ただし、XNUMX 番目のコマンドはより柔軟です。 与えられる選択肢、
エフェクトを任意に順序付けることができます。

* * *

警告: 技術的に詳細な説明が続きます。

上記の簡単な品質選択では、次の条件を満たす設定が得られます。
リサンプリング タスクの大部分のニーズに対応します。 ただし、場合によっては、
リサンプラーのフィルター応答を微調整することが望ましい。 これは次を使用して実現できます
オーバーライド オプション、次の表で詳しく説明します。

-M/-I/-L 位相応答 = 最小/中間/線形
-s 急峻なフィルター (帯域幅 = 99%)
-a 通過帯域を超えるエイリアシング/イメージングを許可する
-b 74-99.7 任意の帯域幅 %
-p 0-100 任意の位相応答 (0 = 最小、25 = 中間、
50 = 線形、100 = 最大)

注意: オーバーライド オプションは、「高速」または「低」品質のアルゴリズムでは使用できません。

すべてのリサンプラーは、「エコー」(別名「リンギング」)を発生させる可能性のあるフィルターを使用します。
「指のスナップ」や
その他の非常にパーカッシブなサウンド。 このようなアーティファクトは、人にとってより顕著です。
人間の耳は、トランジェント (「プリエコー」) の前に発生した場合の方が、その後に発生した場合よりも
それ (「ポストエコー」)。 このようなアーティファクトの頻度は、
元のサンプリング レートと新しいサンプリング レートのどちらか小さいですが、これが少なくとも
44.1kHz の場合、アーティファクトは人間の可聴範囲外になります。

位相応答設定を使用して、過渡現象の分布を制御できます。
「pre」と「post」の間のエコー: 最小位相では、プリエコーはありませんが、
ポストエコーが最長。 線形位相では、プリエコーとポストエコーは等しい量になります(
信号用語ではありますが、可聴用語ではありません)。 中間フェーズ設定は次のことを試みます。
短いプリエコーの長さ (およびレベル) と
中程度の長さのポストエコー。

最小、中間、または線形位相応答は、 -M, -Iまたは -L
オプション; カスタム位相応答は、 -p オプション。 フェーズに注意してください
「線形」と「最大」(50 を超える) の間の応答はほとんど役に立ちません。

リサンプラーの帯域幅設定により、どの程度の周波数成分が含まれるかが決まります。
元の信号 (アップサンプリング時の元のサンプル レート、または新しい
ダウンサンプリング時のサンプル レート) は変換中に維持されます。 「パス」という用語
「band」は、帯域幅ポイントまでのすべての周波数を指すために使用されます(たとえば、
44.1kHz のサンプリング レート、95% のリサンプリング帯域幅、通過帯域は
0Hz (DC) から約 21kHz までの周波数)。 リサンプラーの帯域幅を増やす
変換が遅くなり、トランジェントエコーアーティファクトが増加する可能性があります(またその逆)
逆)。

この -s 「steep filter」オプションは、リサンプリング帯域幅をデフォルトの 95% から変更します。
(3dB ポイントに基づく)、99% まで。 の -b このオプションを使用すると、帯域幅を次のように設定できます。
74 ~ 99.7 % の範囲の任意の値ですが、帯域幅の値が 99% を超えることに注意してください。
過剰な過渡エコーを引き起こす可能性があるため、通常の使用には推奨されません。

Status -a オプションが指定されている場合、通過帯域を超えるエイリアシング/イメージングが許可されます。
たとえば、サンプリング レートが 44.1kHz、リサンプリング帯域幅が 95% の場合、これは
21kHzを超える周波数成分が歪む可能性があることを意味します。 ただし、これは
通過帯域より上(つまり、対象/可聴周波数の最高周波数より上)、
これは問題ないかもしれません。 エイリアシング/イメージングを許可する利点が減少する
処理時間が短縮され、過渡エコーアーチファクトが(ほぼ半分に)減少しました。 ご了承ください
このオプションが指定されている場合、許容される最小帯域幅は -b に増加します
85%

例:
sox 入力.wav -b 16 出力.wav レート -s -a 44100 ディザ -s
デフォルトの(高)品質のリサンプリング。 オーバーライド: 急峻なフィルター、エイリアシングを許可します。 に
44.1kHzのサンプルレート。 ノイズシェイプされたディザを 16 ビット WAV ファイルに変換します。
sox 入力.wav -b 24 出力.aiff レート -v -I -b 90 48k
非常に高品質のリサンプリング。 オーバーライド: 中間フェーズ、帯域幅 90%。 48kまで
サンプルレート; 出力を 24 ビット AIFF ファイルに保存します。

* * *

この ピッチスピード エフェクトは 核心に影響を与えます。

リミックス [-a|-m|-p]アウトスペック>
アウトスペック = 仕様内{,仕様内} | 0
仕様内 = [いんちゃん][-[インちゃん2]] [ボリュームスペック]
ボリュームスペック = p|i|v[ボリューム]

入力オーディオ チャンネルを選択して、出力オーディオ チャンネルにミックスします。 各出力
チャネルは、指定されたパラメータによって指定されます。 アウトスペック: 寄与する入力のリスト
チャンネルとボリュームの仕様。

このエフェクトはオーディオに作用することに注意してください。 チャンネル SoX効果の範囲内
処理チェーン。 と混同しないでください。 -m グローバル オプション (ここで、
の試合に ファイル エフェクト チェーンに入る前にミックス結合されます)。

An アウトスペック カンマ区切りの入力チャンネル番号とハイフン区切りが含まれます
チャネル番号の範囲。 あるいは、 0 サイレント出力を作成するために指定される場合があります
チャネル。 例えば、
sox 入力.wav 出力.wav リミックス 6 7 8 0
1 つのチャネルを含む出力ファイルを作成します。チャネル 2、3、および XNUMX は、
入力ファイルのチャンネル 6、7、および 8 があり、チャンネル 4 はサイレントです。 一方
sox 入力.wav 出力.wav リミックス 1-3,7 3
左チャンネルがミックスされた(やや奇妙な)ステレオ出力ファイルを作成します。
入力チャンネル 1、2、3、7 の下側、右チャンネルは入力のコピーです
チャンネル3。

チャンネルの範囲が指定されている場合、左右のチャンネル番号
ハイフンはオプションで、デフォルトは 1 と入力チャンネルの数です。
それぞれ。 したがって
sox 入力.wav 出力.wav リミックス -
すべての入力チャンネルをモノラルにミックスダウンします。

デフォルトでは、出力チャンネルが複数 (n) の入力チャンネルからミックスされる場合、それぞれ
入力チャンネルは¹/n の係数でスケーリングされます。 カスタムミキシングボリュームを設定可能
特定の入力チャンネルまたは入力チャンネルの範囲をたどることで、 ボリュームスペック
(ボリューム仕様)。 これは手紙の一つです p, iまたは v、続いて
ボリューム番号。その意味は指定された文字によって異なり、次のように定義されます。
以下:

手紙 出来高 Notes
p パワー調整 (dB) 0 = 変化なし
i パワーは「p」として dB で調整しますが、
オーディオ
v 電圧乗数 1 = 変化なし、0.5 ≈ 6dB
減衰、2 ≈ 6dB
ゲイン、-1 = 反転

もし アウトスペック 少なくとも XNUMX つが含まれる ボリュームスペック その場合、デフォルトでは¹/n スケーリングは行われません。
同じアウトスペック内の他のチャンネルに適用されます(ただし、他のアウトスペックにある場合もあります)。
スペック)。 ただし、-a (自動) オプションを指定すると、自動設定を保持できます。
この場合はスケーリングです。 例えば、
sox 入力.wav 出力.wav リミックス 1,2 3,4v0.8
チャネルレベル乗数は 0.5,0.5、1,0.8 XNUMX、XNUMX になりますが、
sox 入力.wav 出力.wav リミックス -a 1,2 3,4v0.8
チャネルレベル乗数は 0.5,0.5 0.5,0.8 になります。

-m (手動) オプションは、すべての自動音量調整を無効にします。
sox 入力.wav 出力.wav リミックス -m 1,2 3,4v0.8
チャネルレベル乗数は 1,1 1,0.8 になります。

ボリューム番号はオプションであり、これを省略するとボリュームは変更されません。
ただし、これが役立つ唯一のケースは、 i。 のために
例、 入力.wav ステレオですので、
sox 入力.wav 出力.wav リミックス 1,2i
のモノラル同等物です おっと! 効果。

Status -p オプションが指定されている場合、自動 ¹/n スケーリングは ¹/√n に置き換えられます。
(`power') スケーリング; これにより、より大きなミックスが得られますが、時々クリップが発生する可能性があります。

* * *

XNUMXつの使用法 リミックス その効果は、オーディオ ファイルを一連のファイルに分割することです。
構成チャネルの XNUMX つを含む (後続のチャネルを実行するため)
個々のオーディオチャンネルで処理します)。 複数のチャンネルがある場所
これに関連して、次のようなスクリプト (Bourne シェル スクリプト) が役立ちます。
#!/bin/sh
chans=`soxi -c "$1"`
while [ $chans -ge 1 ]; する
chans0=`printf %02i $chans` # 2 桁なので最大 99 chans
out=`echo "$1"|sed "s/\(.*\)\.\(.*\)/\1-$chans0.\2/"`
ソックス「$1」「$out」リミックス $chans
chans=`expr $chans - 1`
行われ
ファイルの場合 入力.wav XNUMX つのオーディオ チャネルを含むものが指定された場合、スクリプトは次のようになります。
XNUMX つの出力ファイルが生成されます。 入力-01.wav, 入力-02.wav……、 入力-06.wav.

参照してください swap 効果。

繰り返す [カウント (1)]
音声全体を繰り返します カウント 何度か、あるいは一度だけ カウント は与えられない。 必要
リピートするオーディオを保存する一時ファイルスペース。 XNUMX回繰り返すことに注意してください
元のオーディオと繰り返されたオーディオの XNUMX つのコピーが生成されます。

リバーブ [-w|--ウェットのみ] [残響 (50%) [HF ダンピング (50%)を
[ルームスケール (100%) [ステレオ深度 (100%)を
[プリディレイ (0ミリ秒) [ウェットゲイン (0dB)]]]]]]

「freeverb」アルゴリズムを使用してオーディオに残響を追加します。 残響
この効果は、小さすぎるコンサート ホールや、収容人数が多すぎるコンサート ホールでは望ましい場合があります。
ホールの自然な残響が減少していると多くの人が感じています。 小さなものを適用すると、
通常、(ドライ)モノラル信号にステレオリバーブを加えると、よりサウンドが良くなります。
自然。 残響の詳細な説明については、[3] を参照してください。

このエフェクトはオーディオの音量と長さの両方を増加させることに注意してください。
これらのドメインでのクリッピングを防ぐには、一般的な呼び出しは次のようになります。
dry.wav を再生 ゲイン -3 パッド 0 3 リバーブ
この -w 「ウェット」信号のみを選択するオプションを指定できるため、
「ドライ」信号とは独立してさらに処理されます。 例えば
play -m voice.wav "|sox voice.wav -p reverse リバーブ -w reverse"
リバースリバーブエフェクト用。


音声を完全に反転します。 オーディオを保存するための一時ファイルスペースが必要です
逆転される。

リアア RIAA ビニール再生イコライゼーションを適用します。 サンプリング レートは次のいずれかである必要があります: 44.1、
48、88.2、96kHz。

この効果は、 - プロット グローバルオプション。

沈黙 [-l] 上記期間 [デュレーション しきい値[d|%]
[期間未満 デュレーション しきい値[d|%]]

オーディオの先頭、中間、または末尾から無音部分を削除します。 「沈黙」というのは、
指定されたしきい値によって決定されます。

この 上記期間 値は、オーディオをトリミングする必要があるかどうかを示すために使用されます。
オーディオの始まり。 値 XNUMX は、無音部分をトリミングする必要がないことを示します。
始まり。 ゼロ以外を指定する場合 上記期間までオーディオをトリミングします。
それは沈黙ではないことを発見します。 通常、オーディオの先頭から無音部分をトリミングする場合、
上記期間 は 1 ですが、より高い値に増やしてすべてのオーディオをトリミングできます。
非沈黙期間の特定のカウントまで。 たとえば、オーディオがあるとします。
ファイルに 2 つの曲が含まれており、それぞれの曲の前に XNUMX 秒間の無音部分が含まれているとします。
を指定できます 上記期間 2 の場合、沈黙期間と最初の期間の両方を削除します。
歌。

日時 上記期間 がゼロ以外の場合は、 デュレーションしきい値.
演奏時間 無音でないことが検出されるまでに必要な時間を示します。
オーディオのトリミングを停止します。 持続時間を長くすることで、バーストノイズを次のように扱うことができます。
沈黙とトリミング。

しきい値 どのサンプル値を無音として扱うべきかを示すために使用されます。 ために
デジタル オーディオの場合は、値 0 で問題ありませんが、アナログで録音されたオーディオの場合は、
バックグラウンドノイズを考慮して値を大きくしたいと考えています。

オプションでオーディオの終わりから無音部分をトリミングする場合は、 未満-
期間 カウント。 この場合、 期間未満 無音の後にすべての音声を削除することを意味します
が検出されます。 通常、これは値 1 ですが、スキップするために増やすことができます。
望まれる沈黙の期間にわたって。 例えば2の曲があるとします。
真ん中に数秒の沈黙、最後に 2 秒、以下のように設定できます。
オーディオの真ん中の無音部分をスキップするには、ピリオドを値 2 に設定します。

期間未満, デュレーション 前に存在する必要がある沈黙の期間を指定します。
オーディオはコピーされなくなります。 より長い期間を指定すると、無音になります。
必要な情報をオーディオに残すことができます。 たとえば、期待される曲がある場合、
途中で 1 秒の沈黙、最後に 2 秒の沈黙、継続時間
2 秒を使用すると、中間の沈黙をスキップできます。

残念ながら、音声の終わりの無音の長さを知っておく必要があります。
ファイルを使用して無音部分を確実にトリミングします。 回避策は、 沈黙 の効果
との組み合わせ 効果。 最初に音声を反転すると、
上記期間 の前面に見える部分からすべてのオーディオを確実にトリミングします。
ファイル。 次に、ファイルを再度逆方向に戻して通常の状態に戻します。

ファイルの途中から無音部分を削除するには、 期間未満 つまり
ネガティブ。 この値は正の値として扱われ、次の目的にも使用されます。
エフェクトが指定に従って処理を再開する必要があることを示します。 上記期間,
これは、オーディオの途中にある無音部分を削除するのに適しています。

オプション -l を示す 期間未満 デュレーション 音声の長さを残す必要があります
各沈黙期間の開始時にはそのままの状態です。 たとえば、次のようにしたい場合は、
単語間の長いポーズは削除しますが、ポーズを完全には削除したくない。

この 期間 カウントはサンプル単位です。 演奏時間 カウントの形式は次のとおりです。
hh:mm:ss.frac、またはサンプルの正確な数。 しきい値 接尾辞として数字を付けることもできる
  d 値がデシベル単位であることを示す、または % ~の割合を示す
サンプル値の最大値 (0% 純粋なデジタル沈黙を指定します)。

次の例は、このエフェクトを使用して録音を開始する方法を示しています。
通常、「ボタンを押す」までに発生する開始時の遅延は含まれません。
録音ボタン」を押してパフォーマンスを開始します。
REC パラメータ ファイル名 その他の効果 沈黙 1 5 2%

シンク [-a |-b ベータ] [-p |-M|-I|-L] [-t 未定|-n タップ] [周波数HP][-周波数LP [-t tbw|-n
タップ]]
sinc kaiser ウィンドウのローパス、ハイパス、バンドパス、またはバンドリジェクト フィルターを適用する
信号まで。 の 周波数HP周波数LP パラメータは 6dB の周波数を与えます。
個別に呼び出すことができるハイパス フィルターとローパス フィルターのポイント、または
一緒。 両方が与えられた場合、 周波数HP 未満 周波数LP バンドパスを作成します
フィルタ、 周波数HP 越える 周波数LP 帯域拒否フィルターを作成します。 たとえば、
呼び出し
シンク3k
シンク -4k
3k〜4k以降
4k〜3k以降
ハイパス、ローパス、バンドパス、バンドリジェクトフィルターをそれぞれ作成します。

デフォルトのストップバンド減衰 120dB は、次のようにオーバーライドできます。 -a;
あるいは、kaiser-window `beta' パラメータを次のように直接指定することもできます。 -b.

デフォルトの遷移帯域幅である全帯域の 5% は、次のようにオーバーライドできます。 -t
(と 未定 ヘルツ単位); あるいは、フィルタのタップ数を直接指定することもできます。
  -n.

両方の場合 周波数HP周波数LP が与えられると、 -t or -n の左側に与えられたオプション
周波数は両方の周波数に適用されます。 に与えられたこれらのオプションの XNUMX つ
周波数の右側は以下にのみ適用されます 周波数LP.

この -p, -M, -I, -L オプションはフィルターの位相応答を制御します。 を参照してください
詳細については、エフェクトを参照してください。

この効果は、 - プロット グローバルオプション。

スペクトログラム [オプション]
オーディオのスペクトログラムを作成します。 オーディオは変更されずに SoX に渡されます。
処理チェーン。 このエフェクトはオプションです - タイプ ソックス - 助けて そしてリストを確認してください
サポートされているエフェクトが含まれているかどうかを確認します。

スペクトログラムは、Portable Network Graphic (PNG) ファイルでレンダリングされ、次のことが表示されます。
X 軸は時間、Y 軸は周波数、Z 軸はオーディオ信号の大きさです。
軸。 Z 軸の値は、色 (またはオプションで強度) で表されます。
XY 平面内のピクセル。 オーディオ信号に複数のチャンネルが含まれている場合、
これらは、チャンネル 1 (左側) から始まって上から下に表示されます。
ステレオオーディオのチャンネル)。

たとえば、「my.wav」がステレオ ファイルの場合、次のようになります。
sox my.wav -n スペクトログラム
ファイル全体のスペクトログラムがファイル `spectrogram.png' に作成されます。
ただし、多くの場合、音声のより小さな部分の分析が必要になります。 例えば
 
sox my.wav -n リミックス 2 トリム 20 30 スペクトログラム
スペクトログラムには XNUMX 番目 (右) チャネルからの情報のみが表示されます。
XNUMX 秒から始まる XNUMX 秒間の音声。
周波数領域の一部、 エフェクトを使用することもできます。例:
sox my.wav -n rate 6k スペクトログラム
最大 3kHz (サンプリング レートの半分) までの周波数の詳細な分析が可能です。
人間の聴覚系が最も敏感な場所。 と
sox my.wav -n トリム 0 10 スペクトログラム -x 600 -y 200 -z 100
指定されたオプションは、スペクトログラムの X、Y、Z 軸のサイズを制御します (この例では
この場合、生成される画像のスペクトログラム領域のサイズは 600 x 200 ピクセルになります。
Z 軸の範囲は 100 dB になります)。 生成されたイメージには軸が含まれていることに注意してください
凡例などがあるため、指定されたスペクトログラム サイズよりも少し大きくなります。
この例では:
sox -n -n シンセ 6 トライ 10k:14k スペクトログラム -z 100 -w kaiser
を最適に表示するために、高いダイナミックレンジを持つ分析「ウィンドウ」が選択されます。
掃引三角波のスペクトログラム。 同様の例として、次を追加します。
の説明の「chime」コマンドに 遅らせる 効果(上):
レート 2k スペクトログラム -X 200 -Z -10 -w kaiser
外観を制御するオプションも利用できます (カラーセット、明るさ、
コントラストなど) とスペクトログラムのファイル名。 たとえば
sox my.wav -n スペクトログラム -m -l -o print.png
「白黒」プリンタでの印刷に適したスペクトログラムが作成されます。

オプション:

-x NUM スペクトログラムの(最大)幅(X 軸)をデフォルトから変更します。
800 ピクセルの値を 100 ~ 200000 の指定された数値に変換します。 -X
-d.

-X NUM X 軸ピクセル/秒。 デフォルトは、指定されたまたは
既知のオーディオ継続時間を X 軸のサイズに、それ以外の場合は 100 にします。 与えられた場合
と組み合わせて -d、このオプションはスペクトログラムの幅に影響します。
そうしないと、スペクトログラムの継続時間に影響します。 NUM 1から可能です
(低時間解像度) ~ 5000 (高時間解像度)。
整数。 SoX は、指定された数値に若干の調整を加える可能性があります。
量子化の理由を処理する。 その場合、SoX は実際の数値を報告します。
使用 (SoX グローバル オプションの場合に表示可能) -V 有効です)。 こちらも参照 -x
-d.

-y NUM Y 軸のサイズをピクセル単位で設定します (チャンネルごと)。 これはの数です
スペクトログラムを生成するフーリエ解析で使用される周波数「ビン」。
注意:この数値が XNUMX でない場合、スペクトログラムの生成が遅くなる可能性があります。
129 の累乗以上 (例: XNUMX)。 デフォルトでは、Y 軸のサイズが選択されます
自動的に行われます (チャンネル数に応じて)。 見る -Y 代替のために
スペクトログラムの高さを設定する方法。

-Y NUM スペクトログラムのターゲットの合計高さを設定します。 デフォルト値は次のとおりです
550ピクセル。 このオプションを使用すると (デフォルトで)、SoX は高さを選択します。
個々のスペクトログラム チャネルの場合、XNUMX の累乗より XNUMX 大きい値になります。
実際の全高は指定された数値に満たない場合があります。 ただし、そこには
はチャネルごとの最小高さでもあるため、チャネルが多い場合は、
数を超える可能性があります。 見る -y スペクトログラムを設定する別の方法については
高さ。

-z NUM Z 軸 (カラー) 範囲 (dB 単位、デフォルトは 120)。これにより、カラーのダイナミック レンジが設定されます。
スペクトログラムは -NUM dBFS ~ 0 dBFS。 20 ~ 180 の範囲で指定できます。
ダイナミックレンジを減少させると、効果的に画像の「コントラスト」が増加します。
スペクトログラム表示、またはその逆。

-Z NUM Z 軸の上限を dBFS で設定します。 否定的 NUM 効果的に
スペクトログラム表示の「明るさ」を増加させ、その逆も同様です。

-q NUM Z 軸の量子化、つまり異なる色の数 (または
強度) を使用して Z 軸値をレンダリングします。 小さい数 (例: 4) は、
「ポスター」のような効果を与えて、マグニチュード バンドを識別しやすくします。
同じようなレベル。 通常、数値が小さいと、PNG ファイルも小さくなります。 の
指定された数値は、Z 軸範囲内で使用する色の数を指定します。
XNUMX 色は範囲外の値を表すために予約されています。

-w
ウィンドウ: Hann (デフォルト)、Hamming、Bartlett、Rectangular、または Kaiser。 の
スペクトログラムは離散フーリエ変換 (DFT) を使用して生成されます
アルゴリズム。 このアルゴリズムの重要なパラメータは、次の選択です。
「ウィンドウ関数」。 デフォルトでは、SoX はすべての機能に優れた Hann ウィンドウを使用します。
周波数分解能とダイナミックレンジのプロパティを丸めます。 良い方向へ
周波数分解能 (ただしダイナミック レンジが低い) の場合は、ハミング ウィンドウを選択します。 ために
ダイナミックレンジが高い(ただし周波数分解能が低い)場合は、Kaiser を選択してください
窓。 バートレット窓と長方形窓も利用できます。

-W NUM ウィンドウ調整パラメータ。 これは、微調整を行うために使用できます。
カイザーウィンドウの形状。 正の数 (最大 XNUMX) を指定すると、その値が増加します。
ダイナミック レンジを負の値にすると減少します。

-s DFT ウィンドウの緩やかなオーバーラップを許可します。 これにより、場合によっては増加する可能性があります
画像の鮮明さを向上させ、 -x 値ですが、
若干のスペクトル損失が発生します。

-m モノクロのスペクトログラムを作成します (デフォルトはカラー)。

-h 高色のパレットを選択します - デフォルトよりも見た目が劣ります
カラーパレットですが、さまざまなレベルを区別しやすくなる可能性があります。
このオプションを併用すると、 -m、結果はハイブリッドになります
モノクロ/カラーパレット。

-p NUM カラー パレットまたはハイブリッド パレット内の色を並べ替えます。 の NUM パラメータ、から
1 (デフォルト) ~ 6 で順列を選択します。

-l 明るい背景 (
デフォルトでは背景が暗いです)。

-a 軸線の表示を抑制します。 これは助けになることがあります
スペクトログラムのエッジでアーティファクトを識別します。

-r 生のスペクトログラム: 軸と凡例の表示を抑制します。

-A 代替の固定カラーセットを選択します。 これは次の場合にのみ提供されます
別のパッケージで作成されたスペクトログラムとの互換性。 そうすべきではありません
いくつかの問題があるため、通常は使用されます。
ボトムエンドでの微分により、低レベルのマスキングが発生します。
工芸品。

-t 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
画像のタイトル、つまりスペクトログラムの上に表示するテキストを設定します。

-c 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
画像コメントを設定 (またはクリア) - 画像の下と左側に表示するテキスト
スペクトログラム。

-o 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
スペクトログラム出力 PNG ファイルの名前。デフォルトは「spectrogram.png」です。

高機能 オプション:
他のエフェクトやエフェクトに影響を与えずに、オーディオのより小さなセクションを処理するため。
出力信号 ( トリム 効果が使用されます)、次のオプションを使用できます。
利用される。

-d デュレーション
このオプションは、指定されたオーディオが得られるように X 軸の解像度を設定します。
デュレーション ([[HH:]MM:]SS) は、選択した (またはデフォルトの) X 軸の幅に適合します。 ために
例、
sox 入力.mp3 出力.wav -n スペクトログラム -d 1:00 統計
オーディオの最初の XNUMX 分を示すスペクトログラムを作成します。
  統計情報 オーディオ信号全体にエフェクトがかかります。

参照 -X X 軸の解像度を設定する別の方法については、「」を参照してください。

-S 時間
オーディオ ストリーム内の指定されたポイントでスペクトログラムを開始します。 例えば
sox 入力.aiff 出力.wav スペクトログラム -S 1:00
オーディオの最初の XNUMX 分を除くすべてを示すスペクトログラムを作成します (
ただし、出力ファイルはオーディオ ストリーム全体を受け取ります)。

スペクトル データのオフライン処理を実行する機能については、 STAT
効果。

スピード 要因[c]
オーディオの速度 (ピッチとテンポを合わせて) を調整します。 要因 の比率のいずれかです
新しい速度から古い速度へ: 1 より大きいと速度が上がり、1 より小さいと遅くなります。
または、文字「c」が追加されている場合は、セント数 (つまり、100 分の XNUMX)
ピッチ (およびテンポ) を調整する半音): 0 より大きい
増加し、0 未満は減少します。

技術的には、スピードエフェクトはサンプルレート情報のみを変更し、
サンプル自体は手つかずです。 の エフェクトが自動的に呼び出されてリサンプリングされます
デフォルトの品質/速度を使用して出力サンプルレートに変換します。 より高い品質を求めたり、
より高速なリサンプリングに加えて、 スピード 効果を指定するには、 効果
希望の品質オプションを使用して。

参照してください 曲げる, ピッチ, テンポ 効果。

スプライス [-h|-t|-q]{ 位置[,過剰[,余裕]] }
オーディオセクションをつなぎ合わせます。 このエフェクトは、単純なオーディオに対して XNUMX つのことを提供します。
連結: (通常は短い) クロスフェードが結合部に適用され、ウェーブがかかります。
類似性の比較は、
加入。

オプションのXNUMXつ -h, -tまたは -q フェードエンベロープを半分として選択するために与えることができます。
コサイン波 (デフォルト)、三角波 (別名リニア)、または XNUMX/XNUMX コサイン波


種類 オーディオ フェード レベル トランジション
t 急激な相関定数ゲイン
h 相関定数ゲインスムーズ
q 無相関定電力平滑

スプライスを実行するには、まず トリム オーディオセクションを選択するエフェクト
一緒に参加しました。 テープスプライスを実行するときと同様に、セクションの終わりは
スプライスされた部分は小さなトリミングでトリミングする必要があります 過剰 (デフォルトは 0.005 秒) の音声
理想的な結合点の後。 接続するオーディオセクションの始まり
同じようにトリミングする必要があります 過剰 (理想的な結合点の前)、さらに
追加の 余裕 (デフォルトは 0.005 秒)。 SoX は XNUMX つを使用して呼び出す必要があります。
入力ファイルとしてのオーディオ セクションと、 スプライス の位置で与えられる効果
スプライスを実行するもの - これは最初のオーディオ セクションの長さです (オーディオ セクションを含む)
過剰分)。

次の図は、テープに例えて、スプライス操作を示しています。
このエフェクトは、斜めのカットをシミュレートし、XNUMX つの部分を結合します。

長さ1の余分
-----------><--->
_________ : : _________
\ : : :\ `
\ : : : \ `
\: : : \ `
* : : * - - *
\ : : :\ `
\ : : : \ `
_______________\: : : \_____`____
::::
<---> <----->
過剰な余裕

ここで、* は結合点を示します。

たとえば、長い曲は XNUMX つのヴァースで始まり、そのヴァースは (たとえば、
遊びます とのコマンド トリム (start) 効果) 時刻 0:30.125 および
1:03.432。 次のコマンドは最初の詩を切り取ります。
sox too-long.wav part1.wav トリム 0 30.130
(最初のバースが始まってから 5 ミリ秒超過)
ソックス長すぎます.wav パート2.wav トリム 1:03.422
(5 ms の超過と 5 ms の余裕、XNUMX 番目のバースが始まる前)
sox part1.wav part2.wav just-right.wav スプライス 30.130
別の例として、SoX コマンド
再生 "|sox -n -p synth 1 sin %1" "|sox -n -p synth 1 sin %3"
XNUMX つのノートを生成して再生しますが、トランジションで不快なクリック音が発生します。 の
クリックは、オーディオを連結する代わりに結合することによって除去できます。
追記 スプライス 1 コマンドに。 (音声の最初と最後をクリック
によって削除できます 先行 スプライス効果 フェード q .01 2 .01).

計算が十分に優れていれば、複数のスプライスを次のコマンドで実行できます。
スプライス 呼び出し。 例えば:
#!/bin/sh
# オーディオのコピーと貼り付け
# acpo infile コピー-開始 コピー-停止 貼り付け-上書き開始 outfile
# すべての時間はサンプルで測定されます。
rate=`soxi -r "$1"`
e=`expr $rate '*' 5 / 1000` # デフォルトの超過を使用する
l=$e # と余裕。
sox "$1" Piece.wav トリム `expr $2 - $e - $l`s
`expr $3 - $2 + $e + $l + $e`s
sox "$1" part1.wav トリム 0 `expr $4 + $e`s
sox "$1" part2.wav トリム `expr $4 + $3 - $2 - $e - $l`s
靴下パート 1.wav 部分.wav パート 2.wav "$5" スプライス
`expr $4 + $e`s
`expr $4 + $e + $3 - $2 + $e + $l + $e`s
上記の Bourne シェル スクリプトでは、オーディオの「コピー アンド ペースト」に XNUMX つのスプライスが使用されています。

* * *

このエフェクトを使用して、一般的なクロスフェードを実行することもできます。たとえば、結合するなどです。
XNUMX曲。 この場合、 過剰 通常は秒数ですが、 -q
通常、オプションが指定されます (「等しいパワー」クロスフェードを選択するため)。 余裕
ゼロにする必要があります (次の場合はこれがデフォルトです) -q が与えられます)。 たとえば、f1.wav と
f2.wav はクロスフェードするオーディオ ファイルです。
sox f1.wav f2.wav out.wav splice -q $(soxi -D f1.wav),3
等ラウドネス点が終了の 3 秒前にあるファイルをクロスフェードします。
f1.wav の、つまりクロスフェードの全長は 2 × 3 = 6 秒です (注:
$(...) 表記は POSIX シェルです)。

STAT [-s 階段] [-rms] [-周波数] [-v] [-d]
オーディオに関する時間および周波数領域の統計情報を表示します。 オーディオ
変更されずに SoX 処理チェーンに渡されます。

情報は「標準エラー」(stderr) ストリームに出力されます。
計算された場合、 n サンプル単位のオーディオの長さです。 c の数です
オーディオチャンネル、 r はオーディオのサンプルレート、そして xk PCM 値を表します (
デフォルトでは -1 ~ +1 の範囲)、オーディオ内の連続する各サンプルの範囲は次のようになります。

サンプル read n×c
長さ (秒) n÷r
スケーリング済み by 以下の -s を参照してください。
最大 振幅 最大(xk) 最大サンプル値
オーディオで。 いつもの
これはプラスになるだろう
数。
最小 振幅 分(xk) 最小サンプル値
オーディオで。 いつもの
これはマイナスになります
数。
ミッドライン 振幅 XNUMX/XNUMX分(xk)+XNUMX/XNUMX最大(xk)
平均 ノルム ¹/nΣ│xk│ 平均
それぞれの絶対値
オーディオのサンプル。
平均 振幅 ¹/nΣxk それぞれの平均
オーディオのサンプル。 もしも
この数値はゼロではありません。
次に、それは次のことを示します
DCの存在
オフセット (
を使用して削除
DCシフト 効果)。
RMS 振幅 √(¹/nΣxk²) DC のレベル
あるであろう信号
と同じ力
オーディオの平均パワー。
最大 デルタ マックス(│xk-xk-1│)
最小 デルタ 分(│xk-xk-1│)
平均 デルタ ¹/n-1Σ│xk-xk-1
RMS デルタ √(¹/n-1Σ(xk-xk-1)²)
ラフ 周波数 Hz単位。
出来高 調整 へのパラメータ vol
もたらす効果
オーディオは同じくらい大きい
なしでも可能
クリッピング。 注: を参照してください。
の議論 クリッピング
その理由については上記のとおりです
良いアイデアになることはほとんどありません
実際にこれを行うためです。

デルタ測定はマルチチャンネルオーディオには適用できないことに注意してください。

この -s オプションを使用すると、入力データを指定された係数でスケールすることができます。 デフォルト
の値 階段 は 2147483647 (つまり、32 ビット符号付き整数の最大値) です。
内部エフェクトは常に符号付きの長い PCM データで動作するため、値は次のようになります。
この事実に関係します。

この -rms オプションは、すべての出力平均値を「二乗平均平方根」に変換します。
形式でダウンロードすることができます。

この -v オプションは「音量調整」値のみを表示します。

この -周波数 オプションは、代わりに入力のパワー スペクトル (4096 ポイント DFT) を計算します。
上記の統計。 これは単一チャンネルのオーディオでのみ使用してください。
ファイルにソフトウェアを指定する必要があります。

この -d オプションは、SoX の 32 ビット署名付き PCM データ オーディオの XNUMX 進ダンプを表示します。
内部バッファ。 これは主に、エンディアンの問題を追跡するために使用されます。
SoX のクロスプラットフォーム バージョンで発生することがあります。

参照してください 統計情報 効果。

統計情報 [-b ビット|-x ビット|-s 階段] [-w ウィンドウタイム]
オーディオ チャネルに関する時間領域の統計情報を表示します。 オーディオは
変更されずに SoX 処理チェーンを通過します。 統計が計算され、
各オーディオチャンネルごとに表示され、該当する場合は全体の数値も表示されます。
与えられた。

たとえば、よくマスタリングされた典型的なステレオ音楽ファイルの場合は次のようになります。

全体左 右
DC オフセット 0.000803 -0.000391 0.000803
最小レベル -0.750977 -0.750977 -0.653412
最大レベル 0.708801 0.708801 0.653534
ピークレベル dB -2.49 -2.49 -3.69
実効値レベル dB -19.41 -19.13 -19.71
RMS ピーク dB -13.82 -13.82 -14.38
RMS Tr dB -85.25 -85.25 -82.66
クレストファクター - 6.79 6.32
フラットファクター 0.00 0.00 0.00
PK数 2 2 2
ビット深度 16/16 16/16 16/16
サンプル数 7.72M
長さ s 174.973
スケール最大 1.000000
ウィンドウ 0.050

DC オフセット, 最小値 レベル, 最大値 レベル デフォルトでは、±1 の範囲で表示されます。 もし
-b (bits) オプションが指定されている場合、これら XNUMX つの測定値は、
指定されたビット数の符号付き整数。 たとえば、16 ビットの場合、スケールは
-32768 ~ +32767 になります。 の -x オプションは次と同じように動作します -b それ以外で
符号付き整数値は XNUMX 進数で表示されます。 の -s オプションでスケールします
指定された浮動小数点数による XNUMX つの測定値。

Pk レフ dBRMS レフ dB dBFS で測定された標準ピークと RMS レベルです。
RMS Pk dBRMS Tr dB は、一定期間にわたって測定された RMS レベルのピーク値とトラフ値です。
短いウィンドウ (デフォルトは 50 ミリ秒)。

クレスト 要因 は、RMS レベルに対するピークの標準的な比率です (注: dB 単位ではありません)。

フラット型の刃は完全に平行な状態ではありませんが、コニカル型の刃よりも明らかに平らになっており、幅もコニカル刃に比べて広いことが多いです。 要因 平坦性の尺度です(つまり、同じサンプルを持つ連続したサンプル)
信号のピークレベルでの値(つまり、 最小値 レベルまたは 最大値 レベル).
Pk カウント 信号が発生する機会の数 (サンプル数ではありません)
どちらかを達成した 最小値 レベルまたは 最大値 レベル.

右手 ビット深度 図はビット深度、つまりビットの標準定義です。
指定された数値よりも重要でない数値は XNUMX に固定されます。 左側の図は、
XNUMX (負の場合は XNUMX) に固定される最上位ビットの数
右側の数字から数字)を引いた値(引いた数字はそのまま
に関する Pk レフ dB).

マルチチャンネルオーディオの場合、上記の各測定値の全体的な数値は次のとおりです。
チャネル数値から次のように与えられ、導出されます。 DC オフセット:最大
大きさ; 最大値 レベル, Pk レフ dB, RMS Pk dB, ビット深度:最大値。 最小値 レベル,
RMS Tr dB: 最小値。 RMS レフ dB, フラット型の刃は完全に平行な状態ではありませんが、コニカル型の刃よりも明らかに平らになっており、幅もコニカル刃に比べて広いことが多いです。 要因, Pk カウント: 平均; クレスト 要因: いいえ
該当します。

長さ s は音声の長さ (秒単位) であり、 サンプル に等しい
サンプルレートの乗算 長さ. 規模 最大値 最初に適用されるスケーリングです
XNUMXつの測定。 具体的には、以下に適用できる最大値です。
最大値 レベル. ウィンドウ s ピークと谷の RMS に使用されるウィンドウの長さです
測定。

参照してください STAT 効果。

swap ステレオチャンネルを交換します。 こちらも参照 リミックス 任意のチャンネルを許可するエフェクトの場合
選択と注文(そして混合)。

ストレッチ 要因 [ウィンドウを使用して入力ファイルを追加します。 フェード シフト 退色]
オーディオの長さを変更します (ピッチは変更しません)。 この効果はほぼ同等です
から テンポ () による効果要因 反転して) サーチ ゼロに設定されるため、一般的には、
その結果は比較的悪いです。 場合によってはパフォーマンスを上回る可能性があるため、維持されます
テンポ 小のために 要因s.

要因 ストレッチの程度: >1 は長くなり、<1 は持続時間を短縮します。 ウィンドウを使用して入力ファイルを追加します。 サイズはミリ秒単位です。
デフォルトは 20ms です。 の フェード オプションとして `lin' を指定できます。 シフト 比率、[0 1]。 デフォルト
伸縮率によって異なります。 1 で短くし、0.8 で長くします。 の 退色 比率、[0
0.5]。 フェードのデフォルトの量は次によって異なります。 要因シフト.

参照してください テンポ 効果。

シンセ [-j キー] [-n] [LEN [OFF [ph [p1 [p2 [p3]]]]]] {[type] [組み合わせる]
[[%]周波数[k][:|+|/|-[%]周波数2[k]]][OFF [ph [p1 [p2 [p3]]]]]}
このエフェクトを使用すると、固定周波数またはスイープ周波数のオーディオ トーンを生成できます。
さまざまな波形、またはさまざまな「色」の広帯域ノイズを生成します。 多数
シンセエフェクトをカスケード接続して、より複雑な波形を生成できます。 それぞれの段階でそれを
生成された波形をミックスするか、または
前のステージからの出力に変調されます。 各チャンネルのオーディオ
マルチチャンネルオーディオファイルは独立して合成できます。

このエフェクトはオーディオの生成に使用されますが、入力ファイルを指定する必要があります。
その特性は合成されたオーディオの長さを設定するために使用されます。
チャンネル数とサンプリングレート。 ただし、入力ファイルの音声は
通常は必要のない「null ファイル」(特別な名前が付いています) -n)が与えられることが多い
代わりに (そしてパラメータとして指定された長さは シンセ または別の与えられたものによって
関連する長さを持つことができるエフェクト)。

たとえば、次の例では、次のコードを含む 3 秒、48kHz のオーディオ ファイルが生成されます。
300 Hz から 3300 Hz まで掃引する正弦波:
sox -n output.wav シンセ 3 サイン 300-3300
これにより 8 kHz バージョンが生成されます。
sox -r 8000 -n 出力.wav synth 3 sine 300-3300
示されているパラメータのセットを指定することで、複数のチャネルを合成できます。
中括弧の間に複数回。 以下はスイープトーンを左側に置きます
チャンネルを変更し、右側に「茶色の」ノイズを追加します。
sox -n output.wav synth 3 sine 300-3300 ブラウンノイズ
次の例は、XNUMX つのシンセ エフェクトをカスケード接続して、より多くのエフェクトを作成する方法を示しています。
複雑な波形:
play -n シンセ 0.5 サイン 200-500 シンセ 0.5 サイン fmod 700-100
周波数は「科学的」音符表記で、または「%」を接頭辞として付けることによっても指定できます。
「中央の A」(440 Hz) を基準とした半音数としての文字。 例えば、
以下は、ギターの低い「E」弦をチューニングするのに役立ちます。
再生 -n シンセ 4 摘み取る %-29
または、(Bourne シェル) ループを使用すると、ギター全体が次のようになります。
E2 A2 D3 G3 B3 E4 の n について。 する
play -n シンセ 4 弾く $n リピート 2; 終わり
ジョブの設定方法については、 遅らせる 効果 (上) と「SoX スクリプトの例」への参照 (下)
詳細については、 シンセ 例。

N.B. このエフェクトは最大音量 (0dBFS) でオーディオを生成します。
その後オーディオを使用するときにクリッピングが発生する可能性が高いため、多くの場合、
この効果を次のように実行するとよいでしょう。 利得 これを防ぐ効果
ハプニング。 (こちらも参照 クリッピング ) デフォルトでは、 シンセ 効果
の機能が組み込まれています 利得 -h (参照 利得 効果については詳細をご覧ください)。
シンセ's -n この動作を無効にするオプションを指定できます。

それぞれの詳細な説明 シンセ パラメータは次のとおりです。

LEN 時間または時間数で表される、合成するオーディオの長さです。
サンプル; 0=入力長、デフォルト=0。

時間の長さを指定する形式は hh:mm:ss.frac です。 のフォーマット
サンプル数の指定は、サンプル数に文字「s」を追加したものです。
ボーマンは

type サイン波、方形波、三角波、ノコギリ波、台形波、exp、[ホワイト]ノイズ、
tpdfnoise ピンクノイズ、ブラウンノイズ、プラック; デフォルト=正弦。

組み合わせる create、mix、amod (振幅変調)、fmod (周波数) のいずれかです。
変調); デフォルト=作成。

周波数/周波数2 合成の開始/終了の周波数 (Hz)、または
A (440 Hz) を基準とした半音である「%」が前に付きます。 あるいは、「科学的」
音符記法 (例: E2) を使用することもできます。 デフォルトの周波数は 440Hz です。 デフォルトでは、
音符表記で使用されるチューニングは「平均律」です。 の -j キー オプション
「純正律」を選択します。 キー は、相対的な半音の整数です。
A (たとえば、-9 または 3 は C のキーを選択します)、または科学的記数法での音符。

If 周波数2 与えられた後 LEN も指定されている必要があり、生成されるトーンは
指定された周波数間で掃引されます。 指定された XNUMX つの周波数は次のようにする必要があります。
`:'、`+'、`/'、または `-' のいずれかの文字で区切られます。 このキャラクターが使われています
次のようにスイープ関数を指定します。

: リニア: トーンは XNUMX 秒あたりの固定ヘルツ数ずつ変化します。

+ Square: XNUMX 次関数を使用して音色を変更します。

/ 指数関数: トーンは XNUMX 秒あたり一定の半音数ずつ変化します。

- 指数関数: `/' のようになりますが、初期位相は常にゼロであり、段階的です (より少ない
スムーズ)周波数が変化します。

ノイズ用途には使用しません。

OFF 信号のバイアス (DC オフセット) をパーセントで表したものです。 デフォルト=0。

ph 1 サイクルの位相シフトのパーセンテージです。 デフォルト=0。 ノイズ用途には使用しません。

p1 各サイクルの「オン」(四角形)または「上昇」(三角形、
exp、台形); デフォルト = 50 (正方形、三角形、exp)、デフォルト = 10 (台形)、または
サステイン(弾く)。 デフォルト = 40。

p2 (台形): 「下降」が始まる各サイクルの割合。
デフォルト = 50。 exp: 2dB の倍数の振幅。 デフォルト = 50、またはトーン 1 (弾き);
デフォルト=20。

p3 (台形): 「下降」が終了する各サイクルの割合。
デフォルト = 60、またはトーン 2 (弾き); デフォルト=90。

テンポ [-q] [-m|-s|-l] 要因 [セグメント [サーチ [オーバーラップ]]]
オーディオの再生速度は変更しますが、ピッチは変更しません。 このエフェクトは WSOLA を使用します
アルゴリズム。 オーディオはセグメントに分割され、時間内でシフトされます。
波形が最も強調される点で重複 (クロスフェード) されます。
「最小二乗法」の測定によって決定されるのと同様です。

デフォルトでは、最適な重複点を見つけるために線形検索が使用されます。 もし
任意 -q パラメータが指定されている場合は、代わりにツリー検索が使用されます。 これにより、
エフェクトはより速く動作しますが、結果はそれほど良くないかもしれません。 ただし、もしあなたが
処理速度を向上させる必要がありますが、一般に音質の低下は少なくなります。
検索値や重複値を減らすよりも、

この -m オプションは、セグメント、検索、オーバーラップのデフォルト値を最適化するために使用されます。
音楽処理。

この -s オプションは、セグメント、検索、オーバーラップのデフォルト値を最適化するために使用されます。
音声処理。

この -l オプションは、セグメント、検索、オーバーラップのデフォルト値を最適化するために使用されます。
「線形」処理。より顕著な歪みを引き起こす傾向がありますが、
係数が 1 に近い場合に便利です。

-m、-s、または -l を指定すると、セグメントのデフォルト値が計算されます。
デフォルトの検索値と重複値はセグメントに基づいていますが、係数に基づいています。 どれでも
指定した値はこれらのデフォルト値をオーバーライドします。

要因 新しいテンポと古いテンポの比率を与えるので、たとえば 1.1 はテンポを高速化します。
テンポが 10% 遅くなり、0.9 にすると 10% 遅くなります。

オプション セグメント パラメータはアルゴリズムのセグメント サイズを選択します
ミリ秒。 他のフラグが指定されていない場合、デフォルト値は 82 です。
通常、音楽のテンポに小さな変更を加えるのに適しています。 より大きな変化に向けて
(例: 2 の係数)、41 ミリ秒の方が良い結果が得られる可能性があります。 -m、-s、および -l フラグ
セグメントのデフォルトが係数に基づいて自動的に調整されます。 ために
たとえば、テンポ 1.25 で -s (スピーチ) を使用すると、デフォルトのセグメントが計算されます。
値32。

オプション サーチ パラメータは、オーディオの長さをミリ秒単位で指定します。
アルゴリズムは重複する点を検索します。 他のフラグが指定されていない場合、
デフォルト値は 14.68 です。 値が大きいほど処理時間が長くなり、使用されない場合もあります。
より良い結果を生み出します。 実際の最大値はセグメントの値の半分です。 検索
出力品質を低下させるリスクはありますが、処理時間を短縮するために短縮することができます。 の
-m、-s、および -l フラグを使用すると、検索のデフォルトが自動的に調整されます。
セグメントに基づいて。

オプション オーバーラップ パラメータは、セグメントのオーバーラップ長をミリ秒単位で指定します。
デフォルト値は 12 ですが、-m、-s、または -l フラグは、次の値に基づいてオーバーラップを自動的に調整します。
セグメントサイズ。 オーバーラップを増やすと処理時間が長くなり、処理時間が長くなる可能性があります
品質。 オーバーラップの実際の最大値は、オーバーラップを伴う検索の値です。
通常は (少なくとも) もう少し小さくして検索します。

参照 スピード テンポとピッチを同時に変化させるエフェクトの場合、 ピッチ曲げる
ピッチのみを変更するエフェクトの場合、 ストレッチ テンポを変化させるエフェクトの場合
別のアルゴリズムを使用します。

高音域 利得 [周波数[k] [[s|h|k|o|q]]]
高音域のトーンコントロールエフェクトを適用します。 の説明を参照してください。 ベース に対する効果
詳細。

トレモロ スピード [深さ]
オーディオにトレモロ (低周波振幅変調) エフェクトを適用します。 の
トレモロ周波数 (Hz) は次のように与えられます。 スピード、および深さのパーセンテージとしての 深さ
(デフォルトは40)。

トリム {[=|-]位置}
音声の一部を切り取ります。 いくつでも 位置を与えることができます。 オーディオではありません
最初まで出力に送信されます 位置 が達成された。 その後エフェクトが交互に切り替わります
オーディオをコピーして破棄するまでの間 位置.

もし 位置 等号またはマイナス記号が前にある場合は、相対的に解釈されます。
それぞれオーディオの始まりまたは終わり。 (音声の長さは
それ以外の場合は、オフセットとみなされます。
最後から 位置、または最初のパラメータのオーディオの先頭から。 使用する
最初の値は 0 位置 パラメータを使用すると、先頭からコピーできます
オーディオ。

すべてのパラメータは、時間または正確なカウントのいずれかを使用して指定できます。
サンプル。 時間の長さを指定する形式は hh:mm:ss.frac です。 の値
最初のパラメータの 1:30.5 は、1 分 XNUMX 秒半になるまで開始されません
オーディオに。 サンプル数を指定する形式はサンプル数です。
文字「s」が追加されます。 最初のパラメータの値を 8000 秒にすると、
オーディオの処理を開始する前に、8000 サンプルが読み取られるまで待ちます。

たとえば、
sox infile outfile トリム 0 10
最初の XNUMX 秒をコピーしますが、
インファイルトリムを再生 12:34 =15:00 -2:00
音声の 12 分 34 秒から 15 分まで再生されます
(つまり 2 分 26 秒の長さ)、開始 XNUMX 分前に再生を再開します。
オーディオの終わり。

アップサンプル [要因]
信号を整数倍でアップサンプリングします。 要因-1 個のゼロ値サンプルが挿入されます
入力サンプルの各ペアの間。 結果として、元のスペクトルは次のようになります。
新しい周波数空間に複製され(エイリアシング)、減衰します。 これ
減衰は追加することで補償できます。 vol 要因 それ以上
処理。 アップサンプル効果は通常、フィルタリングと組み合わせて使用​​されます。
効果。

アンチエイリアスを使用した一般的なリサンプリング効果については、を参照してください。 。 参照 ダウンサンプル.

として [オプション]
音声アクティビティ検出器。 沈黙と静かな背景音をトリミングしようとします。
音声の録音(かなり高解像度、つまり 16 ビット、44 ~ 48kHz)の終わり。
現在、アルゴリズムは音声を検出するために単純なケプストラム パワー測定を使用しています。
そのため、他のもの、特に音楽にだまされる可能性があります。 エフェクトは以下からのみトリミングできます
オーディオの前面にあるため、背面からトリミングするには、 効果は必ずある
も使用されます。 例えば
speech.wav ノルム VAD を再生します
正面からトリミングするには、
speech.wav を再生する Norm reverse vad reverse
後ろからトリミングして、
speech.wav を再生する Norm vad reverse vad reverse
両端からトリミングします。 の使用 ノルム 効果を推奨しますが、覚えておいてください
どちらでもない また ノルム ストリーミングオーディオでの使用に適しています。

オプション:
デフォルト値は括弧内に示されています。

-t NUM (7)
アクティビティ検出をトリガーするために使用される測定レベル。 これには必要な場合があります
ノイズレベル、信号レベルなどに応じて変化します。
入力音声の特性を確認します。

-T NUM (0.25)
短い音のバーストを無視するために使用される時定数 (秒単位)。

-s NUM (1)
より静かな/より短いバーストを検索するための音声の量 (秒単位)。
検出されたトリガーポイントの前に含めるオーディオ。

-g NUM (0.25)
含まれる、より静かな/より短いオーディオバースト間の許容ギャップ (秒単位)
検出されたトリガーポイントの前。

-p NUM (0)
トリガーポイントの前に保存するオーディオの量(秒単位)。
より静かで短いバーストが見つかった場合。

高機能 オプション:
これらにより、アルゴリズムの内部パラメーターを微調整できます。

-b NUM アルゴリズムは (内部的に) 適応ノイズ推定/低減を次の順序で使用します。
目的のオーディオの開始を検出します。 このオプションは、
初期ノイズ推定値。

-N NUM ノイズ レベルが低下した場合に適応ノイズ推定器によって使用される時定数
増加している。

-n NUM ノイズ レベルが低下した場合に適応ノイズ推定器によって使用される時定数
減少しています。

-r NUM 検出アルゴリズムで使用するノイズ低減の量 (例: 0、0.5、
...)。

-f NUM アルゴリズムの処理/測定の頻度。

-m NUM 測定期間; デフォルトでは、測定期間の XNUMX 倍です。 つまり、
オーバーラップ。

-M NUM スペクトル測定を平滑化するために使用される時定数。

-h NUM への入力に適用されるハイパス フィルターの「レンガ壁」周波数
検出器アルゴリズム。

-l NUM への入力に適用されるローパス フィルターの「レンガ壁」周波数
検出器アルゴリズム。

-H NUM 検出器アルゴリズムで使用されるハイパスリフターの「レンガ壁」周波数。

-L NUM 検出器アルゴリズムで使用されるローパスリフターの「レンガ壁」周波数。

参照してください 沈黙 効果。

vol 利得 [type [リミッターゲイン]]
オーディオ信号に増幅または減衰を適用します。 とは異なり、 -v オプション
(複数の入力ファイルが SoX 効果に入るときにバランスをとるために使用されます)
処理チェーン)、 vol 他のエフェクトと同様なので、どこにでも適用できます。
必要に応じて、処理チェーン中に数回。

ボリュームを変更する量は次の式で与えられます。 利得 それは次のように解釈されます
与えられた type、次のように: type is 振幅 (または省略されます)、その後 利得 あります
振幅 (つまり、電圧または線形) 比 (次の場合) 電力、次に電力 (つまり、ワット数または
電圧二乗) 比、および dB、次にパワー変化をdB単位で表示します。

日時 type is 振幅 or 電力 利得 1 未満の場合、ボリュームは変更されません。
1 にすると減少し、1 より大きくすると増加します。 否定的な 利得 音声を反転します
信号の音量を調整するだけでなく、

日時 type is dB 利得 0 未満では音量は変わりませんが、0 未満では音量が下がります。
0 より大きいと増加します。

電気 (したがってオーディオ信号) 電圧の詳細については、[4] を参照してください。
そしてパワーレシオ。

気づく クリッピング 音量を上げるとき。

この 利得type 必要に応じてパラメータを連結できます。例: vol 10dB.

オプション リミッターゲイン 値を指定できますが、それよりもはるかに小さい値にする必要があります。
1 (例: 0.05 または 0.02) で、クリッピングを防ぐためにピークでのみ使用されます。 ない
このパラメーターを指定すると、リミッターは使用されなくなります。 詳細モードでは、これは
エフェクトには、制限する必要があるオーディオの割合が表示されます。

参照 利得 さまざまな機能を備えた音量変化エフェクト用、および コンパンド
ダイナミックレンジの圧縮/拡張/制限効果用。

非推奨の エフェクト
次のエフェクトは名前が変更されているか、その機能が別のエフェクトに含まれています。
効果; これらは SoX のこのバージョンでも引き続き機能しますが、将来削除される可能性があります。

ミキサー [ -l|-r|-f|-b|-1|-2|-3|-4|n{,n} ]
チャンネルを混合または選択してオーディオ チャンネルの数を減らすか、増やす
チャンネルを複製してチャンネル数を増やします。 注: この効果は
オーディオ チャンネル SoX エフェクト処理チェーン内。 混同すべきではありません
-m グローバル オプション (複数の ファイル 入る前に混合されます
エフェクトチェーン)。

チャンネル数を減らす場合は、 -l, -r, -f, -b, -1,
-2, -3, -4、左、右、前、後ろのチャンネルのみを選択するオプション、または
チャネルを平均化する代わりに、特定のチャネルを出力に使用します。 の -l, -r
オプションはクアッド チャネル ファイルで平均化を行うため、正確なチャネルを選択してください。
これを防ぎます。

この ミキサー エフェクトは、カンマで区切られた最大 16 個の数字で呼び出すこともできます。
これは、各入力チャンネルの割合 (0 = 0% および 1 = 100%) を指定します。
各出力チャンネルにミックスされます。 4 チャンネル モードでは、XNUMX つの数字が与えられます: l →
それぞれ l、l → r、r → l、r → r。 4 チャンネル モードでは、最初の XNUMX チャンネル
数値は、次のように左前出力チャンネルの比率を示します。 lf →
lf、rf→lf、lb→lf、rb→rf。 次の 4 つは、右前の出力を与えます。
同じ順序で、次に左サイドバック、右サイドバック。

16 の数値を使用してチャネル数を拡大または削減することもできます。
未使用のチャネルには 0 を指定するだけです。

最後に、数値の特定の縮小された組み合わせを特定の目的で指定できます。
入出力チャンネルの組み合わせ。

In Ch でる Ch マッピング
2 1 2 l→l、r→l
2 2 1 バランス調整
4 1 4 lf→l、rf→l、lb→l、rb→l
4 2 2 lf→l&rf→r、lb→l&rb→r
4 4 1 バランス調整
4 4 2 フロントバランス、バックバランス

この効果は次のものに取って代わられました。 リミックス 任意の数を処理するエフェクト
チャネル。

診断


終了ステータスはエラーがない場合は 0、コマンドライン パラメータに問題がある場合は 1、
ファイル処理中にエラーが発生した場合は 2。

onworks.net サービスを使用して sox オンラインを使用する



最新のLinuxおよびWindowsオンラインプログラム