Dies ist das Befehlsspiel, das beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
SoX – Sound eXchange, das Schweizer Taschenmesser der Audiomanipulation
ZUSAMMENFASSUNG
Sox [globale Optionen] [Formatoptionen] infile1
[[Formatoptionen] infile2] ... [Formatoptionen] Outfile
[bewirken [Effekt-Optionen]] ...
Spiel & Sport [globale Optionen] [Formatoptionen] infile1
[[Formatoptionen] infile2] ... [Formatoptionen]
[bewirken [Effekt-Optionen]] ...
rec [globale Optionen] [Formatoptionen] Outfile
[bewirken [Effekt-Optionen]] ...
BESCHREIBUNG
Einleitung
SoX liest und schreibt Audiodateien in den gängigsten Formaten und kann optional Effekte anwenden
zu ihnen. Es kann mehrere Eingangsquellen kombinieren, Audio synthetisieren und auf vielen Systemen
als Allzweck-Audioplayer oder Mehrspur-Audiorecorder fungieren. Es hat auch begrenzt
Möglichkeit, die Eingabe in mehrere Ausgabedateien aufzuteilen.
Die gesamte SoX-Funktionalität ist nur mit verfügbar Sox Befehl. Um das Spielen zu vereinfachen und
Aufnahme von Audio, wenn SoX als aufgerufen wird Spiel & Sport, wird die Ausgabedatei automatisch auf die festgelegt
Standard-Soundgerät und wenn aufgerufen als rec, wird das Standard-Audiogerät als Eingang verwendet
Quelle. Darüber hinaus ist die soxi(1) Der Befehl bietet eine praktische Möglichkeit, einfach Audio abzufragen
Datei-Header-Informationen.
Das Herzstück von SoX ist eine Bibliothek namens libSoX. Diejenigen, die daran interessiert sind, SoX zu erweitern oder zu verwenden
In anderen Programmen sollte auf die libSoX-Handbuchseite verwiesen werden: libsox(3).
SoX ist ein Befehlszeilen-Audioverarbeitungstool, das sich besonders für die schnelle und einfache Erstellung eignet
Bearbeitungen und zur Stapelverarbeitung. Wenn Sie einen interaktiven, grafischen Audio-Editor benötigen, verwenden Sie
Kühnheit(1).
* * *
Die gesamte SoX-Verarbeitungskette lässt sich wie folgt zusammenfassen:
Eingänge → Combiner → Effekte → Ausgänge
Beachten Sie jedoch, dass in der SoX-Befehlszeile die Positionen der Ausgänge und der Effekte angegeben werden
werden bezüglich des gerade gezeigten logischen Ablaufs vertauscht. Beachten Sie auch, dass die Optionen im Zusammenhang stehen
Dateien werden vor ihrem jeweiligen Dateinamen platziert, bei Effekten ist das Gegenteil der Fall.
Um zu zeigen, wie das in der Praxis funktioniert, finden Sie hier eine Auswahl von Beispielen, wie SoX aussehen könnte
gebraucht. Das Einfache
sox recital.au recital.wav
übersetzt eine Audiodatei im Sun AU-Format in eine Microsoft WAV-Datei
sox recital.au -b 16 recital.wav Kanäle 1 Rate 16k Fade 3 Norm
führt die gleiche Formatübersetzung durch, wendet aber auch vier Effekte an (Heruntermischen auf einen).
Kanal, Änderung der Abtastrate, Einblenden, Normalisieren) und speichert das Ergebnis mit einer Bittiefe von
16
sox -r 16k -e signiert -b 8 -c 1 voice-memo.raw voice-memo.wav
konvertiert „rohes“ (auch „headerloses“) Audio in ein selbstbeschreibendes Dateiformat,
sox slow.aiff feste.aiff Geschwindigkeit 1.027
passt die Audiogeschwindigkeit an,
sox kurze.wav lange.wav längere.wav
verkettet zwei Audiodateien und
sox -m musik.mp3 stimme.wav gemischt.flac
mischt zwei Audiodateien zusammen.
spiele „The Moonbeams/Greatest/*.ogg“ Bass +3
spielt eine Sammlung von Audiodateien ab und wendet dabei einen Bass-Boosting-Effekt an.
play -n -c1 synth sin %-12 sin %-9 sin %-5 sin %-2 fade h 0.1 1 0.1
spielt einen synthetisierten „A-Moll-Septakkord“ mit einem Pfeifenorgelklang,
rec -c 2 radio.aiff trim 0 30:00
zeichnet eine halbe Stunde Stereo-Audio auf und
play -q take1.aiff & rec -M take1.aiff take1-dub.aiff
(mit POSIX-Shell und sofern von der Hardware unterstützt) zeichnet eine neue Spur in einer Mehrspur auf
Aufzeichnung. Endlich,
rec -r 44100 -b 16 -s -p Stille 1 0.50 0.1 % 1 10:00 0.1 % | \
sox -p song.ogg silence 1 0.50 0.1 % 1 2.0 0.1 % : \
Neue Datei: Neustart
Nimmt einen Audiostream wie LP/Kassette auf und teilt ihn in mehrere Audiodateien auf
Punkte mit 2 Sekunden Stille. Außerdem beginnt die Aufnahme erst, wenn sie erkannt wird
Der Ton wird abgespielt und nach 10 Minuten Stille gestoppt.
Hinweis: Das Obige ist nur ein Überblick über die Fähigkeiten von SoX. ausführliche Erklärungen dazu
- alle SoX-Parameter, Dateiformate und Effekte finden Sie weiter unten in diesem Handbuch unter
soxformat(7) und in soxi(1).
Reichen Sie das Format Typen
SoX kann mit „selbstbeschreibenden“ und „rohen“ Audiodateien arbeiten. „selbstbeschreibende“ Formate
(z. B. WAV, FLAC, MP3) haben einen Header, der das Signal und die Kodierung vollständig beschreibt
Attribute der folgenden Audiodaten. „Roh“- oder „Headerlose“-Formate enthalten nicht
Diese Informationen müssen daher auf dem SoX beschrieben werden
Befehlszeile oder abgeleitet von denen der Eingabedatei.
Die folgenden vier Merkmale werden verwendet, um das Format von Audiodaten zu beschreiben
es kann mit SoX verarbeitet werden:
Beispielrate
Die Abtastrate in Abtastwerten pro Sekunde („Hertz“ oder „Hz“). Digitale Telefonie
Verwendet traditionell eine Abtastrate von 8000 Hz (8 kHz), heutzutage sind es jedoch 16 und sogar mehr
32 kHz werden immer häufiger verwendet. Audio-CDs verwenden 44100 Hz (44.1 kHz).
Digitale Audiobänder und viele Computersysteme verwenden 48 kHz. Professionelle Audiosysteme
Verwenden Sie häufig 96 kHz.
Stichprobengröße
Die Anzahl der Bits, die zum Speichern jedes Samples verwendet werden. Heutzutage wird üblicherweise 16-Bit verwendet.
8-Bit war in den frühen Tagen des Computer-Audios beliebt. Es wird 24-Bit verwendet
professionelle Audio-Arena. Es werden auch andere Größen verwendet.
Datenkodierung
Die Art und Weise, wie jedes Audio-Sample dargestellt (oder „kodiert“) wird. Einige Kodierungen
haben Varianten mit unterschiedlichen Byte- oder Bit-Reihenfolgen. Einige komprimieren das
Audiodaten, sodass die gespeicherten Audiodaten weniger Platz beanspruchen (d. h. Festplattenspeicher oder
Übertragungsbandbreite) als die anderen Formatparameter und die Anzahl der Samples
würde bedeuten. Zu den häufig verwendeten Codierungstypen gehören Gleitkomma, μ-Law, ADPCM,
vorzeichenbehaftete Ganzzahl PCM, MP3 und FLAC.
Kanäle
Die Anzahl der in der Datei enthaltenen Audiokanäle. Eins („Mono“) und zwei
(„Stereo“) sind weit verbreitet. „Surround-Sound“-Audio enthält normalerweise sechs oder mehr
Kanäle
Der Begriff „Bitrate“ ist ein Maß für die von einem codierten Audio belegte Speichermenge
Signal über eine Zeiteinheit. Es kann von allen oben genannten Faktoren abhängen und wird normalerweise als bezeichnet
eine Anzahl von Kilobits pro Sekunde (kbps). Ein A-Law-Telefonsignal hat eine Bitrate von 64
kbit/s. MP3-kodierte Stereomusik hat normalerweise eine Bitrate von 128–196 kbps. FLAC-kodiert
Stereomusik hat normalerweise eine Bitrate von 550-760 kbps.
Die meisten selbstbeschreibenden Formate ermöglichen auch die Einbettung von Textkommentaren in die Datei
kann verwendet werden, um das Audio auf irgendeine Weise zu beschreiben, z. B. für Musik, den Titel, den Autor usw.
Eine wichtige Verwendung von Audiodateikommentaren besteht darin, Informationen zur „Wiedergabeverstärkung“ zu übermitteln. SoX
unterstützt die Anwendung von Replay Gain-Informationen, aber nicht deren Generierung. Beachten Sie, dass standardmäßig
SoX kopiert Eingabedateikommentare in Ausgabedateien, die Kommentare unterstützen, sodass Ausgabedateien möglicherweise Kommentare abgeben
enthalten Replay-Gain-Informationen, wenn welche in der Eingabedatei vorhanden waren. In diesem Fall, wenn
Es wurde nichts anderes als eine einfache Formatkonvertierung durchgeführt, dann wurde die Ausgabedatei wiedergegeben
Die Gain-Informationen sind wahrscheinlich falsch und sollten daher mit einem Tool neu berechnet werden
unterstützt dies (nicht SoX).
Das soxi(1) Mit dem Befehl können Informationen aus Audiodatei-Headern angezeigt werden.
Festlegung & Rahmen Das Reichen Sie das Format
Es stehen SoX mehrere Mechanismen zur Verfügung, mit denen das Format ermittelt oder festgelegt werden kann
Eigenschaften einer Audiodatei. Abhängig von den Umständen, individuell
Merkmale können über unterschiedliche Mechanismen ermittelt bzw. eingestellt werden.
Um das Format einer Eingabedatei zu bestimmen, verwendet SoX in der Reihenfolge ihrer Priorität und als
gegeben oder verfügbar:
1. Befehlszeilenformatoptionen.
2. Der Inhalt des Dateiheaders.
3. Die Dateinamenerweiterung.
Um das Ausgabedateiformat festzulegen, verwendet SoX in der Reihenfolge der Priorität und wie angegeben oder
verfügbar:
1. Befehlszeilenformatoptionen.
2. Die Dateinamenerweiterung.
3. Die Eigenschaften des Eingabedateiformats oder das nächstgelegene, das von der Ausgabe unterstützt wird
Dateityp.
Bei allen Dateien wird SoX mit einer Fehlermeldung beendet, wenn der Dateityp nicht ermittelt werden kann. Befehl-
Möglicherweise müssen Optionen für das Zeilenformat hinzugefügt oder geändert werden, um das Problem zu beheben.
Playing & Aufnahme Audio
Das Spiel & Sport und rec Es werden Befehle bereitgestellt, sodass das grundlegende Abspielen und Aufnehmen so einfach wie möglich ist
Vorhandene Datei.wav abspielen
und
rec neue-datei.wav
Diese beiden Befehle sind funktional äquivalent zu
sox bestehende-datei.wav -d
und
sox -d neue-datei.wav
Selbstverständlich können den Befehlen weitere Optionen und Effekte (wie unten beschrieben) hinzugefügt werden
in jeder Form.
* * *
Einige Systeme bieten mehr als einen Typ von (SoX-kompatiblen) Audiotreibern, z. B. ALSA und OSS.
oder SUNAU & AO. Systeme können auch über mehr als ein Audiogerät (auch „Soundkarte“ genannt) verfügen.
Wenn mehr als ein Audiotreiber in SoX integriert wurde und der Standard von SoX ausgewählt wurde
Wenn das Aufnehmen oder Abspielen nicht das ist, was gewünscht wird, dann AUDIOTREIBER -Umgebung
Die Variable kann verwendet werden, um den Standardwert zu überschreiben. Zum Beispiel (auf vielen Systemen):
setze AUDIODRIVER=oss
spielen ...
Das AUDIODEV Umgebungsvariable kann verwendet werden, um das Standard-Audiogerät zu überschreiben, z
setze AUDIODEV=/dev/dsp2
spielen ...
sox ... -t oss
or
setze AUDIODEV=hw:soundwave,1,2
spielen ...
sox ... -t alsa
Beachten Sie, dass die Art und Weise, Umgebungsvariablen festzulegen, von System zu System unterschiedlich ist – für einige
Spezifische Beispiele finden Sie unter „SOX_OPTS“ unten.
Beim Abspielen einer Datei mit einer Abtastrate, die vom Audioausgabegerät nicht unterstützt wird,
SoX ruft das automatisch auf Rate Effekt, um die erforderliche Abtastrate auszuführen
Konvertierung. Aus Kompatibilitätsgründen mit alter Hardware die Standardeinstellung Rate Qualitätsstufe eingestellt ist
„niedrig“. Dies kann durch explizite Angabe von geändert werden Rate Wirkung mit einem anderen
Qualitätsniveau, z
spielen ... bewerten -m
oder mit dem --play-rate-arg Möglichkeit (siehe unten).
* * *
Auf einigen Systemen ermöglicht SoX die Anpassung der Audiowiedergabelautstärke während der Nutzung Spiel & Sport. Woher
Unterstützt wird dies durch Antippen der Tasten „v“ und „V“ während der Wiedergabe.
Um bei der Einstellung eines geeigneten Aufnahmepegels zu helfen, enthält SoX einen Spitzenpegelmesser, der dies kann
kann (vor der eigentlichen Aufnahme) wie folgt aufgerufen werden:
rec -n
Der Aufnahmepegel sollte angepasst werden (mit dem vom System bereitgestellten Mixerprogramm, nicht mit SoX)
damit das Messgerät ist at vor allem warme gelegentlich in vollem Umfang und niemals „rote Zahlen“ (an
Ausrufezeichen wird angezeigt). Siehe auch -S unten mit.
Genauigkeit
Viele Dateiformate, die Audio komprimieren, verwerfen dabei einen Teil der Audiosignalinformationen
dies tun. Das Konvertieren in ein solches Format und das anschließende erneute Konvertieren zurück führt nicht zu einem
exakte Kopie des Originaltons. Dies ist bei vielen in der Telefonie verwendeten Formaten der Fall
(z. B. A-law, GSM), bei denen eine niedrige Signalbandbreite wichtiger ist als eine hohe Audiotreue,
und für viele Formate, die in tragbaren Musikplayern verwendet werden (z. B. MP3, Vorbis), sofern ausreichend
Die Wiedergabetreue kann auch bei den erforderlichen großen Komprimierungsverhältnissen beibehalten werden
Tragbare Player praktisch.
Formate, die Audiosignalinformationen verwerfen, werden als „verlustbehaftet“ bezeichnet. Formate, die dies nicht tun
„verlustfrei“ genannt. Der Begriff „Qualität“ wird als Maß für die Nähe zum Original verwendet
Bei Verwendung eines verlustbehafteten Formats kann das Audiosignal wiedergegeben werden.
Die Konvertierung von Audiodateien mit SoX erfolgt verlustfrei, sofern dies möglich ist, d. h. wenn keine verlustbehaftete Funktion verwendet wird
Komprimierung, wenn die Abtastrate oder Anzahl der Kanäle nicht reduziert wird und wenn die
Die Anzahl der im Zielformat verwendeten Bits ist nicht geringer als im Quellformat. Z.B
Die Konvertierung von einem 8-Bit-PCM-Format in ein 16-Bit-PCM-Format ist verlustfrei, die Konvertierung von
ein 8-Bit-PCM-Format in (8-Bit) A-law ist dies nicht.
NB SoX konvertiert alle Audiodateien vor der Aufführung in ein internes unkomprimiertes Format
jegliche Audioverarbeitung. Dies bedeutet, dass eine Datei manipuliert wird, die in einem verlustbehafteten Format gespeichert ist
kann zu weiteren Verlusten der Audiotreue führen. ZB mit
sox long.mp3 short.mp3 trim 10
SoX dekomprimiert zunächst die eingegebene MP3-Datei und wendet dann die an trimmen Wirkung und schließlich
erstellt die ausgegebene MP3-Datei durch erneute Komprimierung des Audios – mit einer möglichen Reduzierung
Genauigkeit, die höher ist als bei der Erstellung der Eingabedatei. Also, wenn was ist
Da letztendlich verlustbehaftet komprimierte Audiodaten gewünscht werden, wird dringend empfohlen, alle auszuführen
Audioverarbeitung mit verlustfreien Dateiformaten und anschließende Konvertierung in das verlustbehaftete Format
die letzte Etappe.
NB Das Anwenden mehrerer Effekte mit einem einzigen SoX-Aufruf führt im Allgemeinen zu Folgendem:
genauere Ergebnisse als diejenigen, die mit mehreren SoX-Aufrufen erzielt werden.
Dithering
Dithering ist eine Technik, die verwendet wird, um den Dynamikbereich von Audiodaten zu maximieren, die an einem Ort gespeichert sind
bestimmte Bittiefe. Jede durch Quantisierung verursachte Verzerrung wird durch Addition dekorreliert
ein wenig weißes Rauschen im Signal. In den meisten Fällen kann SoX feststellen, ob die
Die ausgewählte Verarbeitung erfordert Dither und fügt es während der Ausgabeformatierung hinzu, wenn
angemessen.
Insbesondere fügt SoX standardmäßig automatisch TPDF-Dither hinzu, wenn die Bittiefe der Ausgabe beträgt
weniger als 24 und eine der folgenden Aussagen ist wahr:
· Die Reduzierung der Bittiefe wurde explizit über eine Befehlszeilenoption angegeben
· Das Ausgabedateiformat unterstützt nur Bittiefen, die niedriger sind als die der Eingabedatei
Format
· Ein Effekt hat die effektive Bittiefe innerhalb der internen Verarbeitungskette erhöht
Zum Beispiel die Lautstärke anpassen mit vol 0.25 erfordert zwei zusätzliche Bits
Speichern Sie die Ergebnisse verlustfrei (da 0.25 Dezimalzahlen 0.01 Binärzahlen entsprechen). Also, wenn die Eingabe
Wenn die Bittiefe der Datei 16 beträgt, verwendet die interne Darstellung von SoX danach 18 Bit
Verarbeitung dieser Lautstärkeänderung. Um die Ausgabe in der gleichen Tiefe wie die zu speichern
Bei der Eingabe wird Dithering verwendet, um die zusätzlichen Bits zu entfernen.
Verwenden Sie das -V Option, um zu sehen, welche Verarbeitung SoX automatisch hinzugefügt hat. Der -D Option kann sein
gegeben, um das automatische Dithering zu überschreiben. Um das Dithering manuell aufzurufen (z. B. um eine auszuwählen
Rauschformungskurve), siehe Dithering Wirkung.
Ausschnitt
Clipping ist eine Verzerrung, die auftritt, wenn der Pegel (oder die Lautstärke) eines Audiosignals den Wert überschreitet
Bereich der gewählten Darstellung. In den meisten Fällen ist ein Abschneiden unerwünscht und sollte es auch sein
korrigiert werden, indem der Pegel vor dem Punkt (in der Verarbeitungskette) angepasst wird, an dem
es passiert.
In SoX kann es erwartungsgemäß zu Clipping kommen, wenn Sie das verwenden vol or gewinnen Effekte auf
Erhöhen Sie die Lautstärke. Clipping kann auch bei vielen anderen Effekten auftreten, wenn
Konvertieren eines Formats in ein anderes und sogar beim einfachen Abspielen des Audios.
Das Abspielen einer Audiodatei erfordert häufig ein Resampling und die Verarbeitung durch analoge Komponenten
Führen Sie einen kleinen DC-Offset und/oder eine kleine Verstärkung ein, die allesamt zu Verzerrungen führen können
Der Audiosignalpegel lag anfangs zu nahe am Clipping-Punkt.
Aus diesen Gründen ist es üblich, sicherzustellen, dass der Signalpegel einer Audiodatei einen gewissen Pegel aufweist
„Headroom“, d. h. es überschreitet nicht einen bestimmten Wert unterhalb des maximal möglichen Werts
für die gegebene Darstellung. Einige Normungsgremien empfehlen einen Headroom von bis zu 9 dB.
aber in den meisten Fällen reichen 3 dB (≈ 70 % linear) aus. Beachten Sie, dass diese Weisheit offenbar vorhanden war
in der modernen Musikproduktion verloren gegangen; Tatsächlich werden viele CDs, MP3s usw. mittlerweile auf Levels gemastert
oben 0dBFS, d. h. der Ton ist im Auslieferungszustand beschnitten.
SoXs Zustand und Statistik Effekte können dabei helfen, den Signalpegel in einer Audiodatei zu bestimmen.
Das gewinnen or vol Der Effekt kann verwendet werden, um Clipping zu verhindern, z
Sox Dull.wav Bright.wav Gain -6 Höhen +6
garantiert, dass die Höhenanhebung nicht übersteuert.
Wenn zu irgendeinem Zeitpunkt während der Verarbeitung ein Clipping auftritt, zeigt SoX eine Warnmeldung an
dieser Effekt.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] -G und den gewinnen und Norm Effekte.
Eingang Reichen Sie das Kombination
Der Eingabekombinierer von SoX kann so konfiguriert werden (siehe OPTIONEN unten), dass er mehrere Dateien kombiniert
eine der folgenden Methoden: „concatenate“, „sequence“, „mix“, „mix-power“, „merge“ oder
„multiplizieren“. Die Standardmethode ist „sequence“ für Spiel & Sportund „verketten“ für rec und Sox.
Für alle Methoden außer „Sequenz“ müssen mehrere Eingabedateien die gleiche Stichprobe aufweisen
Rate. Bei Bedarf können separate SoX-Aufrufe verwendet werden, um Anpassungen der Abtastrate vorzunehmen
vor dem Kombinieren.
Wenn die Kombinationsmethode „Verketten“ ausgewählt ist (normalerweise ist dies die Standardeinstellung), dann
Die Eingabedateien müssen außerdem über die gleiche Anzahl an Kanälen verfügen. Der Ton von jedem Eingang
werden in der angegebenen Reihenfolge verkettet, um die Ausgabedatei zu bilden.
Die Kombinationsmethode „Sequenz“ wird automatisch ausgewählt Spiel & Sport. Es ist ähnlich wie
„verketten“, indem das Audio von jeder Eingabedatei seriell an die Ausgabedatei gesendet wird.
Allerdings kann hier die Ausgabedatei am entsprechenden Übergang geschlossen und wieder geöffnet werden
zwischen Eingabedateien. Dies kann genau das sein, was beim Senden verschiedener Audiotypen benötigt wird
an ein Ausgabegerät, ist jedoch im Allgemeinen nicht nützlich, wenn es sich bei der Ausgabe um eine normale Datei handelt.
Wenn entweder die Kombinationsmethode „Mix“ oder „Mix-Power“ ausgewählt ist, sind zwei oder mehr Eingaben erforderlich
Dateien müssen angegeben werden und werden zur Ausgabedatei zusammengemischt. Die Anzahl der
Die Kanäle in jeder Eingabedatei müssen nicht identisch sein, aber SoX gibt in diesem Fall eine Warnung aus
nicht und einige Kanäle in der Ausgabedatei enthalten nicht Audio aus jeder Eingabedatei. A
Eine gemischte Audiodatei kann nicht ohne Bezugnahme auf die ursprünglichen Eingabedateien entmischt werden.
Wenn die Kombinationsmethode „Zusammenführen“ ausgewählt wird, müssen zwei oder mehr Eingabedateien angegeben werden
werden zusammengeführt, um die Ausgabedatei zu bilden. Die Anzahl der Kanäle in jedem Eingang
Die Datei muss nicht identisch sein. Eine zusammengeführte Audiodatei umfasst alle Kanäle von allen
die Eingabedateien. Das Aufheben der Zusammenführung ist durch mehrere Aufrufe von SoX mit dem möglich remix
Wirkung. Beispielsweise könnten zwei Monodateien zu einer Stereodatei zusammengefügt werden. Der erste
und zweite Monodateien würden zum linken und rechten Kanal der Stereodatei werden.
Die Kombinationsmethode „Multiplizieren“ multipliziert die Abtastwerte der entsprechenden Kanäle
(als Zahlen im Intervall -1 bis +1 behandelt). Wenn die Anzahl der Kanäle im Eingang
Dateien nicht identisch sind, werden davon ausgegangen, dass die fehlenden Kanäle alle Null enthalten.
Beim Kombinieren von Eingabedateien wendet SoX alle angegebenen Effekte an (einschließlich beispielsweise der
vol Lautstärkeanpassungseffekt), nachdem das Audio kombiniert wurde. Dies ist jedoch häufig der Fall
Es ist nützlich, die Lautstärke der Eingänge vorher einzeln einstellen zu können (z. B. „Balance“)
es erfolgt eine Kombination.
Bei allen Kombinationsmethoden können Lautstärkeanpassungen der Eingabedatei mithilfe von manuell vorgenommen werden -v
Option (unten), die für eine oder mehrere Eingabedateien angegeben werden kann. Wenn es nur gegeben ist
Einige der Eingabedateien, andere erhalten keine Lautstärkeanpassung. In einigen
Unter bestimmten Umständen können automatische Lautstärkeanpassungen vorgenommen werden (siehe unten).
Das -V Mit der Option (unten) können Sie die vorgenommenen Lautstärkeanpassungen der Eingabedatei anzeigen
ausgewählt werden (entweder manuell oder automatisch).
Beim Mischen von Eingabedateien sind einige besondere Überlegungen zu beachten:
Im Gegensatz zu den anderen Methoden kann es bei der „Misch“-Kombination zu Übersteuerungen kommen
Combiner, wenn kein Ausgleich erfolgt. In diesem Fall sind manuelle Lautstärkeanpassungen nicht möglich
gegeben, versucht SoX durch automatische Anpassung sicherzustellen, dass es nicht zu Clipping kommt
Lautstärke (Amplitude) jedes Eingangssignals um den Faktor ¹/n, wobei n die Anzahl der Eingänge ist
Dateien. Wenn dies dazu führt, dass der Ton zu leise oder anderweitig unausgeglichen ist, dann ist der Eingang
Dateivolumina können wie oben beschrieben manuell eingestellt werden. Verwendung der Norm Auswirkung auf die Mischung ist
eine weitere Alternative.
Wenn gemischtes Audio an manchen Stellen laut genug, an anderen aber zu leise erscheint, dann ist der Dynamikbereich wichtig
Komprimierung sollte angewendet werden, um dies zu korrigieren – siehe Kompanie Wirkung.
Bei der „Mix-Power“-Mähdreschermethode entspricht das Mischvolumen ungefähr dem von
eines der Eingangssignale. Dies wird durch den Ausgleich mit einem Faktor von ¹/√n erreicht
¹/n. Beachten Sie, dass dieser Ausgleichsfaktor nicht garantiert, dass kein Clipping auftritt
Die Anzahl der Clips ist normalerweise gering und die daraus resultierende Verzerrung ist im Allgemeinen gering
unmerklich.
Ausgang Mappen
Das Standardverhalten von SoX besteht darin, eine oder mehrere Eingabedateien zu nehmen und sie in eine einzige zu schreiben
Ausgabedatei.
Dieses Verhalten kann durch Angabe des Pseudoeffekts „newfile“ innerhalb der Effekte geändert werden
Liste. SoX wechselt dann in den Mehrfachausgabemodus.
Im Mehrfachausgabemodus wird eine neue Datei erstellt, wenn die Effekte vor der „neuen Datei“ ausgeführt werden.
zeigen an, dass sie fertig sind. Anschließend wird die nach „newfile“ aufgeführte Effektkette gestartet und
Die Ausgabe wird in der neuen Datei gespeichert.
Im Mehrfachausgabemodus wird am Ende aller automatisch eine eindeutige Nummer angehängt
Dateinamen. Wenn der Dateiname eine Erweiterung hat, wird die Nummer vor dem eingefügt
Verlängerung. Dieses Verhalten kann angepasst werden, indem an einer beliebigen Stelle im Dateinamen ein %n platziert wird
wo die Nummer ersetzt werden soll. Eine optionale Zahl kann nach dem % bis platziert werden
Geben Sie eine feste Mindestbreite für die Nummer an.
Der Mehrfachausgabemodus ist nicht sehr nützlich, es sei denn, es handelt sich um einen Effekt, der die Effektkette stoppt
„early“ wird vor „newfile“ angegeben. Wenn das Ende der Datei vor den Effekten erreicht wird
Wenn sich die Kette selbst stoppt, wird keine neue Datei erstellt, da diese leer wäre.
Das Folgende ist ein Beispiel für die Aufteilung der ersten 60 Sekunden einer Eingabedatei in zwei 30
zweite Dateien und ignoriere den Rest.
sox song.wav ringtone%1n.wav trim 0 30 : newfile : trim 0 30
Einstellung Sox
Normalerweise schließt SoX seine Verarbeitung ab und beendet sich automatisch, sobald alles gelesen wurde
verfügbare Audiodaten aus den Eingabedateien.
Falls gewünscht, kann er früher beendet werden, indem ein Interrupt-Signal an den Prozess gesendet wird
(normalerweise durch Drücken der Tastaturunterbrechungstaste, normalerweise Strg-C). Das ist ein
Dies ist unter bestimmten Umständen eine natürliche Anforderung, z. B. wenn SoX zum Erstellen einer Aufnahme verwendet wird. Notiz
dass sich Strg-C bei Verwendung von SoX zum Abspielen mehrerer Dateien etwas anders verhält: Drücken
es bewirkt einmal, dass SoX zur nächsten Datei springt; Durch zweimaliges schnelles Drücken wird ausgelöst
SoX zum Beenden.
Eine weitere Möglichkeit, die Verarbeitung vorzeitig zu stoppen, besteht darin, einen Effekt zu verwenden, der einen Zeitraum hat oder
Stichprobenanzahl zur Bestimmung des Stopppunkts. Ein Beispiel hierfür ist der Trim-Effekt. Einmal
Wenn alle Effektketten gestoppt sind, stoppt auch SoX.
DATEINAMEN
Dateinamen können einfache Dateinamen, absolute oder relative Pfadnamen oder URLs (Eingabedateien) sein
nur). Beachten Sie, dass die URL-Unterstützung dies erfordert wget(1) ist verfügbar.
Hinweis: Geben Sie SoX einen Eingabe- oder Ausgabedateinamen, der mit dem Namen eines SoX-Effekts übereinstimmt
funktioniert nicht, da SoX es als Effektspezifikation behandelt. Die einzige Möglichkeit, dies zu umgehen
ist, solche Dateinamen zu vermeiden. Dies ist im Allgemeinen nicht schwierig, da die meisten Audiodateien Namen haben
haben eine Dateinamenerweiterung, Effektnamen hingegen nicht.
Spezial Dateinamen
Die folgenden speziellen Dateinamen können unter bestimmten Umständen anstelle eines normalen verwendet werden
Dateiname in der Befehlszeile:
- SoX kann in einfachen Pipeline-Operationen verwendet werden, indem der spezielle Dateiname „-“ verwendet wird.
Dies führt bei Verwendung als Eingabedateiname dazu, dass SoX Audiodaten ausliest
„Standardeingabe“ (stdin), und wenn es als Ausgabedateiname verwendet wird, verursacht es SoX
sendet Audiodaten an die „Standardausgabe“ (stdout). Beachten Sie dies, wenn Sie dies verwenden
Option für die Ausgabedatei und manchmal, wenn sie für eine Eingabedatei verwendet wird, die
Dateityp (siehe -t unten) müssen ebenfalls angegeben werden.
"|Programm [Optionen] ... ..."
Dies kann anstelle eines Eingabedateinamens verwendet werden, um das angegebene Programm anzugeben
Als Eingabedatei kann die Standardausgabe (stdout) verwendet werden. nicht wie - (oben), das kann sein
Wird für mehrere Eingaben in einen SoX-Befehl verwendet. Wenn beispielsweise „genw“ Mono generiert
WAV-formatierte Signale an die Standardausgabe senden, dann erstellt der folgende Befehl eine
Stereodatei aus zwei generierten Signalen:
sox -M "|genw --imd -" "|genw --thd -" out.wav
Für headerloses (rohes) Audio: -t (und möglicherweise andere Formatoptionen) müssen sein
angegeben, vor dem Eingabebefehl.
"Wildcard-Dateiname"
Gibt an, dass das Dateinamen-Globbing (Wildcard-Abgleich) von SoX durchgeführt werden soll
statt durch die Schale. Dadurch kann ein einzelner Satz von Dateioptionen angewendet werden
eine Gruppe von Dateien. Wenn das aktuelle Verzeichnis beispielsweise drei „vox“ enthält
Dateien, Datei1.vox, Datei2.vox und Datei3.vox
play --rate 6k *.vox
wird durch die „Shell“ (in den meisten Umgebungen) erweitert
play --rate 6k file1.vox file2.vox file3.vox
Dadurch wird nur die erste Vox-Datei mit einer Abtastrate von 6 KB behandelt. Mit
play --rate 6k „*.vox“
Die angegebene Abtastratenoption wird auf alle drei VOX-Dateien angewendet.
-p, --sox-pipe
Dies kann anstelle eines Ausgabedateinamens verwendet werden, um den SoX-Befehl anzugeben
sollte wie in der Eingabepipe zu einem anderen SoX-Befehl verwendet werden. Zum Beispiel der Befehl:
play "|sox -n -p synth 2" "|sox -n -p synth 2 tremolo 10" stat
spielt zwei „Dateien“ nacheinander ab, jede mit unterschiedlichen Effekten.
-p ist tatsächlich ein Alias für „-t Sox -'.
-d, --Standard Gerät
Dies kann anstelle eines Eingabe- oder Ausgabedateinamens verwendet werden, um anzugeben, dass die
Es soll das Standard-Audiogerät (falls eines in SoX eingebaut wurde) verwendet werden. Das ist ähnlich
aufrufen rec or Spiel & Sport (wie oben beschrieben).
-n, --Null
Dies kann anstelle eines Eingabe- oder Ausgabedateinamens verwendet werden, um anzugeben, dass ein „Null“ vorliegt
Datei' verwendet werden soll. Beachten Sie, dass sich „Nulldatei“ hier auf eine SoX-spezifische Datei bezieht
Mechanismus und steht in keinem Zusammenhang mit einem Betriebssystemmechanismus mit ähnlichem Namen.
Die Verwendung einer Nulldatei zur Audioeingabe entspricht der Verwendung einer normalen Audiodatei
enthält unendlich viel Stille und ist daher im Allgemeinen nicht nützlich, es sei denn
Wird mit einem Effekt verwendet, der eine endliche Zeitdauer angibt (z. B trimmen or Synth).
Die Verwendung einer Nulldatei zur Audioausgabe kommt einem Verwerfen des Audios gleich und ist nützlich
hauptsächlich mit Effekten, die Informationen über den Ton erzeugen, anstatt ihn zu beeinflussen
es (wie z Lärmprof or Zustand).
Die einer Nulldatei zugeordnete Abtastrate beträgt standardmäßig 48 kHz, aber wie bei a
Wenn es sich um eine normale Datei handelt, kann dies bei Bedarf mithilfe von Befehlszeilenformatoptionen überschrieben werden
(siehe unten).
Unterstützte Reichen Sie das & Audio Gerät Typen
Weitere Informationen finden Sie auch in den soxformat(7) für eine Liste und Beschreibung der unterstützten Dateiformate und Audiogeräte
Treiber.
OPTIONAL
Global Optionen
Diese Optionen können jederzeit vor dem ersten Effekt in der Befehlszeile angegeben werden
Namen.
Das SOX_OPTS Umgebungsvariable kann verwendet werden, um alternative Standardwerte für bereitzustellen
Die globalen Optionen von SoX. Zum Beispiel:
SOX_OPTS="--buffer 20000 --play-rate-arg -hs --temp /mnt/temp"
Beachten Sie, dass das Festlegen von SOX_OPTS möglicherweise zu unerwünschten Änderungen im Verhalten von führen kann
Skripte oder andere Programme, die SoX aufrufen. SOX_OPTS könnte am besten für Dinge verwendet werden (z
(wie im gegebenen Beispiel), die die Umgebung widerspiegeln, in der SoX ausgeführt wird. Aktivieren
Optionen wie --no-clobber da die Standardeinstellung möglicherweise besser mit einem Shell-Alias gehandhabt werden kann
Ein Shell-Alias hat keinen Einfluss auf den Betrieb in Skripten usw.
Eine Möglichkeit sicherzustellen, dass ein Skript nicht von SOX_OPTS beeinflusst werden kann, besteht darin, SOX_OPTS am zu löschen
Anfang des Skripts, aber dadurch geht natürlich der Vorteil verloren, den SOX_OPTS mit sich bringt
systemweite Standardoptionen. Ein alternativer Ansatz besteht darin, SoX explizit mit aufzurufen
Standardoptionswerte, z. B
SOX_OPTS="-V --no-clobber"
...
sox -V2 --clobber $input $output ...
Beachten Sie, dass die Art und Weise, Umgebungsvariablen festzulegen, von System zu System unterschiedlich ist. Hier sind einige
Beispiele:
Unix-Bash:
export SOX_OPTS="-V --no-clobber"
Unix-csh:
setenv SOX_OPTS "-V --no-clobber"
MS-DOS/MS-Windows:
setze SOX_OPTS=-V --no-clobber
MS-Windows-GUI: über Systemsteuerung: System: Erweitert: Umgebungsvariablen
Mac OS
--Puffer BYTE, --input-buffer BYTE
Legen Sie die Größe der für die Audioverarbeitung verwendeten Puffer in Bytes fest (Standard: 8192).
--Puffer gilt für Eingabe, Effekte und Ausgabeverarbeitung; --input-buffer gilt
nur für die Eingabeverarbeitung (für die es Vorrang hat). --Puffer wenn beides gegeben ist).
Beachten Sie, dass große Werte für --Puffer führt dazu, dass SoX langsamer reagiert
auf Anfragen zum Beenden oder Überspringen der aktuellen Eingabedatei.
--Klamotten
Fragen Sie nicht nach, bevor Sie eine vorhandene Datei mit demselben Namen wie der angegebenen überschreiben
für die Ausgabedatei. Dies ist das Standardverhalten.
--kombinieren verketten|fusionieren|mischen|Mix-Power|multiplizieren|Reihenfolge
Wählen Sie die Methode zum Kombinieren der Eingabedatei aus. Für einige davon gibt es kurze Optionen
verfügbar: -m wählt „Mix“, -M wählt „Zusammenführen“ und -T wählt „multiplizieren“.
Weitere Informationen finden Sie auch in den Eingang Reichen Sie das Kombination oben finden Sie eine Beschreibung der verschiedenen Kombinationen
Methoden.
-D, --kein Zittern
Deaktivieren Sie das automatische Dithering – siehe „Dithering“ oben. Ein Beispiel dafür, warum das so sein könnte
Gelegentlich kann es nützlich sein, wenn eine Datei mit dem von 16 auf 24 Bit konvertiert wurde
Ich habe die Absicht, etwas zu verarbeiten, aber tatsächlich ist danach keine weitere Verarbeitung erforderlich
alles und die ursprüngliche 16-Bit-Datei ist verloren gegangen, dann gibt es genau genommen kein Dither
wird benötigt, wenn die Datei zurück in 16 Bit konvertiert wird. Siehe auch die Statistik Wirkung für wie
um die tatsächliche Bittiefe des Audios in einer Datei zu bestimmen.
--effects-Datei DATEINAME
Verwenden Sie FILENAME, um alle Effekte und ihre Argumente abzurufen. Die Datei wird so analysiert, als ob
Die Werte wurden in der Befehlszeile angegeben. Anstelle von kann eine neue Zeile verwendet werden
das Sonderangebot : Marker zum Trennen von Effektketten. Der Einfachheit halber sind solche Markierungen bei
das Ende der Datei werden normalerweise ignoriert; wenn Sie einen leeren Leisten angeben möchten
Effektkette, verwenden Sie eine explizite : allein in der letzten Zeile der Datei. Das
Die Option bewirkt, dass alle in der Befehlszeile angegebenen Effekte verworfen werden.
-G, --bewachen
Rufen Sie automatisch auf gewinnen Effekt zum Schutz vor Clipping. Z.B
sox -G infile -b 16 outfile rate 44100 dither -s
ist eine Abkürzung für
Sox Infile -b 16 Outfile Gain -h Rate 44100 Gain -rh Dither -s
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] -V, --Norm, und den gewinnen Wirkung.
-h, --help
Versionsnummer und Nutzungsinformationen anzeigen.
--help-effect NAME/FUNKTION
Nutzungsinformationen zum angegebenen Effekt anzeigen. Der Name alle kann verwendet werden, um zu zeigen
Verwendung für alle Effekte.
--help-format NAME/FUNKTION
Informationen zum angegebenen Dateiformat anzeigen. Der Name alle kann verwendet werden, um zu zeigen
Informationen zu allen Formaten.
--ich, --die Info
Nur wenn als erster Parameter angegeben Sox, benimm dich wie soxi(1).
-m|-M Gleichwertig --kombinieren mischen und --kombinieren fusionieren, Bzw.
--Magie
Wenn SoX mit der optionalen Bibliothek „libmagic“ erstellt wurde, kann diese Option verfügbar sein
bereitgestellt, um seine Verwendung bei der Erkennung von Audiodateitypen zu ermöglichen.
--multithreaded | - Single-Threaded
Standardmäßig ist SoX „Single-Threaded“. Wenn die --multithreaded Option gegeben ist
Dann verarbeitet SoX jedoch Audiokanäle für die meisten Mehrkanaleffekte
parallel auf Hyper-Threading/Multi-Core-Architekturen. Dies kann die Verarbeitung reduzieren
Zeit, obwohl es manchmal notwendig sein kann, diese Option in Verbindung mit a zu verwenden
Größere Puffergröße als die Standardgröße, um die Vorteile von Multithreading zu nutzen
Verarbeitung (z. B. 131072; siehe --Puffer über).
--no-clobber
Fragen Sie nach, bevor Sie eine vorhandene Datei mit demselben Namen wie dem für überschreiben
Ausgabedatei.
NB Das unbeabsichtigte Überschreiben einer Datei ist einfacher als Sie vielleicht denken
zum Beispiel, wenn Sie versehentlich eintreten
sox Datei1 Datei2 Effekt1 Effekt2 ...
als das, was du wirklich meintest, war
Datei1 abspielen Datei2 Effekt1 Effekt2 ...
dann wird Datei2 ohne diese Option überschrieben. Daher ist die Verwendung dieser Option
empfohlen. SOX_OPTS (oben) kann ein „Shell“-Alias, ein Skript oder eine Batchdatei sein
geeigneten Weg, dies dauerhaft zu ermöglichen.
--Norm[=dB-Pegel]
Rufen Sie automatisch auf gewinnen Effekt zum Schutz vor Clipping und zur Normalisierung der
Audio. Z.B
sox --norm infile -b 16 outfile rate 44100 dither -s
ist eine Abkürzung für
Sox Infile -b 16 Outfile Gain -h Rate 44100 Gain -nh Dither -s
Optional kann der Ton auf einen bestimmten Pegel (normalerweise) unter 0 dBFS normalisiert werden:
sox --norm=-3 Infile Outfile
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] -V, -G, und den gewinnen Wirkung.
--play-rate-arg ARG
Wählt eine Qualitätsoption aus, die verwendet werden soll, wenn der „Rate“-Effekt automatisch aufgerufen wird
während der Audiowiedergabe. Diese Option wird normalerweise über eingestellt SOX_OPTS -Umgebung
Variable (siehe oben).
--Handlung Gnuplot|Oktave|WOW!
Wenn nicht eingestellt WOW! (die Standardeinstellung, wenn --Handlung ist nicht angegeben), in einem Modus ausgeführt werden, der sein kann
Wird in Verbindung mit dem Programm gnuplot oder dem Programm GNU Octave zur Unterstützung verwendet
mit der Auswahl und Konfiguration vieler Übertragungsfunktionen
Auswirkungen. Für den ersten gegebenen Effekt, der das ausgewählte Plotprogramm unterstützt,
SoX gibt Befehle aus, um die Übertragungsfunktion des Effekts zu zeichnen, und beendet es dann
ohne tatsächlich Audio zu verarbeiten. Z.B
sox --plot octave input-file -n highpass 1320 > highpass.plt
Oktavhochpass.plt
-q, --no-show-progress
Im stillen Modus ausführen, wenn SoX dies sonst nicht tun würde. Dies ist das Gegenteil von
-S .
-R Im wiederholbaren Modus ausführen. Wenn diese Option gegebenenfalls gegeben ist, wird SoX dies tun
Einen festen Zeitstempel in die Ausgabedatei einbetten (z. B AIFF) und wird ein Pseudo-„Seed“ erzeugen
Zufallszahlengeneratoren (z Dithering) mit einer festen Nummer, wodurch dies sichergestellt wird
Aufeinanderfolgende SoX-Aufrufe mit denselben Eingaben und denselben Parametern ergeben die
gleiche Ausgabe.
--noch einmal spielen verfolgen sind |Album|WOW!
Wählen Sie aus, ob die Wiedergabeverstärkungsanpassung auf Eingabedateien angewendet werden soll oder nicht. Der Standard
is WOW! für den Sox und rec, Album für den Spiel & Sport wo (mindestens) die ersten beiden Eingabedateien
sind mit den gleichen Künstler- und Albumnamen getaggt und verfolgen sind für den Spiel & Sport Andernfalls.
-S, --Fortschritt anzeigen
Zeigt Informationen zum Format/Header der Eingabedatei und den Verarbeitungsfortschritt als Eingabe an
Fertigstellungsgrad der Datei(en), verstrichene Zeit und verbleibende Zeit (sofern bekannt; angezeigt in
Klammern) und die Anzahl der in die Ausgabedatei geschriebenen Samples. Ebenfalls abgebildet ist ein
Spitzenpegelmesser und eine Anzeige, ob eine Übersteuerung aufgetreten ist. Der Spitzenpegelmesser
zeigt bis zu zwei Kanäle an und ist wie folgt für digitales Audio kalibriert (rechts
Kanal angezeigt):
dB FSD Display dB FSD Display
-25 - -11 ====
-23 = -9 ====-
-21 =- -7 =====
-19 == -5 =====-
-17 ==- -3 ======
-15 === -1 =====!
-13 ===-
Rechts daneben wird ein drei Sekunden lang gehaltener Spitzenwert des Headrooms in dB angezeigt
Messgerät, wenn dieser unter 6 dB liegt.
Diese Option ist standardmäßig aktiviert, wenn Sie SoX zum Abspielen oder Aufzeichnen von Audio verwenden.
-T Gleichwertig --kombinieren multiplizieren.
--temp DIRECTORY
Geben Sie an, dass alle temporären Dateien in der angegebenen Datei erstellt werden sollen DIRECTORY. Dies
kann nützlich sein, wenn es Probleme mit der Berechtigung oder dem freien Speicherplatz mit der Standardeinstellung gibt
Standort. In diesem Fall verwenden Sie „--temp .' (um das aktuelle Verzeichnis zu verwenden) ist oft a
gute Lösung.
--Version
Versionsnummer von SoX anzeigen und beenden.
-V[Grad des ]
Ausführlichkeit festlegen. Dies ist besonders nützlich, um zu sehen, wie sich automatische Effekte auswirken
wurden von SoX aufgerufen.
SoX zeigt Meldungen auf der Konsole (stderr) entsprechend der folgenden Ausführlichkeit an
Ebenen:
0 Es werden überhaupt keine Meldungen angezeigt; Verwenden Sie den Exit-Status, um festzustellen, ob ein Fehler vorliegt
ist vorgefallen.
1 Es werden nur Fehlermeldungen angezeigt. Diese werden generiert, wenn SoX nicht abgeschlossen werden kann
die angeforderten Befehle.
Außerdem werden 2 Warnmeldungen angezeigt. Diese werden generiert, wenn SoX abgeschlossen werden kann
die angeforderten Befehle, entsprechen jedoch nicht genau dem angeforderten Befehl
Parameter oder wenn Clipping auftritt.
3 Beschreibungen der Verarbeitungsphasen von SoX werden ebenfalls angezeigt. Nützlich zum Sehen
genau, wie SoX Ihr Audio verarbeitet.
4 und höher
Es werden auch Meldungen angezeigt, die beim Debuggen von SoX helfen.
Standardmäßig ist die Ausführlichkeitsstufe auf 2 eingestellt (zeigt Fehler und Warnungen an). Jede
Auftreten der -V Option erhöht die Ausführlichkeitsstufe um 1. Alternativ kann die
Der Ausführlichkeitsgrad kann auf eine absolute Zahl festgelegt werden, indem er unmittelbar danach angegeben wird
-V, z.B -V0 setzt es auf 0.
Eingang Reichen Sie das Optionen
Diese Optionen gelten nur für Eingabedateien und dürfen nur den Eingabedateinamen vorangestellt werden
Befehlszeile.
--ignore-length
Überschreiben Sie eine (falsche) Audiolänge, die im Header einer Audiodatei angegeben ist. Wenn dies
Wenn die Option angegeben ist, liest SoX das Audio weiter, bis das Ende erreicht ist
Eingabedatei.
-v, --Volumen FAKTOR
Diese Option ist für die Kombination mehrerer Eingabedateien gedacht und passt die an
Volumen der darauf folgenden Datei in der Befehlszeile um den Faktor FAKTOR. Dies
ermöglicht einen „Ausgleich“ im Verhältnis zu den anderen Eingabedateien. Dies ist eine lineare
(Amplituden-)Anpassung, sodass eine Zahl kleiner als 1 die Lautstärke und eine Zahl verringert
größer als 1 erhöht es. Wenn eine negative Zahl angegeben ist, dann zusätzlich zu
Bei der Lautstärkeregelung wird das Audiosignal invertiert.
Siehe auch die Norm, vol und gewinnen Effekte, und sehen Eingang Reichen Sie das Betriebsauswuchten zu teilen.
Eingang & Ausgang Reichen Sie das Format Optionen
Diese Optionen gelten für die Eingabe- oder Ausgabedatei, deren Namen sie unmittelbar voranstellen
Befehlszeile und werden hauptsächlich bei der Arbeit mit Dateiformaten ohne Header verwendet oder wenn
Angabe eines Formats für die Ausgabedatei, das sich von dem der Eingabedatei unterscheidet.
-b BITS, - Bits BITS
Die Anzahl der Bits (auch Bittiefe oder manchmal Wortlänge genannt) in jedem kodierten Code
Probe. Gilt nicht für komplexe Kodierungen wie MP3 oder GSM. Nicht nötig
mit Kodierungen, die eine feste Anzahl von Bits haben, zB A/μ-law, ADPCM.
Bei einer Eingabedatei besteht die häufigste Verwendung dieser Option darin, SoX darüber zu informieren
Anzahl der Bits pro Sample in einer „rohen“ („headerlosen“) Audiodatei. Zum Beispiel
sox -r 16k -e signiert -b 8 input.raw output.wav
konvertiert eine bestimmte „Rohdatei“ in eine selbstbeschreibende „WAV“-Datei.
Für eine Ausgabedatei kann diese Option verwendet werden (vielleicht zusammen mit -e), um die einzustellen
Ausgabekodierungsgröße. Standardmäßig (dh wenn diese Option nicht angegeben ist) erfolgt die Ausgabe
Die Kodierungsgröße wird (sofern sie vom Ausgabedateityp unterstützt wird) auf eingestellt
die Größe der Eingabekodierung. Zum Beispiel
sox input.cdda -b 24 output.wav
Konvertiert rohes digitales CD-Audio (16-Bit, vorzeichenbehaftete Ganzzahl) in ein 24-Bit-Format (vorzeichenbehaftete Ganzzahl).
„WAV“-Datei.
-1/-2/-3/-4/-8
Die Anzahl der Bytes in jedem codierten Beispiel. Veraltete Aliase für -b 8, -b 16, -b
24, -b 32, -b 64 beziehungsweise.
-c KANÄLE, --Kanäle KANÄLE
Die Anzahl der Audiokanäle in der Audiodatei. Dies kann eine beliebige Zahl größer sein als
Null.
Bei einer Eingabedatei besteht die häufigste Verwendung dieser Option darin, SoX darüber zu informieren
Anzahl der Kanäle in einer „rohen“ („headerlosen“) Audiodatei. Gelegentlich kann es sein
Es ist sinnvoll, diese Option mit einer „Header“-Datei zu verwenden, um die zu überschreiben
(vermutlich falscher) Wert im Header – beachten Sie, dass dies nur mit unterstützt wird
bestimmte Dateitypen. Beispiele:
sox -r 48k -e float -b 32 -c 2 input.raw output.wav
konvertiert eine bestimmte „Rohdatei“ in eine selbstbeschreibende „WAV“-Datei.
play -c 1 music.wav
interpretiert die Dateidaten als zu einem einzelnen Kanal gehörend, unabhängig davon, um welchen Kanal es sich handelt
im Dateikopf angegeben. Beachten Sie, dass die Datei tatsächlich zwei enthält
Dies führt dazu, dass die Datei mit halber Geschwindigkeit abgespielt wird.
Für eine Ausgabedatei bietet diese Option eine Kurzform zur Angabe, dass die
Kanäle Der Effekt sollte aufgerufen werden, um (falls erforderlich) die Anzahl zu ändern
Kanäle im Audiosignal auf die angegebene Nummer. Zum Beispiel die folgenden beiden
Befehle sind äquivalent:
sox input.wav -c 1 output.wav bass -b 24
sox input.wav output.wav bass -b 24 Kanäle 1
Allerdings ist die zweite Form flexibler, da sie die Reihenfolge der Effekte ermöglicht
willkürlich.
-e CODIERUNG, --Codierung CODIERUNG
Der Audiokodierungstyp. Wird manchmal bei Dateitypen benötigt, die mehr als unterstützen
ein Kodierungstyp. Zum Beispiel mit Raw, WAV oder AU (aber nicht zum Beispiel mit
MP3 oder FLAC). Die verfügbaren Kodierungstypen sind wie folgt:
vorzeichenbehaftete ganze Zahl
PCM-Daten werden als vorzeichenbehaftete Ganzzahlen („Zweierkomplement“) gespeichert. Wird häufig mit verwendet
eine 16- oder 24-Bit-Kodierungsgröße. Ein Wert von 0 stellt das minimale Signal dar
Stromversorgung.
vorzeichenlose Ganzzahl
PCM-Daten werden als vorzeichenlose Ganzzahlen gespeichert. Wird häufig mit einer 8-Bit-Kodierung verwendet
Größe. Ein Wert von 0 stellt die maximale Signalleistung dar.
Gleitkomma
PCM-Daten werden als IEEE 753-Einzelpräzision (32 Bit) oder Doppelpräzision gespeichert
(64-Bit) Gleitkommazahlen („reelle“) Zahlen. Ein Wert von 0 stellt das Minimum dar
Signalleistung.
ein Gesetz Internationaler Telefoniestandard für die logarithmische Kodierung auf 8 Bit pro Sekunde
Probe. Die Genauigkeit entspricht etwa 13-Bit-PCM und ist es auch
manchmal mit umgekehrter Bitreihenfolge codiert (siehe -X Möglichkeit).
U-Recht, Mu-Gesetz
Nordamerikanischer Telefonstandard für die logarithmische Kodierung mit 8 Bit pro Sekunde
Probe. Auch bekannt als μ-Gesetz. Die Genauigkeit entspricht etwa 14-Bit-PCM
und wird manchmal mit umgekehrter Bitreihenfolge codiert (siehe -X Möglichkeit).
oki-adpcm
OKI (auch bekannt als VOX, Dialogic oder Intel) 4-Bit ADPCM; es hat eine Präzision
entspricht etwa 12-Bit-PCM. ADPCM ist eine Form der Audiokomprimierung
hat einen guten Kompromiss zwischen Audioqualität und Kodierungs-/Dekodierungsgeschwindigkeit.
ima-adpcm
IMA (auch bekannt als DVI) 4-Bit ADPCM; es hat eine Genauigkeit, die ungefähr entspricht
13-Bit-PCM.
ms-adpcm
Microsoft 4-Bit ADPCM; Die Genauigkeit entspricht etwa 14-Bit-PCM.
GSM-Vollrate
GSM wird derzeit für die überwiegende Mehrheit der digitalen drahtlosen Verbindungen weltweit verwendet
Anrufe. Es verwendet mehrere Audioformate mit unterschiedlichen Bitraten
und die damit verbundene Sprachqualität. SoX unterstützt die ursprünglichen 13 Kbit/s von GSM
„Full Rate“-Audioformat. Die Arbeit mit GSM ist in der Regel rechenintensiv
Audio.
Codierungsnamen können abgekürzt werden, wenn dies nicht mehrdeutig wäre; z.B
„unsigned-integer“ kann als „un“ angegeben werden, nicht jedoch als „u“ (mehrdeutig mit „u-law“).
Bei einer Eingabedatei besteht die häufigste Verwendung dieser Option darin, SoX darüber zu informieren
Kodierung einer „rohen“ („headerlosen“) Audiodatei (siehe die Beispiele in -b und -c
über).
Für eine Ausgabedatei kann diese Option verwendet werden (vielleicht zusammen mit -b), um die einzustellen
Ausgabekodierungstyp Zum Beispiel
sox input.cdda -e float output1.wav
sox input.cdda -b 64 -e float output2.wav
Konvertieren Sie rohes digitales CD-Audio (16-Bit, vorzeichenbehaftete Ganzzahl) in Gleitkomma-WAV-Dateien
(einfache bzw. doppelte Genauigkeit).
Standardmäßig (dh wenn diese Option nicht angegeben ist) wird der Ausgabekodierungstyp verwendet
(vorausgesetzt, es wird vom Ausgabedateityp unterstützt) auf die Eingabekodierung eingestellt werden
Art.
-s/-u/-f/-A/-U/-o/-i/-a/-g
Veraltete Aliase zur Angabe der Kodierungstypen vorzeichenbehaftete ganze Zahl, ohne Vorzeichen-
ganze Zahl, Gleitkomma, ein Gesetz, Mu-Gesetz, oki-adpcm, ima-adpcm, ms-adpcm, GSM-Voll-
Rate bzw. (vgl -e über).
--no-glob
Gibt an, dass Dateinamen-Globbing (Wildcard-Abgleich) nicht durchgeführt werden soll
SoX für den folgenden Dateinamen. Wenn das aktuelle Verzeichnis beispielsweise die enthält
dann zwei Dateien „fünf-sekunden.wav“ und „fünf*.wav“.
play --no-glob „fünf*.wav“
kann verwendet werden, um nur die einzelne Datei „fünf*.wav“ abzuspielen.
-R, --Bewertung PREIS[k]
Gibt die Abtastrate der Datei in Hz (oder kHz, wenn „k“ angehängt wird) an.
Bei einer Eingabedatei besteht die häufigste Verwendung dieser Option darin, SoX darüber zu informieren
Abtastrate einer „rohen“ („headerlosen“) Audiodatei (siehe die Beispiele in -b und -c
über). Gelegentlich kann es nützlich sein, diese Option mit einer Datei mit „Header“ zu verwenden.
um den (vermutlich falschen) Wert im Header zu überschreiben – beachten Sie das
Dies wird nur bei bestimmten Dateitypen unterstützt. Zum Beispiel, wenn Audio aufgezeichnet wurde
mit einer Abtastrate von sagen wir 48k von einer Quelle, die ein wenig wiedergegeben wurde, sagen wir 1.5 %,
also zu langsam
sox -r 48720 Eingabe.wav Ausgabe.wav
Korrigiert effektiv die Geschwindigkeit, indem nur der Dateikopf geändert wird (siehe aber auch die
Geschwindigkeit Effekt für die üblichere Lösung dieses Problems).
Für eine Ausgabedatei bietet diese Option eine Kurzform zur Angabe, dass die Rate
Der Effekt sollte aufgerufen werden, um (falls erforderlich) die Abtastrate des zu ändern
Audiosignal auf den angegebenen Wert. Die folgenden zwei Befehle lauten beispielsweise
Äquivalent:
sox input.wav -r 48k output.wav bass -b 24
sox input.wav output.wav bass -b 24 rate 48k
obwohl die zweite Form flexibler ist, da sie es zulässt Rate zu gebende Optionen und
ermöglicht eine beliebige Anordnung der Effekte.
-t, --Typ DATEITYP
Gibt den Typ der Audiodatei an. Diese Option gilt sowohl für Eingabe- als auch für Ausgabedateien
Wird häufig verwendet, um SoX über den Typ einer „headerlosen“ Audiodatei (z. B. Raw, MP3) zu informieren.
wobei der tatsächliche/gewünschte Typ nicht anhand einer bestimmten Dateinamenerweiterung ermittelt werden kann.
Beispielsweise:
ein anderer Befehl | sox -t mp3 - Ausgabe.wav
sox input.wav -t raw-output.bin
Es kann auch verwendet werden, um den durch eine Eingabedateinamenerweiterung implizierten Typ zu überschreiben.
Beim Überschreiben mit einem Typ, der über einen Header verfügt, wird SoX jedoch mit einem entsprechenden beendet
Fehlermeldung, wenn ein solcher Header tatsächlich nicht vorhanden ist.
Weitere Informationen finden Sie auch in den soxformat(7) für eine Liste der unterstützten Dateitypen.
-L, --endian wenig
-B, --endian groß
-x, --endian tauschen
Diese Optionen legen fest, ob die Bytereihenfolge der Audiodaten jeweils
„Little Endian“, „Big Endian“ oder das Gegenteil des Systems, auf dem SoX läuft
wird benutzt. Endianness gilt nur für Daten, die als Gleitkomma oder als codiert sind
vorzeichenbehaftete oder vorzeichenlose Ganzzahlen mit 16 oder mehr Bits. Oftmals ist eine Angabe erforderlich
eine dieser Optionen für Dateien ohne Header und manchmal notwendig für (sonst)
selbstbeschreibende Dateien. Eine bestimmte Endian-Einstellungsoption kann für eine Eingabe ignoriert werden
Datei, deren Header einen bestimmten Endianness-Bezeichner enthält, oder für eine Ausgabedatei
Das ist eigentlich ein Audiogerät.
NB Im Gegensatz zu anderen Formatmerkmalen ist die Endianness (Byte, Nibble und Bit
Reihenfolge) der Eingabedatei wird nicht automatisch für die Ausgabedatei verwendet; so für
Beispiel, wenn Folgendes auf einem Little-Endian-System ausgeführt wird:
sox -B audio.s16 getrimmt.s16 trim 2
trimmed.s16 wird als Little-Endian erstellt;
sox -B audio.s16 -B getrimmt.s16 trim 2
muss verwendet werden, um Big-Endianness in der Ausgabedatei beizubehalten.
Das -V Mit dieser Option können die ausgewählten Bestellungen überprüft werden.
-N, --reverse-nibbles
Gibt die Nibble-Reihenfolge (dh die beiden Hälften eines Bytes) der Samples an
sollte umgekehrt werden; Manchmal nützlich bei ADPCM-basierten Formaten.
NB Siehe auch NB im Abschnitt über -x zu teilen.
-X, --reverse-bits
Gibt an, dass die Bitreihenfolge der Samples umgekehrt werden soll; manchmal nützlich
mit einigen (meist headerlosen) Formaten.
NB Siehe auch NB im Abschnitt über -x zu teilen.
Ausgang Reichen Sie das Format Optionen
Diese Optionen gelten nur für die Ausgabedatei und dürfen nur vor dem Namen der Ausgabedatei stehen
die Befehlszeile.
--einen Kommentar hinzufügen TEXT
Fügen Sie ggf. einen Kommentar in den Header der Ausgabedatei ein.
--Kommentar TEXT
Geben Sie den Kommentartext an, der im Header der Ausgabedatei gespeichert werden soll (sofern zutreffend).
SoX stellt einen Standardkommentar bereit, wenn diese Option (bzw --Kommentardatei) ist nicht gegeben.
Um anzugeben, dass kein Kommentar in der Ausgabedatei gespeichert werden soll, verwenden Sie --Kommentar "" .
--Kommentardatei DATEINAME
Geben Sie eine Datei mit dem Kommentartext an, der im Header der Ausgabedatei gespeichert werden soll
(wo anwendbar).
-C, --Kompression FAKTOR
Der Komprimierungsfaktor zur variablen Komprimierung von Ausgabedateiformaten. Wenn dies
Wenn diese Option nicht angegeben ist, gilt ein Standardkomprimierungsfaktor. Die Komprimierung
Der Faktor wird für verschiedene Komprimierungsdateiformate unterschiedlich interpretiert. Siehe die
Beschreibung der Dateiformate, die diese Option verwenden soxformat(7) für mehr
Informationen.
AUSWIRKUNGEN
Neben dem Konvertieren, Abspielen und Aufzeichnen von Audiodateien kann SoX zum Aufrufen von a verwendet werden
Anzahl der Audio-„Effekte“. Mehrere Effekte können angewendet werden, indem sie nacheinander angegeben werden
eine weitere am Ende der SoX-Befehlszeile und bildet eine „Effektkette“. Beachten Sie, dass
Das Anwenden mehrerer Effekte in Echtzeit (z. B. beim Abspielen von Audio) erfordert wahrscheinlich eine
Hochleistungsrechner. Das Stoppen anderer Anwendungen kann Leistungsprobleme lindern
sollten sie auftreten.
Einige der SoX-Effekte sind in erster Linie dafür gedacht, auf ein einzelnes Instrument oder ein einzelnes Instrument angewendet zu werden
„Stimme“. Um dies zu erleichtern, ist die remix Effekt und die globale SoX-Option -M kann benutzt werden um
Isolieren Sie Spuren aus einer Mehrspuraufnahme und kombinieren Sie sie dann wieder.
Mehrere Effekte Ketten
Eine einzelne Effektkette besteht aus einem oder mehreren Effekten. Audio vom Eingang läuft
durch die Kette, bis entweder das Ende der Eingabedatei erreicht ist oder ein Effekt in der
Chain fordert zum Beenden der Kette an.
SoX unterstützt die Ausführung mehrerer Effektketten über das Eingangsaudio. In diesem Fall, wenn einer
Die Kette zeigt an, dass die Audioverarbeitung abgeschlossen ist. Die Audiodaten werden dann durch die nächste Kette gesendet
Wirkungskette. Dies wird so lange fortgesetzt, bis entweder keine Effektketten mehr vorhanden sind oder die Eingabe vorhanden ist
das Ende der Datei erreicht.
Eine Wirkungskette wird durch das Platzieren von a beendet : (Doppelpunkt) nach einem Effekt. Alle folgenden
Effekte sind Teil einer neuen Wirkungskette.
Es ist wichtig, den Effekt, der die Kette stoppt, als ersten Effekt in der Kette zu platzieren
Kette. Dies liegt daran, dass alle Samples, die durch Effekte links davon gepuffert werden
Der Terminierungseffekt wird verworfen. Die Menge der verworfenen Proben hängt davon ab
--Puffer Option und sollte im Verhältnis zur Abtastrate klein gehalten werden, wenn die
Die abschließende Wirkung kann nicht an erster Stelle stehen. Weitere Informationen zur Stoppwirkung finden Sie hier
in England, Einstellung Sox .
Es gibt einige Pseudoeffekte, die die Verwendung mehrerer Effektketten unterstützen. Diese beinhalten
neue Datei Dadurch wird mit dem Schreiben in eine neue Ausgabedatei begonnen, bevor mit den nächsten Effekten fortgefahren wird
Kette und Wiederaufnahme Dadurch wird zur ersten Effektkette zurückgekehrt. Pseudoeffekte müssen sein
als erster Effekt in einer Kette und als einziger Effekt in einer Kette angegeben (sie müssen Folgendes haben).
a : vor und nach ihrer Angabe).
Das Folgende ist ein Beispiel für mehrere Effektketten. Die Eingabedatei wird aufgeteilt in
mehrere Dateien mit einer Länge von 30 Sekunden. Jeder Ausgabedateiname hat eine eindeutige Nummer
sein Name, wie in der dokumentiert Ausgang Mappen .
sox infile.wav output.wav trim 0 30 : neue Datei : neu starten
gemeinsam Bewertung Und Parameter
In den folgenden Beschreibungen werden Klammern [ ] verwendet, um Parameter zu kennzeichnen, die vorhanden sind
optional, geschweifte Klammern { } zur Bezeichnung derjenigen, die sowohl optional als auch wiederholbar sind, und Winkel
Klammern < > kennzeichnen diejenigen, die wiederholbar, aber nicht optional sind. Wo anwendbar,
Standardwerte für optionale Parameter werden in Klammern () angezeigt.
Die folgenden Parameter werden mit mehreren Effekten verwendet und haben für diese die gleiche Bedeutung:
Zentrum[k]
Weitere Informationen finden Sie auch in den Frequenz.
Frequenz[k]
Eine Frequenz in Hz oder, wenn mit „k“ angehängt, kHz.
gewinnen Ein Leistungsgewinn in dB. Null bringt keinen Gewinn; kleiner als Null ergibt eine Dämpfung.
Breite[h|k|o|q]
Wird verwendet, um die Bandbreite eines Filters anzugeben. Eine Reihe verschiedener Methoden, um
Geben Sie die Breite an, die verfügbar sind (allerdings nicht alle für jeden Effekt). Einer der
Die angezeigten Zeichen können angehängt werden, um die gewünschte Methode wie folgt auszuwählen:
Method Notizen
h Hz
k kHz
o Oktaven
q Q-Faktor Siehe [2]
Für jeden Effekt, der diesen Parameter verwendet, ist die Standardmethode (d. h. wenn kein Zeichen vorhanden ist).
angehängt ist) ist diejenige, die in der ersten Zeile des Effekts zuerst aufgeführt ist
Beschreibung.
Geben Sie ein, um zu sehen, ob SoX einen optionalen Effekt unterstützt Sox -h und suchen Sie unten nach seinem Namen
die Liste: „EFFEKTE“.
Unterstützte Effekte
Hinweis: Eine kategorisierte Liste der Effekte finden Sie in der beiliegenden „README“-Datei.
Allpass Frequenz[k] Breite[h|k|o|q]
Anwenden eines zweipoligen Allpassfilters mit Mittenfrequenz (in Hz) Frequenz und
Filterbreite Breite. Ein Allpassfilter ändert die Frequenz des Audiosignals in Phase
Beziehung, ohne das Verhältnis von Frequenz zu Amplitude zu ändern. Der Filter
ist ausführlich in [1] beschrieben.
Dieser Effekt unterstützt die --Handlung globale Option.
Band [-n] Zentrum[k] [Breite[h|k|o|q]]
Wenden Sie einen Bandpassfilter an. Der Frequenzgang fällt logarithmisch um
Zentrum Frequenz. Der Breite Der Parameter gibt die Steigung des Abfalls an. Der
Frequenzen bei Zentrum + Breite und Zentrum - Breite wird die Hälfte ihres Originals sein
Amplituden. Band Standardmäßig ist ein Modus auf Tonhöhen ausgerichtet, d. h. Stimme,
Gesang oder Instrumentalmusik. Der -n (für Rauschen) Die Option verwendet den Alternativmodus
für ungestimmtes Audio (z. B. Percussion). Warnung: -n führt zu einem Leistungsgewinn von
ca. 11 dB im Filter, achten Sie also auf Ausgangsbeschneidung. Band führt Lärm ein
die Form des Filters, d. h. die Spitze am Zentrum Frequenz und Eingewöhnung
es.
Dieser Effekt unterstützt die --Handlung globale Option.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] aufricht für einen Bandpassfilter mit steileren Schultern.
Bandpass|Bandabweisung [-c] Frequenz[k] Breite[h|k|o|q]
Wenden Sie einen zweipoligen Butterworth-Bandpass- oder Bandsperrfilter mit zentraler Frequenz an
Frequenzund (3dB-Punkt) Bandbreite Breitedem „Vermischten Geschmack“. Seine -c Option gilt nur für
Bandpass und wählt eine konstante Rockverstärkung (Spitzenverstärkung = Q) anstelle der Standardeinstellung:
konstante Spitzenverstärkung von 0 dB. Die Filterabsenkung erfolgt bei 6 dB pro Oktave (20 dB pro Dekade).
und sind ausführlich in [1] beschrieben.
Diese Effekte unterstützen die --Handlung globale Option.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] aufricht für einen Bandpassfilter mit steileren Schultern.
Bandabweisung Frequenz[k] Breite[h|k|o|q]
Wenden Sie einen Bandsperrfilter an. Siehe die Beschreibung des Bandpass Wirkung für
Details.
Bass|Diskant gewinnen [Frequenz[k] [Breite[s|h|k|o|q]]]
Erhöhen oder senken Sie die Bassfrequenzen (unten) oder Höhenfrequenzen (oben) des Audios mit a
zweipoliger Shelving-Filter mit einem Ansprechverhalten ähnlich dem einer Standard-HiFi-Anlage
Klangregler. Dies wird auch als Shelving Equalization (EQ) bezeichnet.
gewinnen gibt die Verstärkung bei 0 Hz an (z Bass) oder der niedrigere Wert von ∼22 kHz und
die Nyquist-Frequenz (z Diskant). Sein nützlicher Bereich beträgt etwa -20 (für einen großen Bereich).
Reduzierung) auf +20 (für einen großen Boost). Hüte dich vor Ausschnitt bei Verwendung eines Positivs gewinnen.
Bei Bedarf kann der Filter mit den folgenden optionalen Parametern feinabgestimmt werden:
Frequenz Legt die Mittenfrequenz des Filters fest und kann daher zum Erweitern von oder verwendet werden
Reduzieren Sie den Frequenzbereich, der angehoben oder abgesenkt werden soll. Der Standardwert ist 100 Hz (für
Bass) oder 3 kHz (für Diskant).
Breite bestimmt, wie steil der Shelf-Übergang des Filters ist. In Ergänzung zu
oben beschriebene gängige Breitenspezifikationsmethoden, „slope“ (die Standardeinstellung oder if
angehängt mit `s') könnte genutzt werden. Der nützliche Bereich der „Steigung“ beträgt etwa 0.3 für a
sanftes Gefälle, bis 1 (das Maximum), für ein steiles Gefälle; Der Standardwert ist 0.5.
Die Filter sind ausführlich in [1] beschrieben.
Diese Effekte unterstützen die --Handlung globale Option.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] Ausgleich für einen Spitzenausgleichseffekt.
biegen [-f Bildrate(25)] [-o Überprobe(16)] { verzögern,Cent,Dauer }
Ändert die Tonhöhe zu bestimmten Zeiten um bestimmte Beträge. Jedes gegebene Tripel:
verzögern,Cent,Dauer Gibt eine Biegung an. verzögern ist die Zeitspanne nach dem
Beginn des Audiostreams oder das Ende der vorherigen Biegung, an dem begonnen werden soll
die Tonhöhe beugen; Cent ist die Anzahl der Cent (100 Cent = 1 Halbton), um die
die Tonhöhe verbiegen, und Dauer die Zeitspanne, über die der Pitch erfolgen wird
gebogen.
Der Pitch-Bending-Algorithmus nutzt die Diskrete Fourier-Transformation (DFT) bei a
bestimmte Bildrate und Oversampling-Rate. Der -f und -o Parameter verwendet werden können
um diese Parameter anzupassen und so die Sanftheit der Tonhöhenänderungen zu steuern.
Beispielsweise wird ein Anfangston erzeugt, dann dreimal gebogen, sodass vier Töne entstehen
insgesamt verschiedene Noten:
play -n synth 2.5 sin 667 Gain 1 \
bend .35,180,.25 .15,740,.53 0,-520,.3
Beachten Sie, dass der Ausschnitt, der in diesem Beispiel erzeugt wird, absichtlich ist; zu entfernen
es, verwenden gewinnen -5 an Stelle von gewinnen 1.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] Tonhöhe.
Biquad b0 b1 b2 a0 a1 a2
Wenden Sie einen Biquad-IIR-Filter mit den angegebenen Koeffizienten an. Wobei b* und a* die sind
Zähler- bzw. Nennerkoeffizienten.
Weitere Informationen finden Sie auch in den http://en.wikipedia.org/wiki/Digital_biquad_filter (wobei a0 = 1).
Dieser Effekt unterstützt die --Handlung globale Option.
Kanäle KANÄLE
Rufen Sie einen einfachen Algorithmus auf, um die Anzahl der Kanäle im Audiosignal zu ändern
die angegebene Zahl KANÄLE: Mischen, wenn die Anzahl der Kanäle verringert wird oder
Duplizieren, wenn die Anzahl der Kanäle erhöht wird.
Das Kanäle Der Effekt wird bei SoX automatisch aufgerufen -c Option gibt eine Zahl an
Anzahl der Kanäle, die sich von der der Eingabedatei(en) unterscheidet. Alternativ, wenn dies
Wirkung explizit angegeben wird, dann SoX's -c Die Option muss nicht angegeben werden. Zum Beispiel,
Die folgenden zwei Befehle sind äquivalent:
sox input.wav -c 1 output.wav bass -b 24
sox input.wav output.wav bass -b 24 Kanäle 1
Allerdings ist die zweite Form flexibler, da sie die Reihenfolge der Effekte ermöglicht
willkürlich.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] remix für einen Effekt, der es ermöglicht, Kanäle beliebig zu mischen/auszuwählen.
Chor Gewinn herausgewinnen <verzögern Verfall Geschwindigkeit Tiefe -s|-t>
Fügen Sie dem Audio einen Choreffekt hinzu. Dadurch kann eine einzelne Stimme wie eine klingen
Chor, kann aber auch auf die Instrumentierung angewendet werden.
Chorus ähnelt einem Echo-Effekt mit einer kurzen Verzögerung, bei Echo jedoch der Verzögerung
ist konstant, bei Chor wird er durch Sinus- oder Dreiecksmodulation variiert.
Die Modulationstiefe definiert den Bereich, in dem das modulierte Delay vor oder abgespielt wird
nach der Verzögerung. Daher wird der verzögerte Ton langsamer oder schneller klingen
verzögerter Klang, der um den Originalton herum abgestimmt ist, wie in einem Refrain, in dem auch einige Vocals vorhanden sind
leicht verstimmt. Weitere Informationen zum Chorus-Effekt finden Sie in [3].
Jeder Vier-Tupel-Parameter Verzögerung/Abklingen/Geschwindigkeit/Tiefe gibt die Verzögerung in Millisekunden an
und das Abklingen (relativ zum Gain-In) mit einer Modulationsgeschwindigkeit in Hz unter Verwendung der Tiefe
Millisekunden. Die Modulation ist entweder sinusförmig (-s) oder dreieckig (-t). Gewinnen-
out ist die Lautstärke der Ausgabe.
Eine typische Verzögerung beträgt etwa 40 ms bis 60 ms; Die Modulationsgeschwindigkeit liegt am besten bei etwa 0.25 Hz
und die Modulationstiefe etwa 2 ms. Zum Beispiel eine einzelne Verzögerung:
Gitarre spielen1.wav Chor 0.7 0.9 55 0.4 0.25 2 -t
Zwei Delays der Original-Samples:
Gitarre spielen1.wav Chorus 0.6 0.9 50 0.4 0.25 2 -t \
60 0.32 0.4 1.3 -s
Ein voller klingender Refrain (mit drei zusätzlichen Verzögerungen):
Gitarre spielen1.wav Chorus 0.5 0.9 50 0.4 0.25 2 -t \
60 0.32 0.4 2.3 -t 40 0.3 0.3 1.3 -s
Kompanie Angriff1,Verfall1{,Angriff2,Verfall2}
[Soft-Knee-dB:]in-dB1[,out-dB1]{,in-dB2,out-dB2}
[gewinnen [Anfangslautstärke-dB [verzögern]]]
Komprimieren (komprimieren oder erweitern) Sie den Dynamikbereich des Audios.
Das Attacke und Verfall Parameter (in Sekunden) bestimmen die Zeit, über die die
Der momentane Pegel des Eingangssignals wird gemittelt, um dessen Lautstärke zu bestimmen.
Attacken beziehen sich auf eine Zunahme der Lautstärke und Abklingzeiten beziehen sich auf eine Abnahme. Für die meisten
Situationen sollte die Attack-Zeit (Reaktion auf lauter werdende Musik) sein
kürzer als die Abklingzeit, da das menschliche Ohr empfindlicher auf plötzliche Lautstärke reagiert
Musik als plötzliche leise Musik. Wo mehr als ein Paar von Attack/Decay-Parametern
angegeben werden, wird jeder Eingangskanal separat kompandiert und die Anzahl der Paare angegeben
muss mit der Anzahl der Eingangskanäle übereinstimmen. Typische Werte sind 0.3,0.8 Sekunden.
Der zweite Parameter ist eine Liste von Punkten auf der Übertragungsfunktion des Kompanders
wird in dB relativ zur maximal möglichen Signalamplitude angegeben. Die Eingabe
Die Werte müssen in einer streng aufsteigenden Reihenfolge vorliegen, die Übertragungsfunktion jedoch nicht
müssen monoton steigend sein. Wenn es weggelassen wird, ist der Wert von out-dB1 Der Standardwert ist der
gleicher Wert wie in-dB1; Ebenen darunter in-dB1 sind nicht kompandiert (können aber einen Gewinn haben).
auf sie angewendet). Der Punkt 0,0 wird vorausgesetzt, kann aber überschrieben werden (durch 0,Out-dBn).
Wenn der Liste ein vorangestellt ist Soft-Knee-dB Wert, dann die Punkte, an denen sie benachbart sind
Liniensegmente auf der Übertragungsfunktion werden um den angegebenen Betrag gerundet.
Typische Werte für die Übertragungsfunktion sind 6:-70,-60,-20.
Der dritte (optionale) Parameter ist eine zusätzliche Verstärkung in dB, die überhaupt angewendet werden soll
Punkte auf der Übertragungsfunktion und ermöglicht eine einfache Anpassung der Gesamtverstärkung.
Der vierte (optionale) Parameter ist ein für jeden Kanal anzunehmender Anfangspegel
wenn die Kompandierung beginnt. Dies ermöglicht es dem Benutzer, zunächst einen Nennwert anzugeben,
so dass beispielsweise keine sehr große Verstärkung auf die anfänglichen Signalpegel angewendet wird
bevor die Kompandierungswirkung zu wirken begonnen hat: Es ist sehr wahrscheinlich, dass in
In einem solchen Fall würde der Ausgang während der Kompanderverstärkung stark beschnitten werden
passt sich richtig an. Ein typischer Wert (für zunächst leises Audio) ist
-90 dB.
Der fünfte (optionale) Parameter ist eine Verzögerung in Sekunden. Das Eingangssignal wird analysiert
sofort, um den Kompander zu steuern, aber es wird verzögert, bevor es dem zugeführt wird
Lautstärkeregler. Angabe einer Verzögerung, die ungefähr den Attack-/Decay-Zeiten entspricht
ermöglicht es dem Kompander, effektiv „prädiktiv“ und nicht aggressiv zu arbeiten
reaktiver Modus. Ein typischer Wert ist 0.2 Sekunden.
* * *
Das folgende Beispiel könnte verwendet werden, um ein Musikstück mit Ruhe und Stille zu machen
laute Passagen, die sich zum Anhören in einer lauten Umgebung wie einem Umzug eignen
Fahrzeug:
sox asz.wav asz-car.wav compand 0.3,1 6:-70,-60,-20 -5 -90 0.2
Die Übertragungsfunktion („6:-70,...“) besagt, dass sehr leise Töne (unter -70 dB) dies tun
bleiben unverändert. Dadurch wird verhindert, dass der Kompander die Lautstärke erhöht
„stille“ Passagen wie z. B. zwischen Sätzen. Allerdings liegen die Geräusche im Bereich von -60dB bis
0 dB (maximale Lautstärke) werden angehoben, so dass der Dynamikbereich des Originals 60 dB beträgt
Musik wird 3:1 auf einen 20-dB-Bereich komprimiert, der groß genug ist, um sie zu genießen
Die Musik ist aber schmal genug, um den Straßenlärm zu umgehen. Die „6:“ wählt 6 dB
Soft-Knee-Companding. Die Ausgangsverstärkung von -5 (dB) ist erforderlich, um Clipping zu vermeiden
Die Zahl ist ungenau und wurde durch Experimente ermittelt. Die -90 (dB) für die
Die anfängliche Lautstärke funktioniert gut für einen Clip, der mit nahezu Stille beginnt, und die
Eine Verzögerung von 0.2 (Sekunden) führt dazu, dass der Kompander etwas stärker reagiert
schnell zu plötzlichen Lautstärkeänderungen.
Im nächsten Beispiel wird Compand als Noise-Gate für den Fall verwendet, dass das Rauschen laut ist
einen niedrigeren Pegel als das Signal:
Spiel Infile Compand .1,.2 -inf,-50.1,-inf,-50,-50 0 -90 .1
Hier ist ein weiteres Noise-Gate, dieses Mal für den Fall, dass der Lärm höher ist als
das Signal (was es in gewisser Weise dem Squelch ähnelt):
Spiel Infile Compand .1,.1 -45.1,-45,-inf,0,-inf 45 -90 .1
Dieser Effekt unterstützt die --Handlung globale Option (für die Übertragungsfunktion).
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] mcompand für einen Mehrband-Kompensationseffekt.
Kontrast [Erweiterungsbetrag(75)]
Vergleichbar mit der Komprimierung verändert dieser Effekt ein Audiosignal, um es klingen zu lassen
lauter. Erweiterungsbetrag steuert den Umfang der Verbesserung und ist eine Zahl
im Bereich 0-100. Beachten Sie, dass Erweiterungsbetrag = 0 ergibt immer noch eine Signifikanz
Kontrastverstärkung.
Siehe auch die Kompanie und mcompand Effekte.
dcshift verschieben [Begrenzerverstärkung]
Wenden Sie eine DC-Verschiebung auf das Audio an. Dies kann nützlich sein, um einen DC-Offset zu entfernen (verursacht).
möglicherweise durch ein Hardwareproblem in der Aufnahmekette) aus dem Audio. Der Effekt
eines DC-Offsets verringert den Headroom und damit die Lautstärke. Der Zustand or Statistik Wirkung kann
kann verwendet werden, um festzustellen, ob ein Signal einen DC-Offset aufweist.
Das Gegebene dcshift value ist eine Gleitkommazahl im Bereich von ±2
Gibt den Betrag an, um den das Audiosignal verschoben werden soll (im Bereich von ±1).
Ein optionales Begrenzerverstärkung kann ebenfalls angegeben werden. Es sollte einen viel geringeren Wert haben
größer als 1 (z. B. 0.05 oder 0.02) und wird nur bei Spitzenwerten verwendet, um eine Übersteuerung zu verhindern.
* * *
Ein alternativer Ansatz zum Entfernen eines DC-Offsets (wenn auch mit einer kurzen Verzögerung) ist:
verwenden Sie die Hochpass Filtereffekt bei einer Frequenz von beispielsweise 10 Hz, wie in der Abbildung dargestellt
folgendes Beispiel:
sox -n dc.wav synth 5 sin %0 50
sox dc.wav behoben.wav Hochpass 10
deemph Wenden Sie die Deemphasis der Compact Disc (IEC 60908) an (einen Höhendämpfungs-Shelving-Filter).
Beim Mastering einiger CDs, die Anfang der 1980er Jahre herauskamen, wurde Pre-Emphasis angewendet.
Darunter befanden sich viele Alben mit klassischer Musik sowie mittlerweile begehrte Ausgaben von
Alben von The Beatles, Pink Floyd und anderen. Die Vorbetonung sollte entfernt werden
Wiedergabezeit durch einen De-Emphasis-Filter im Wiedergabegerät. Allerdings nicht alle
Moderne CD-Player verfügen über diesen Filter, und nur sehr wenige PC-CD-Laufwerke verfügen über ihn. vorspielen
Hervorgehobenes Audio ohne den richtigen De-Emphasis-Filter führt zu Audio, das
klingt hart und ist weit von dem entfernt, was seine Schöpfer beabsichtigt haben.
Mit der deemph Mit diesem Effekt ist es möglich, dem Audiosignal die nötige De-Emphasis zu verleihen
das von einer Pre-Emphasis-CD extrahiert wurde, und brennen Sie dann entweder die De-
hervorgehobenes Audio auf eine neue CD (die dann auf jedem CD-Player korrekt abgespielt wird) oder
Spielen Sie einfach die korrekt entzerrten Audiodateien auf dem PC ab. Zum Beispiel:
sox track1.wav track1-deemph.wav deemph
und dann track1-deemph.wav auf CD brennen, oder
Spielen Sie track1-deemph.wav ab
oder einfach
play track1.wav deemph
Der Deemphasis-Filter ist als Biquad implementiert; seine maximale Abweichung von der
Die ideale Reaktion beträgt nur 0.06 dB (bis zu 20 kHz).
Dieser Effekt unterstützt die --Handlung globale Option.
Siehe auch die Bass und Diskant Regalausgleichseffekte.
verzögern {Länge}
Einen oder mehrere Audiokanäle verzögern. Länge kann eine Zeit oder, falls angehängt, angeben
ein „s“, eine Anzahl von Samples. Geben Sie nicht sowohl Zeit- als auch Sample-Verzögerungen an
gleichen Befehl. Zum Beispiel, verzögern 1.5 0 0.5 verzögert den ersten Kanal um 1.5
Sekunden, den dritten Kanal um 0.5 Sekunden und verlässt den zweiten Kanal (und alle anderen).
andere Kanäle, die möglicherweise vorhanden sind) unverzögert. Der folgende (ein langer) Befehl
spielt einen Glockenton ab:
play -n synth -j 3 sin %3 sin %-2 sin %-5 sin %-9 \
sin %-14 sin %-21 fade h .01 2 1.5 Verzögerung \
1.3 1 Remix - Fade h 76 54 27 Norm -0
und das spielt einen Gitarrenakkord:
play -n synth pl G2 pl B2 pl D3 pl G3 pl D4 pl G4 \
Verzögerung 0 .05 .1 .15 .2 .25 Remix - Fade 0 4 .1 Norm -1
Dithering [-S|-s|-f Filter] [-a] [-p Präzision]
Wenden Sie Dithering auf das Audio an. Beim Dithering wird bewusst ein wenig Rauschen hinzugefügt
zum Signal, um hörbare Quantisierungseffekte zu maskieren, die auftreten können, wenn die
Die Ausgabebeispielgröße beträgt weniger als 24 Bit. Ohne Optionen wird dieser Effekt hinzugefügt
dreieckiges (TPDF) weißes Rauschen. Noise-Shaping (nur für bestimmte Abtastraten) möglich
ausgewählt werden mit -s. Mit dem -f Option ist es möglich, eine bestimmte auszuwählen
Rauschformungsfilter aus der folgenden Liste: Lipshitz, f-gewichtet, modifiziert-e-
gewichtet, verbesserte E-Gewichtung, Gesemann, Shibata, Low-Shibata, High-Shibata. Notiz
dass die meisten Filtertypen nur mit einer Abtastrate von 44100 Hz verfügbar sind. Der Filter
Typen zeichnen sich durch folgende Eigenschaften aus: Hörbarkeit des Lärms, Lautstärke
(unhörbar, aber unter Umständen ansonsten problematisch) geformte Hochfrequenz
Lärm und Verarbeitungsgeschwindigkeit.
Weitere Informationen finden Sie auch in den http://sox.sourceforge.net/SoX/NoiseShaping für Diagramme der verschiedenen Geräusch-
Kurven formen.
Das -S Mit dieser Option wird ein leicht „geneigtes“ TPDF ausgewählt, das auf höhere Frequenzen ausgerichtet ist.
Es kann mit jeder Abtastrate verwendet werden, aber unter ≈22k ist einfaches TPDF wahrscheinlich besser.
und über ≈ 37k ist rauschförmig wahrscheinlich besser.
Das -a Die Option aktiviert einen Modus, in dem Dithering (und ggf. Noise-Shaping) aktiviert ist
wird nur bei Bedarf automatisch aktiviert. Die wahrscheinlichste Verwendung dafür ist wann
Anwenden von Ein- oder Ausblendungen auf eine bereits geditherte Datei, sodass das erneute Dithern durchgeführt wird
Gilt nur für die verblassten Teile. Allerdings ist das automatische Dithering nicht narrensicher
Die Fades sollten sorgfältig auf Rauschmodulation überprüft werden. Wenn dies geschieht,
dann entweder die gesamte Datei erneut dithern oder verwenden trimmen, verblassen, und verketten.
Das -p Mit dieser Option können Sie die Zielgenauigkeit überschreiben.
Wenn die globale SoX-Option -R Option nicht angegeben ist, dann die Pseudozufallszahl
Der zum Erzeugen des weißen Rauschens verwendete Generator wird „neu gesät“, d. h., der erzeugte
Der Lärm wird zwischen den Aufrufen unterschiedlich sein.
Auf diesen Effekt sollte kein anderer Effekt folgen, der sich auf den Ton auswirkt.
Siehe auch den Abschnitt „Dithering“ oben.
Downsampling [Faktor(2)]
Downsampling des Signals um einen ganzzahligen Faktor: Nur das erste von jedem Faktor
Die einzelnen Proben bleiben erhalten, die anderen werden verworfen.
Es wird kein Dezimierungsfilter angewendet. Wenn der Eingang nicht ordnungsgemäß bandbegrenzt ist
Basisbandsignal wird Aliasing auftreten. Dies kann beispielsweise für die Frequenz wünschenswert sein
Übersetzung.
Informationen zu einem allgemeinen Resampling-Effekt mit Anti-Aliasing finden Sie unter Rate. Siehe auch Upsampling.
Ohrenschmalz Erleichtert das Hören von Audio über Kopfhörer. Fügt „Hinweise“ zu 44.1 kHz Stereo hinzu (d. h
Audio im CD-Format), so dass beim Hören über Kopfhörer ein Stereobild entsteht
von der Innenseite Ihres Kopfes (Standard bei Kopfhörern) nach außen und nach vorne bewegt
dem Zuhörer (Standard für Lautsprecher).
Echo Gewinn herausgewinnen <verzögern Verfall>
Fügen Sie dem Audio Echo hinzu. Echos sind reflektierter Schall und können natürlich auftreten
zwischen Bergen (und manchmal großen Gebäuden) beim Sprechen oder Schreien; Digital
Echoeffekte emulieren dieses Verhalten und werden häufig verwendet, um den Klang aufzufüllen
eines einzelnen Instruments oder Gesangs. Der Zeitunterschied zwischen dem Originalsignal
und die Reflexion ist die „Verzögerung“ (Zeit) und die Lautstärke des reflektierten Signals
ist der „Verfall“. Mehrere Echos können unterschiedliche Verzögerungen und Abklingzeiten haben.
Jeder gegeben verzögern Verfall Das Paar gibt die Verzögerung in Millisekunden und den Abfall (relativ) an
um dieses Echo zu erfassen. Gain-Out ist die Lautstärke des Ausgangs. Zum Beispiel: Dies
wird es so klingen, als ob es doppelt so viele Instrumente gäbe, wie tatsächlich vorhanden sind
spielen:
Play Lead.aiff Echo 0.8 0.88 60 0.4
Wenn die Verzögerung sehr kurz ist, klingt es wie ein (metallischer) Roboter, der Musik spielt:
Play Lead.aiff Echo 0.8 0.88 6 0.4
Eine längere Verzögerung klingt wie ein Open-Air-Konzert in den Bergen:
Play Lead.aiff Echo 0.8 0.9 1000 0.3
Noch ein Berg und:
Play Lead.aiff Echo 0.8 0.9 1000 0.3 1800 0.25
Echos Gewinn herausgewinnen <verzögern Verfall>
Fügen Sie dem Audio eine Folge von Echos hinzu. Jede verzögern Verfall Paar gibt die Verzögerung an
Millisekunden und das Abklingen (relativ zur Verstärkung) dieses Echos. Gain-Out ist das
Lautstärke der Ausgabe.
Echos stehen wie der Echo-Effekt für „ECHO in Sequel“, also die ersten Echos
nimmt die Eingabe entgegen, der zweite die Eingabe und der erste echos, der dritte die Eingabe und
das erste und das zweite Echo, ... und so weiter. Bei der Verwendung vieler ist Vorsicht geboten
Echos; Ein einzelnes Echo hat die gleiche Wirkung wie ein einzelnes Echo.
Das Sample wird zweimal in symmetrischen Echos reflektiert:
Play Lead.aiff Echos 0.8 0.7 700 0.25 700 0.3
Das Sample wird in asymmetrischen Echos zweimal reflektiert:
Play Lead.aiff Echos 0.8 0.7 700 0.25 900 0.3
Das Sample klingt wie in einer Garage abgespielt:
Play Lead.aiff Echos 0.8 0.7 40 0.25 63 0.3
Ausgleich Frequenz[k] Breite[q|o|h|k] gewinnen
Wenden Sie einen zweipoligen Peaking-Entzerrungsfilter (EQ) an. Mit diesem Filter wird das Signal
Der Pegel bei und um eine ausgewählte Frequenz herum kann erhöht oder verringert werden
(im Gegensatz zu Bandpass- und Bandsperrfiltern) das bei allen anderen Frequenzen der Fall ist
unverändert.
Frequenz gibt die Mittenfrequenz des Filters in Hz an, Breite, die Bandbreite und
gewinnen die erforderliche Verstärkung oder Dämpfung in dB. Hüte dich vor Ausschnitt bei Verwendung eines
positiv gewinnen.
Um komplexe Entzerrungskurven zu erzeugen, kann dieser Effekt mehrfach gegeben werden
mal, jeweils mit einer anderen Zentralfrequenz.
Der Filter ist ausführlich in [1] beschrieben.
Dieser Effekt unterstützt die --Handlung globale Option.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] Bass und Diskant für Regalausgleichseffekte.
verblassen [tippe] Einblendlänge [Stoppzeit [Ausblendlänge]]
Wenden Sie einen Fade-Effekt auf den Anfang, das Ende oder beide Audiodaten an.
Ein optionales tippe kann angegeben werden, um die Form der Fade-Kurve auszuwählen: q für den
Viertel einer Sinuswelle, h für eine halbe Sinuswelle, t für lineare („dreieckige“) Steigung,
l für logarithmisch, und p für umgekehrte Parabel. Der Standardwert ist logarithmisch.
Ein Fade-In beginnt beim ersten Sample und erhöht den Signalpegel von 0 auf Voll
Lautstärke zu Ende Einblendlänge Sekunden. Geben Sie 0 Sekunden an, wenn keine Einblendung gewünscht ist.
Bei Ausblendungen wird der Ton abgeschnitten Stoppzeit und der Signalpegel wird
von der vollen Lautstärke auf 0 heruntergefahren werden, beginnend bei Ausblendlänge Sekunden vor dem
Stoppzeit. Wenn Ausblendlänge nicht angegeben ist, wird standardmäßig derselbe Wert verwendet wie
Einblendlänge. Es erfolgt keine Ausblendung, wenn Stoppzeit ist nicht angegeben. Wenn die
Die Dateilänge kann aus dem Header der Eingabedatei und der Längenänderung bestimmt werden
Effekte sind dann nicht wirksam 0 kann angegeben werden für Stoppzeit um die anzuzeigen
Dies ist der übliche Fall eines Ausblendens, das am Ende des Eingangs-Audiostreams endet.
Alle Zeiten können entweder als Zeiträume oder als Stichprobenanzahl angegeben werden. Konkretisieren
Zeiträume verwenden das Format hh:mm:ss.frac. Um die Verwendung von Stichprobenzahlen anzugeben,
Geben Sie die Anzahl der Proben an und hängen Sie den Buchstaben „s“ an die Anzahl der Proben an (z
Beispiel „8000er“).
Siehe auch die spleißen Wirkung.
Tanne [coefs-Datei|Coefs]
Verwenden Sie die FFT-Faltungs-Engine von SoX mit gegebenen FIR-Filterkoeffizienten. Wenn ein Single
Wenn ein Argument angegeben wird, wird dieses als Name einer Datei behandelt, die den Filter enthält
Koeffizienten (durch Leerzeichen getrennt; kann „#“-Kommentare enthalten). Wenn das Gegebene
Dateiname ist „-“, oder wenn kein Argument angegeben ist, werden die Koeffizienten ausgelesen
die „Standardeingabe“ (stdin); andernfalls können im Befehl Koeffizienten angegeben werden
Linie. Beispiele:
sox infile outfile fir 0.0195 -0.082 0.234 0.891 -0.145 0.043
Sox-Infile-Outfile für coefs.txt
mit coefs.txt enthalten
# HP-Filter
# freq=10000
1.2311233052619888e-01
-4.4777096106211783e-01
5.1031563346705155e-01
-6.6502926320995331e-02
...
Dieser Effekt unterstützt die --Handlung globale Option.
Flanger [verzögern Tiefe regen Breite Geschwindigkeit gestalten Phase interp]
Wenden Sie einen Flanging-Effekt auf das Audio an. Eine ausführliche Beschreibung finden Sie unter [3].
Flanschen.
Alle Parameter sind optional (von rechts nach links).
Abdeckung Standard Beschreibung
verzögern 0 - 30 0 Basisverzögerung in Millisekunden.
Tiefe 0 - 10 2 Sweep-Verzögerung in Millisekunden hinzugefügt.
regen -95 - 95 0 Prozentuale Regeneration (verzögert
Signalrückmeldung).
Breite 0 - 100 71 Prozentsatz des gemischten verzögerten Signals
mit Original.
Geschwindigkeit 0.1 - 10 0.5 Sweeps pro Sekunde (Hz).
gestalten sin Swept-Wellenform: ihre|Dreieck.
Phase 0 - 100 25 Prozentuale Phasenverschiebung der gewobbelten Welle
für Mehrkanal (z. B. Stereo)
Flansch; 0 = 100 = gleiche Phase eingeschaltet
jeden Kanal.
interp lin Digitale Delay-Line-Interpolation:
linear|quadratisch.
gewinnen [-e|-B|-b|-r] [-n] [-l|-h] [Gain-dB]
Wenden Sie eine Verstärkung oder Dämpfung auf das Audiosignal an, oder in einigen Fällen auf einige davon
seiner Kanäle. Beachten Sie, dass die Verwendung eines von -e, -B, -b, -r, oder auch -n erfordert vorübergehend
Der Dateibereich zum Speichern des zu verarbeitenden Audiomaterials ist daher möglicherweise nicht für die Verwendung geeignet
„gestreamtes“ Audio.
Ohne andere Optionen, Gain-dB wird verwendet, um den Signalleistungspegel anzupassen
gegebene dB-Anzahl: positiv verstärkt (Vorsicht vor Clipping), negativ dämpft.
Mit anderen Optionen, die Gain-dB Verstärkung oder Dämpfung wird (logischerweise) angewendet
nach der Bearbeitung aufgrund dieser Möglichkeiten.
Angenommen -e Option sind die Pegel der Audiokanäle einer Mehrkanaldatei
„entzerrt“, dh die Verstärkung wird auf alle Kanäle außer dem mit der höchsten angewendet
Spitzenpegel, so dass alle Kanäle den gleichen Spitzenpegel erreichen (jedoch ohne).
Angabe -n, der Ton ist nicht „normalisiert“).
Das -B Die Option (Balance) ähnelt -e, aber mit -B, Es wird der RMS-Pegel verwendet
statt des Spitzenpegels. -B kann verwendet werden, um durch verursachte Stereoungleichgewichte zu korrigieren
ein unvollkommener Plattenspieler-Tonabnehmer. Beachten Sie, dass im Gegensatz dazu -e, -B könnte einige verursachen
Ausschnitt.
-b ähnelt -B verfügt aber über einen Clipping-Schutz, also ggf. zur Verhinderung
Wenn beim Ausbalancieren Clipping erfolgt, wird die Dämpfung auf alle Kanäle angewendet. Beachten Sie jedoch,
das in Verbindung mit -n, -B und -b sind synonym.
Das -r Die Option wird in Verbindung mit einem vorherigen Aufruf von verwendet gewinnen an. Nach der Installation können Sie HEIC-Dateien mit der -h
Option – Einzelheiten siehe unten.
Das -n Option normalisiert den Ton auf 0 dB FSD; es wird oft in Verbindung mit verwendet
Ein Negativ Gain-dB dahingehend, dass der Ton auf einen bestimmten Pegel normalisiert wird
unter 0dB. Zum Beispiel,
sox Infile Outfile Gain -n
normalisiert sich auf 0 dB und
Sox-Infile-Outfile-Gain -n -3
normalisiert sich auf -3dB.
Das -l Option ruft einen einfachen Begrenzer auf, z
sox Infile Outfile Gain -l 6
wendet eine Verstärkung von 6 dB an, übersteuert jedoch nie. Beachten Sie, dass die Begrenzung mehr als ein paar dB mehr beträgt
als gelegentlich (in einem Audiostück) wird nicht empfohlen, da dies zu hörbaren Geräuschen führen kann
Verzerrung. Siehe die Kompanie Effekt für einen leistungsfähigeren Begrenzer.
Das -h Mit dieser Option wird Verstärkung angewendet, um Spielraum für die nachfolgende Verarbeitung zu schaffen.
Zum Beispiel mit
Sox Infile Outfile Gain -h Bass +6
Vor dem Bassverstärkungseffekt wird eine Dämpfung von 6 dB angewendet, um dies sicherzustellen
dass es nicht abreißt. Natürlich ist es beim Bass offensichtlich, wie viel Headroom vorhanden ist
erforderlich sein, aber bei anderen Effekten (z. B. Rate, Dither) ist es nicht immer so klar.
Ein weiterer Vorteil der Verwendung von gewinnen -h statt einer expliziten Abschwächung ist das, wenn
Der Headroom wird von nachfolgenden Effekten nicht genutzt, er kann mit zurückgewonnen werden gewinnen -r,
beispielsweise:
Sox Infile Outfile Gain -h Bass +6 Rate 44100 Gain -r
Die obige Effektkette garantiert, dass es niemals zu Übersteuerungen oder Verstärkungen kommt; es dämpft, wenn
erforderlich, um ein Clipping zu verhindern, jedoch nur so weit, wie hierfür erforderlich ist.
Die Ausgabeformatierung (Dithering und Reduzierung der Bittiefe) erfordert ebenfalls Spielraum (der
kann nicht „zurückgefordert“ werden), z
Sox Infile Outfile Gain -h Bass +6 Rate 44100 Gain -rh Dither
Hier, der zweite gewinnen Aufruf, gewinnt so viel Headroom wie möglich zurück
die vorherigen Effekte, behält aber so viel Spielraum, wie für nachfolgende Effekte erforderlich ist
wird bearbeitet. Die globale SoX-Option -G kann zum automatischen Aufruf angegeben werden gewinnen -h
und gewinnen -r.
Siehe auch die Norm und vol Effekte.
Hochpass|Tiefpass [-1|-2] Frequenz[k] [Breite[q|o|h|k]]
Wenden Sie einen Hochpass- oder Tiefpassfilter mit einem 3-dB-Punkt an Frequenz. Der Filter kann sein
entweder einpolig (mit -1) oder zweipolig (die Standardeinstellung oder mit -2). Breite
gilt nur für zweipolige Filter; Der Standardwert ist Q = 0.707 und ergibt a
Butterworth-Antwort. Die Filterabsenkung beträgt 6 dB pro Pol und Oktave (20 dB pro Oktave).
Pol pro Dekade). Die doppelpoligen Filter sind ausführlich in [1] beschrieben.
Diese Effekte unterstützen die --Handlung globale Option.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] aufricht für Filter mit steilerem Abfall.
Hilbert [-n Wasserhähne]
Wenden Sie einen Hilbert-Transformationsfilter mit ungeradem Abgriff an und verschieben Sie die Phase des Signals um 90 Grad.
Dies wird in vielen Matrixkodierungsschemata und zur analytischen Signalerzeugung verwendet. Der
Prozess wird oft als Multiplikation mit geschrieben i (oder j), die imaginäre Einheit.
Ein Hilbert-Transformationsfilter mit ungerader Anzapfung hat eine Bandpasscharakteristik, die das dämpft
niedrigste und höchste Frequenzen. Seine Bandbreite kann durch die Anzahl gesteuert werden
Filterhähne, die mit spezifiziert werden können -n. Standardmäßig beträgt die Anzahl der Taps
für eine Grenzfrequenz von etwa 75 Hz gewählt.
Dieser Effekt unterstützt die --Handlung globale Option.
ladspa Modulen [Plugin] [Argument...]
Wenden Sie ein LADSPA [5]-Plugin (Linux Audio Developer's Simple Plugin API) an. Trotz der
Name, LADSPA ist nicht Linux-spezifisch und eine breite Palette von Effekten ist verfügbar als
LADSPA-Plugins wie cmt [6] (das Computer Music Toolkit) und das von Steve Harris
Plugin-Sammlung [7]. Das erste Argument ist das Plugin-Modul, das zweite der Name
des Plugins (ein Modul kann mehr als ein Plugin enthalten) und alle anderen Argumente
sind für die Steuerports des Plugins. Fehlende Argumente werden standardmäßig bereitgestellt
Werte wenn möglich. Nur Plugins mit höchstens einem Audioeingang und einem Audioausgang
Port genutzt werden kann. Wenn sie gefunden wird, wird die Umgebungsvariable LADSPA_PATH als verwendet
Suchpfad für Plugins.
Lautstärke [gewinnen [Referenz]]
Lautstärkeregelung – ähnlich wie bei gewinnen Effekt, sorgt aber für den Ausgleich
menschliches Hörsystem. Sehen http://en.wikipedia.org/wiki/Loudness für eine detaillierte
Beschreibung der Lautstärke. Die Verstärkung wird durch die Vorgabe angepasst gewinnen Parameter (normalerweise
negativ) und das Signal entzerrt nach ISO 226 bzgl. eines Referenzpegels von
65 dB, allerdings eine Alternative Referenz Der Pegel kann angegeben werden, wenn der Originalton vorhanden ist
wurde für ein anderes optimales Niveau ausgeglichen. Eine Standardverstärkung von -10 dB wird verwendet, wenn a
gewinnen Wert wird nicht angegeben.
Siehe auch die gewinnen Wirkung.
Tiefpass [-1|-2] Frequenz[k] [Breite[q|o|h|k]]
Wenden Sie einen Tiefpassfilter an. Siehe die Beschreibung des Hochpass Einzelheiten finden Sie unter Effekt.
mcompand "Angriff1,Verfall1{,Angriff2,Verfall2}
[Soft-Knee-dB:]in-dB1[,out-dB1]{,in-dB2,out-dB2}
[gewinnen [Anfangslautstärke-dB [verzögern]]]" {Übergangsfrequenz[k] "attack1,..."}
Der Multiband-Compander ähnelt dem Single-Band-Compander, der Ton ist jedoch ähnlich
zunächst mit Linkwitz-Riley-Crossover-Filtern und einem separaten Band in Bänder unterteilt
spezifizierbarer Kompanderlauf auf jedem Band. Siehe die Kompanie Wirkung für die Definition
seiner Parameter. Compand-Parameter werden zwischen doppelten Anführungszeichen und angegeben
Die Übergangsfrequenz für dieses Band ist gegeben durch Übergangsfrequenz; diese können wiederholt werden
um mehrere Bänder zu erstellen.
Der folgende (ein langer) Befehl zeigt beispielsweise, wie Multiband-Kompandierung funktioniert
Typischerweise im UKW-Radio verwendet:
play track1.wav Gain -3 sinc 8000- 29 100 mcompand \
"0.005,0.1 -47,-40,-34,-34,-17,-33" 100 \
"0.003,0.05 -47,-40,-34,-34,-17,-33" 400 \
"0.000625,0.0125 -47,-40,-34,-34,-15,-33" 1600 \
"0.0001,0.025 -47,-40,-34,-34,-31,-31,-0,-30" 6400 \
"0,0.025 -38,-31,-28,-28,-0,-25" \
Gain 15 Hochpass 22 Hochpass 22 Sinc -n 255 -b 16 -17500 \
Gain 9 Tiefpass -1 17801
Die Audiodatei wird mit einem simulierten UKW-Radioton (oder Rundfunksignal) abgespielt
Bedingung, wenn der Tiefpassfilter am Ende übersprungen wird). Beachten Sie, dass die Pipeline vorhanden ist
aufgebaut mit 75us-Preemphasis im US-Stil.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] Kompanie für einen Einband-Kompensationseffekt.
Lärmprof [Profildatei]
Berechnen Sie ein Audioprofil zur Verwendung bei der Rauschunterdrückung. Siehe Beschreibung
dauert ebenfalls 3 Jahre. Das erste Jahr ist das sog. Lärmrot Einzelheiten finden Sie unter Effekt.
Lärmrot [Profildatei [Betrag]]
Reduzieren Sie Rauschen im Audiosignal durch Profilierung und Filterung. Dieser Effekt ist
Mäßig wirksam bei der Entfernung konsistenter Hintergrundgeräusche wie Zischen oder Brummen.
Um es zu verwenden, führen Sie zunächst SoX mit dem aus Lärmprof Auswirkung auf einen Audioabschnitt, der
Idealerweise würde es Stille enthalten, aber tatsächlich enthält es Lärm – solche Abschnitte sind es
findet man normalerweise am Anfang oder am Ende einer Aufnahme. Lärmprof werde schreiben
Erstellen Sie ein Geräuschprofil Profildatei, oder zu stdout, wenn nein Profildatei oder wenn „-“ ist
gegeben. Z.B
sox Speech.wav -n trim 0 1.5 Noiseprof Speech.Noise-Profil
Um das Rauschen tatsächlich zu entfernen, führen Sie SoX erneut aus, dieses Mal mit Lärmrot bewirken;
Lärmrot reduziert den Lärm entsprechend einem Lärmprofil (das von generiert wurde).
Lärmprof), von Profildatei, oder von stdin, wenn nein Profildatei oder wenn „-“ angegeben ist.
zB
sox Speech.wav clean.wav Noisered Speech.Noise-Profil 0.3
Wie viel Lärm entfernt werden soll, wird durch angegeben Betrag-a Zahl zwischen 0 und 1
mit einem Standardwert von 0.5. Höhere Zahlen entfernen mehr Rauschen, bieten aber ein größeres Rauschen
Wahrscheinlichkeit, gewünschte Komponenten des Audiosignals zu entfernen. Vor dem Austausch eines
Originalaufnahme mit einer rauschreduzierten Version, experimentieren Sie mit anderen Betrag
Werte, um den optimalen Wert für Ihr Audio zu finden; Verwenden Sie Kopfhörer, um dies zu überprüfen
Ich bin mit den Ergebnissen zufrieden und lege besonderes Augenmerk auf ruhigere Abschnitte
Audio.
Bei den meisten Systemen können die beiden Stufen Profilierung und Reduzierung mit einem kombiniert werden
Rohr, z.B
sox noisy.wav -n trim 0 1 Noiseprof | spiel noisy.wav Noisered
Norm [dB-Pegel]
Normalisieren Sie den Ton. Norm ist nur ein Alias für gewinnen -n;; siehe die gewinnen Wirkung für
Details.
hoppla Out Of Phase Stereo-Effekt. Mischt Stereo zu Twin-Mono, wobei jeder Monokanal vorhanden ist
enthält den Unterschied zwischen dem linken und dem rechten Stereokanal. Das ist
manchmal auch als „Karaoke“-Effekt bekannt, da er oft dazu führt, dass die meisten davon entfernt werden
oder alle Vocals einer Aufnahme. Es ist gleichbedeutend mit remix 1,2 1,2.
übersteuern [gewinnen(20) [Farbe(20)]]
Nichtlineare Verzerrung. Der Farbe Der Parameter steuert den Anteil der geraden Harmonischen
Inhalt in der übersteuerten Ausgabe.
Unterlage { Länge[@Position]}
Füllen Sie den Ton am Anfang, am Ende oder an bestimmten Stellen mit Stille auf
durch den Ton. Beide Länge und Position kann eine Zeit oder, falls angehängt, angeben
mit einem „s“, einer Anzahl von Samples. Länge ist die Menge an Stille, die eingefügt werden soll und
Position die Position im Eingabe-Audiostream, an der es eingefügt werden soll. Irgendeine Nummer
Längen und Positionen können angegeben werden, sofern eine bestimmte Position vorliegt
nicht weniger als der vorherige. Position ist für den ersten und den letzten optional
Die angegebenen Längen entsprechen, wenn sie weggelassen werden, dem Anfang und dem Ende der
Audio bzw. Zum Beispiel, Unterlage 1.5 1.5 fügt 1.5 Sekunden Stille-Padding hinzu
an jedem Ende des Audios, während Unterlage 4000s@3:00 fügt 4000 Stille-Samples ein 3
Minuten in den Ton. Wenn Stille nur am Ende der Audiodatei gewünscht ist, geben Sie dies an
entweder die Endposition oder geben Sie am Anfang ein Pad mit der Länge Null an.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] verzögern für einen Effekt, der zu Beginn des Audios Stille hinzufügen kann
auf Kanal-für-Kanal-Basis.
Phaser Gewinn herausgewinnen verzögern Verfall Geschwindigkeit [-s|-t]
Fügen Sie dem Audio einen Phaseneffekt hinzu. Eine ausführliche Beschreibung der Phaseneinteilung finden Sie unter [3].
Verzögerung/Verfall/Geschwindigkeit gibt die Verzögerung in Millisekunden und den Abfall (relativ zur Verstärkung) an.
im) mit einer Modulationsgeschwindigkeit in Hz. Die Modulation ist entweder sinusförmig (-s) -
vorzugsweise für mehrere Instrumente, oder dreieckig (-t) – gibt einzelne Instrumente an
ein schärferer Phaseneffekt. Der Abfall sollte weniger als 0.5 betragen, um Rückkopplungen zu vermeiden
normalerweise nicht weniger als 0.1. Gain-Out ist die Lautstärke des Ausgangs.
Beispielsweise:
Snare spielen.flac Phaser 0.8 0.74 3 0.4 0.5 -t
Sanfter:
Snare spielen.flac Phaser 0.9 0.85 4 0.23 1.3 -s
Ein beliebter Sound:
Snare spielen.flac Phaser 0.89 0.85 1 0.24 2 -t
Schwerwiegender:
Snare spielen.flac Phaser 0.6 0.66 3 0.6 2 -t
Tonhöhe [-q] verschieben [Segment [search [überlappen]]]
Ändern Sie die Tonhöhe (aber nicht das Tempo).
verschieben gibt die Tonhöhenverschiebung als positive oder negative „Cents“ (z. B. Hundertstel) an
Halbton). Siehe die Zeit, Effekt für eine Beschreibung der anderen Parameter.
Siehe auch die biegen, Geschwindigkeit und Zeit, Effekte.
Rate [-q|-l|-m|-h|-v] [Override-Optionen] PREIS[k]
Ändern Sie die Audio-Abtastrate (dh resampeln Sie das Audio) auf einen beliebigen Wert PREIS (sogar
nicht ganzzahlig, wenn dies vom Ausgabedateiformat unterstützt wird) unter Verwendung einer Qualitätsstufe
wie folgt definiert:
Qualität Band- Rej dB Charakteristische Verwende
Breite
-q schnell n/a ≈30 bei eingeschalteter Wiedergabe
Fs/4 alte Hardware
-l niedrig 80 % 100 Wiedergabe auf alt
Hardware
-m mittel 95 % 100 Audiowiedergabe
-h hoch 95 % 125 16-Bit-Mastering
(mit Dither verwenden)
-v sehr hoch 95 % 175 24-Bit-Mastering
woher Bandbreite ist der Prozentsatz des Audiofrequenzbands, der erhalten bleibt
und Rej dB ist der Grad der Rauschunterdrückung. Zunehmendes Resampling
Qualität geht mit zunehmender Zeit zur Verarbeitung des Audiomaterials einher. Wenn
Es ist keine Qualitätsoption angegeben, die verwendete Qualitätsstufe ist „hoch“ (siehe jedoch „Wiedergabe &
„Audio aufnehmen“ oben bezüglich der Wiedergabe).
Der „schnelle“ Algorithmus verwendet kubische Interpolation; Alle anderen verwenden bandbegrenzt
Interpolation. Standardmäßig haben alle Algorithmen einen „linearen“ Phasengang; für
„mittel“, „hoch“ und „sehr hoch“, der Phasengang ist konfigurierbar (siehe unten).
Das Rate Der Effekt wird bei SoX automatisch aufgerufen -r Option gibt eine Rate an, die
unterscheidet sich von dem der Eingabedatei(en). Alternativ, wenn dieser Effekt gegeben ist
explizit, dann SoX's -r Die Option muss nicht angegeben werden. Zum Beispiel die folgenden beiden
Befehle sind äquivalent:
sox input.wav -r 48k output.wav bass -b 24
sox input.wav output.wav bass -b 24 rate 48k
Der zweite Befehl ist jedoch flexibler, da er dies zulässt Rate zu gebende Optionen,
und ermöglicht eine beliebige Anordnung der Effekte.
* * *
Achtung: Es folgt eine technisch detaillierte Diskussion.
Die oben beschriebene einfache Qualitätsauswahl bietet Einstellungen, die den Anforderungen genügen
Anforderungen der überwiegenden Mehrheit der Resampling-Aufgaben. Gelegentlich kann es jedoch sein
wünschenswert, um die Filterreaktion des Resamplers fein abzustimmen; Dies kann erreicht werden mit
Override Optionen, wie in der folgenden Tabelle aufgeführt:
-M/-I/-L Phasengang = minimal/mittel/linear
-s Steilfilter (Bandbreite = 99 %)
-a Aliasing/Bildgebung oberhalb des Durchlassbandes zulassen
-b 74 99.7 Beliebige Bandbreite %
-p 0 100 Beliebige Phasenantwort (0 = minimal, 25 = mittel,
50 = linear, 100 = maximal)
Hinweis: Override-Optionen können nicht mit den Algorithmen „schnell“ oder „niedrig“ verwendet werden.
Alle Resampler verwenden Filter, die manchmal ein „Echo“ (auch „Klingeln“ genannt) erzeugen können.
Artefakte mit transienten Signalen, wie sie beispielsweise beim „Fingerschnipsen“ auftreten
andere stark perkussive Klänge. Solche Artefakte sind für die Menschen deutlich auffälliger
menschliches Ohr, wenn sie vor dem Transienten („Vorecho“) auftreten, als wenn sie danach auftreten
es („Post-Echo“). Beachten Sie, dass die Häufigkeit solcher Artefakte mit der Häufigkeit zusammenhängt
kleiner als die ursprüngliche und die neue Abtastrate, aber zumindest, wenn dies der Fall ist
44.1 kHz, dann liegen die Artefakte außerhalb des menschlichen Hörbereichs.
Eine Einstellung des Phasengangs kann verwendet werden, um die Verteilung von Transienten zu steuern
Echo zwischen „Pre“ und „Post“: Bei minimaler Phase gibt es kein Vorecho außer dem
längstes Nachecho; Bei linearer Phase sind Vor- und Nachecho gleich groß (in
Signalbegriffe, jedoch keine Hörbarkeitsbegriffe); Die Zwischenphaseneinstellung versucht dies
Finden Sie den besten Kompromiss, indem Sie eine kleine Länge (und einen kleinen Pegel) des Vorechos wählen und a
mittellanges Nachecho.
Mit wird die minimale, mittlere oder lineare Phasenantwort ausgewählt -M, -I, oder auch -L
Möglichkeit; Mit dem kann eine benutzerdefinierte Phasenantwort erstellt werden -p Möglichkeit. Beachten Sie diese Phase
Antworten zwischen „linear“ und „maximal“ (größer als 50) sind selten nützlich.
Die Bandbreiteneinstellung eines Resamplers bestimmt, wie viel vom Frequenzinhalt von
das ursprüngliche Signal (bezogen auf die ursprüngliche Abtastrate beim Upsampling) oder das neue
Die Abtastrate beim Downsampling bleibt bei der Konvertierung erhalten. Der Begriff „Pass-
„band“ bezieht sich auf alle Frequenzen bis zum Bandbreitenpunkt (z. B. für
Das Durchlassband stellt eine Abtastrate von 44.1 kHz und eine Resampling-Bandbreite von 95 % dar
Frequenzen von 0 Hz (DC) bis ca. 21 kHz). Erhöhen der Bandbreite des Resamplers
führt zu einer langsameren Konvertierung und kann transiente Echoartefakte verstärken (und umgekehrt).
umgekehrt).
Das -s Die Option „Steep Filter“ ändert die Resampling-Bandbreite vom Standardwert 95 %.
(basierend auf dem 3dB-Punkt) auf 99 %. Der -b Mit der Option kann die Bandbreite eingestellt werden
Jeder Wert im Bereich von 74 bis 99.7 %. Beachten Sie jedoch, dass Bandbreitenwerte größer als 99 % sind.
werden für den normalen Gebrauch nicht empfohlen, da sie übermäßige transiente Echos verursachen können.
Besitzt das -a Wenn diese Option angegeben ist, ist Aliasing/Imaging oberhalb des Durchlassbereichs zulässig.
Beispielsweise mit einer Abtastrate von 44.1 kHz und einer Resampling-Bandbreite von 95 %
bedeutet, dass Frequenzinhalte über 21 kHz verzerrt sein können; Da dies jedoch der Fall ist
über dem Durchlassbereich (d. h. über der höchsten interessierenden/hörbaren Frequenz),
das dürfte kein Problem sein. Die Vorteile des Zulassens von Aliasing/Imaging werden verringert
Verarbeitungszeit und reduzierte (fast die Hälfte) transiente Echoartefakte. Beachten Sie, dass
Wenn diese Option angegeben ist, dann die minimal zulässige Bandbreite mit -b erhöht sich auf
85%.
Beispiele:
sox input.wav -b 16 output.wav rate -s -a 44100 dither -s
Standard-Resampling (hoher Qualität); außer Kraft gesetzt: Steilfilter, Aliasing zulassen; Zu
44.1 kHz Abtastrate; rauschförmiges Dithern in eine 16-Bit-WAV-Datei.
sox input.wav -b 24 output.aiff rate -v -I -b 90 48k
sehr hochwertiges Resampling; außer Kraft gesetzt: Zwischenphase, Bandbreite 90 %; bis 48k
Beispielrate; Speichern Sie die Ausgabe in einer 24-Bit-AIFF-Datei.
* * *
Das Tonhöhe und Geschwindigkeit Effekte nutzen die Rate Wirkung im Kern.
remix [-a|-m|-p]]außerhalb der Spezifikation>
außerhalb der Spezifikation = in-spec{,in-spec} | 0
in-spec = [in-chan][-[in-chan2]][Vol.-Spez]
Vol.-Spez = p|i|v[Volumen]
Wählen Sie Eingangs-Audiokanäle aus und mischen Sie sie in Ausgangs-Audiokanäle. Jede Ausgabe
Der Kanal wird wiederum durch eine bestimmte Angabe angegeben außerhalb der Spezifikation: eine Liste der beitragenden Eingaben
Kanäle und Lautstärkeangaben.
Beachten Sie, dass dieser Effekt auf das Audio wirkt Kanäle innerhalb der SoX-Effekte
Verarbeitungskette; es sollte nicht mit dem verwechselt werden -m globale Option (wo
mehrere Dateien werden gemischt, bevor sie in die Effektkette gelangen).
An außerhalb der Spezifikation enthält durch Kommas getrennte und durch Bindestriche getrennte Eingabekanalnummern
Kanalnummernbereiche; Alternative, 0 kann angegeben werden, um eine stille Ausgabe zu erzeugen
Kanal. Zum Beispiel,
Sox Input.wav Output.wav Remix 6 7 8 0
Erstellt eine Ausgabedatei mit vier Kanälen, wobei die Kanäle 1, 2 und 3 Kopien davon sind
Kanäle 6, 7 und 8 in der Eingabedatei und Kanal 4 ist stumm. Wohingegen
Sox Input.wav Output.wav Remix 1-3,7 3
erstellt eine (etwas bizarre) Stereo-Ausgabedatei, bei der der linke Kanal ein Mix-
unten der Eingangskanäle 1, 2, 3 und 7, und der rechte Kanal ist eine Kopie des Eingangs
Kanal 3.
Wenn ein Kanalbereich angegeben ist, werden links und rechts die Kanalnummern angezeigt
des Bindestrichs sind optional und standardmäßig auf 1 und auf die Anzahl der Eingangskanäle festgelegt
jeweils. Daher
sox-Eingabe.wav Ausgabe.wav-Remix -
Führt eine Abmischung aller Eingangskanäle auf Mono durch.
Standardmäßig wird ein Ausgangskanal aus jeweils mehreren (n) Eingangskanälen gemischt
Der Eingangskanal wird um den Faktor ¹/n skaliert. Es können individuelle Mischvolumina eingestellt werden
indem Sie einem bestimmten Eingabekanal oder einer Reihe von Eingabekanälen mit a folgen Vol.-Spez
(Volumenangabe). Dies ist einer der Buchstaben p, i, oder auch v, Gefolgt von einem
Bandnummer, deren Bedeutung vom angegebenen Buchstaben abhängt und definiert ist als
folgt:
Brief Volume Anzahl Notizen
p Leistungsanpassung in dB 0 = keine Änderung
i-Leistung in dB anpassen Wie „p“, aber invertieren
Audio-
v Spannungsvervielfacher 1 = keine Änderung, 0.5 ≈ 6 dB
Dämpfung, 2 ≈ 6dB
Verstärkung, -1 = invertieren
Wenn ein außerhalb der Spezifikation enthält mindestens eine Vol.-Spez dann ist die ¹/n-Skalierung standardmäßig nicht der Fall
Wird auf alle anderen Kanäle in derselben Out-Spezifikation angewendet (kann jedoch auch in anderen Out-Spezifikationen liegen).
Spezifikationen). Die Option -a (automatisch) kann jedoch angegeben werden, um die Automatik beizubehalten
Skalierung in diesem Fall. Zum Beispiel,
Sox Input.wav Output.wav Remix 1,2 3,4v0.8
führt zu Kanalebenenmultiplikatoren von 0.5,0.5, 1,0.8 XNUMX, wohingegen
sox input.wav output.wav remix -a 1,2 3,4v0.8
führt zu Kanalebenenmultiplikatoren von 0.5,0.5, 0.5,0.8 XNUMX, XNUMX.
Die Option -m (manuell) deaktiviert alle automatischen Lautstärkeanpassungen
sox input.wav output.wav remix -m 1,2 3,4v0.8
führt zu Kanalebenenmultiplikatoren von 1,1, 1,0.8 XNUMX, XNUMX.
Die Angabe der Datenträgernummer ist optional. Wenn Sie sie weglassen, erfolgt keine Änderung des Datenträgers.
Dies ist jedoch nur in Verbindung mit nützlich i. For
Beispiel, wenn input.wav ist also Stereo
Sox Input.wav Output.wav Remix 1,2i
ist ein Monoäquivalent von hoppla Wirkung.
Besitzt das -p Wenn die Option angegeben ist, wird die automatische ¹/n-Skalierung durch ¹/√n ersetzt
(„Leistung“) Skalierung; Dies führt zu einem lauteren Mix, der jedoch gelegentlich übersteuern kann.
* * *
Eine Verwendung des remix Der Effekt besteht darin, eine Audiodatei in jeweils eine Reihe von Dateien aufzuteilen
enthält einen der konstituierenden Kanäle (um nachfolgende auszuführen).
Verarbeitung auf einzelnen Audiokanälen). Wo mehr als nur ein paar Kanäle sind
beteiligt ist, ist ein Skript wie das folgende (Bourne-Shell-Skript) nützlich:
#!/ Bin / sh
chans=`soxi -c "$1"`
while [ $chans -ge 1 ]; Tun
chans0=`printf %02i $chans` # 2 Ziffern, daher bis zu 99 Kanäle
out=`echo "$1"|sed "s/\(.*\)\.\(.*\)/\1-$chans0.\2/"`
sox „$1“ „$out“ Remix $chans
chans=`expr $chans - 1`
erledigt
Wenn eine Datei input.wav Das Drehbuch enthielt sechs Audiokanäle
Erzeugen Sie sechs Ausgabedateien: input-01.wav, input-02.wav... input-06.wav.
Siehe auch die tauschen Wirkung.
wiederholen [zählen (1)]
Wiederholen Sie den gesamten Ton zählen mal oder einmal, wenn zählen ist nicht gegeben. Erfordert
Temporärer Dateibereich zum Speichern des zu wiederholenden Audios. Beachten Sie, dass dies einmal wiederholt wird
ergibt zwei Kopien: das Original-Audio und das wiederholte Audio.
Hall [-w|--nur nass] [Nachhall (50 %) [HF-Dämpfung (50%)
[Raummaßstab (100 %) [Stereotiefe (100%)
[Vorverzögerung (0ms) [Nassverstärkung (0dB)]]]]]]
Fügen Sie dem Audio mit dem „Freeverb“-Algorithmus Nachhall hinzu. Ein Nachhall
Bei Konzertsälen, die zu klein sind oder solche enthalten, ist der Effekt manchmal wünschenswert
Viele Menschen glauben, dass der natürliche Nachhall des Saals beeinträchtigt ist. Auftragen einer kleinen
Wenn Sie einem (trockenen) Monosignal mehr Stereohall hinzufügen, klingt es normalerweise stärker
natürlich. Eine ausführliche Beschreibung des Nachhalls finden Sie in [3].
Beachten Sie, dass dieser Effekt sowohl die Lautstärke als auch die Länge des Audios erhöht
Um Clipping in diesen Domänen zu verhindern, könnte ein typischer Aufruf wie folgt aussehen:
Play dry.wav Gain -3 Pad 0 3 Reverb
Das -w Es kann die Option gegeben werden, nur das „nasse“ Signal auszuwählen und so dies zu ermöglichen
unabhängig vom „trockenen“ Signal weiterverarbeitet. Z.B
play -m voice.wav "|sox voice.wav -p reverse reverb -w reverse"
für einen umgekehrten Halleffekt.
rückgängig machen
Kehren Sie den Ton vollständig um. Erfordert temporären Dateispeicher zum Speichern des Audios
umgekehrt werden.
Riaa Wenden Sie die RIAA-Vinyl-Wiedergabeentzerrung an. Die Abtastrate muss eine der folgenden sein: 44.1,
48, 88.2, 96 kHz.
Dieser Effekt unterstützt die --Handlung globale Option.
Stille [-l] oben genannten Zeiträume [Dauer Schwelle[d|%]
[unten-Perioden Dauer Schwelle[d|%]]
Entfernt Stille vom Anfang, in der Mitte oder am Ende des Audios. „Stille“ ist
durch einen bestimmten Schwellenwert bestimmt.
Das oben genannten Zeiträume Der Wert wird verwendet, um anzugeben, ob Audio an der Stelle getrimmt werden soll
Beginn des Audios. Ein Wert von Null gibt an, dass keine Stille abgeschnitten werden soll
der Anfang. Bei Angabe eines Werts ungleich Null oben genannten Zeiträume, es schneidet den Ton bis zu
es findet Nicht-Stille. Normalerweise wird beim Trimmen der Stille vom Anfang des Audios die
oben genannten Zeiträume wird 1 sein, kann aber auf höhere Werte erhöht werden, um das gesamte Audio zu trimmen
bis zu einer bestimmten Anzahl von Ruhepausen. Zum Beispiel, wenn Sie ein Audio hätten
Datei mit zwei Liedern, die jeweils 2 Sekunden Stille vor dem Lied enthielten, Sie
könnte eine angeben über dem Zeitraum von 2, um beide Stilleperioden und die erste zu entfernen
Lied.
Wann oben genannten Zeiträume ungleich Null ist, müssen Sie auch a angeben Dauer und Schwelle.
Feste Rollen oder offenes Matching Gibt an, wie lange es dauern muss, bis Stillstand erkannt wird
Hört auf, Audio zu trimmen. Durch Erhöhen der Dauer kann ein Geräuschstoß behandelt werden
Stille und abgeschnitten.
Schwelle wird verwendet, um anzugeben, welchen Beispielwert Sie als Stille behandeln sollten. Für
Bei digitalem Audio kann ein Wert von 0 in Ordnung sein, aber für analog aufgenommenes Audio ist dies möglicherweise der Fall
Sie möchten den Wert erhöhen, um Hintergrundgeräusche zu berücksichtigen.
Wenn Sie optional die Stille am Ende des Audios kürzen möchten, geben Sie a an unten-
Zeiträume zählen. In diesem Fall, Unterhalb der Periode bedeutet, alle Audiodaten nach der Stille zu entfernen
ist angeschlossen. Normalerweise ist dies ein Wert von 1, er kann jedoch zum Überspringen erhöht werden
über Zeiten der Stille, die gewollt sind. Wenn Sie beispielsweise ein Lied mit 2 haben
Sekunden Stille in der Mitte und 2 Sekunden am Ende, können Sie unten einstellen-
Stellen Sie die Periode auf einen Wert von 2 ein, um die Stille in der Mitte des Audios zu überspringen.
Für unten-Perioden, Dauer Gibt eine Zeit der Stille an, die vorher bestehen muss
Audio wird nicht mehr kopiert. Durch Angabe einer höheren Dauer, also Stille
gewünschtes Bild kann im Audio belassen werden. Zum Beispiel, wenn Sie ein Lied mit einem erwarteten haben
1 Sekunde Stille in der Mitte und 2 Sekunden Stille am Ende, eine Dauer
Eine Pause von 2 Sekunden könnte verwendet werden, um die mittlere Stille zu überspringen.
Leider müssen Sie die Länge der Stille am Ende Ihres Audios kennen
Datei zum zuverlässigen Abschneiden der Stille. Eine Lösung besteht darin, das zu verwenden Stille Wirkung in
Kombination mit der rückgängig machen Wirkung. Indem Sie zuerst den Ton umkehren, können Sie den verwenden
oben genannten Zeiträume um den gesamten Ton zuverlässig von der Vorderseite des zu trimmen
Datei. Drehen Sie die Datei dann erneut um, um zum Normalzustand zurückzukehren.
Um Stille aus der Mitte einer Datei zu entfernen, geben Sie a an unten-Perioden das ist
Negativ. Dieser Wert wird dann als positiver Wert behandelt und auch verwendet
Geben Sie an, dass der Effekt die Verarbeitung gemäß den Vorgaben neu starten soll oben genannten Zeiträume,
Dadurch eignet es sich zum Entfernen von Stillephasen mitten im Audio.
Die Option -l zeigt, dass die unten-Perioden Dauer Die Länge des Audios sollte übrig bleiben
zu Beginn jeder Schweigeperiode intakt. Zum Beispiel, wenn Sie möchten
Entfernen Sie lange Pausen zwischen Wörtern, möchten Sie die Pausen jedoch nicht vollständig entfernen.
Das Zeit Die Zählungen erfolgen in Probeneinheiten. Feste Rollen oder offenes Matching counts können im Format vorliegen
hh:mm:ss.frac oder die genaue Anzahl der Proben. Schwelle Zahlen können angehängt werden
mit d um anzugeben, dass der Wert in Dezibel angegeben ist, oder % um einen Prozentsatz anzugeben
Maximalwert des Stichprobenwerts (0% spezifiziert reine digitale Stille).
Das folgende Beispiel zeigt, wie dieser Effekt genutzt werden kann, um eine Aufnahme zu starten
enthält nicht die Verzögerung beim Start, die normalerweise zwischen dem Drücken der Taste auftritt
Aufnahmetaste“ und Beginn der Vorstellung:
rec Parameter Dateinamen andere-effekte Stille 1 5 2 %
aufricht [-a zu|-b Beta] [-p Phase|-M|-I|-L] [-t tbw|-n Wasserhähne] [freqHP][-freqLP [-t tbw|-n
Wasserhähne]]
Wenden Sie einen Tiefpass-, Hochpass-, Bandpass- oder Bandsperrfilter mit Sinc-Kaiser-Fenster an
zum Signal. Der freqHP und freqLP Parameter geben die Frequenzen des 6dB an
Punkte eines Hochpass- und Tiefpassfilters, die einzeln aufgerufen werden können, oder
zusammen. Wenn beides gegeben ist, dann freqHP weniger als freqLP erzeugt einen Bandpass
Filter, freqHP größer als freqLP Erstellt einen Bandsperrfilter. Zum Beispiel die
Anrufungen
seit 3k
sinc -4k
seit 3k-4k
seit 4k-3k
Erstellen Sie jeweils einen Hochpass-, Tiefpass-, Bandpass- und Bandsperrfilter.
Die standardmäßige Sperrbanddämpfung von 120 dB kann mit überschrieben werden -a;
Alternativ kann der Kaiser-Window-Parameter „Beta“ direkt mit angegeben werden -b.
Die standardmäßige Übergangsbandbreite von 5 % des Gesamtbands kann mit überschrieben werden -t
(und tbw in Hertz); Alternativ kann auch direkt die Anzahl der Filterabgriffe angegeben werden
mit -n.
Wenn beides freqHP und freqLP gegeben sind, dann a -t or -n Option links davon
die Frequenzen gelten für beide Frequenzen; Eine dieser Optionen ist dem gegeben
Das Recht der Frequenzen gilt nur für freqLP.
Das -p, -M, -I und -L Optionen steuern den Phasengang des Filters; siehe die Rate
Einzelheiten finden Sie unter Effekt.
Dieser Effekt unterstützt die --Handlung globale Option.
Spektrogramm [Optionen]
Erstellen Sie ein Spektrogramm des Audios; Das Audio wird unverändert durch das SoX geleitet
Verarbeitungskette. Dieser Effekt ist vom Typ optional Sox --help und überprüfen Sie die Liste von
Überprüfen Sie die unterstützten Effekte, um zu sehen, ob sie enthalten sind.
Das Spektrogramm wird in einer PNG-Datei (Portable Network Graphic) gerendert und angezeigt
Zeit auf der X-Achse, Frequenz auf der Y-Achse und Audiosignalstärke auf der Z-Achse.
Achse. Z-Achsen-Werte werden durch die Farbe (oder optional die Intensität) von dargestellt
die Pixel in der XY-Ebene. Wenn das Audiosignal mehrere Kanäle enthält, dann
Diese werden von oben nach unten beginnend mit Kanal 1 (links) angezeigt
Kanal für Stereo-Audio).
Wenn es sich beispielsweise bei „my.wav“ um eine Stereodatei handelt, dann mit
sox my.wav -n Spektrogramm
Ein Spektrogramm der gesamten Datei wird in der Datei „spectrogram.png“ erstellt.
Häufiger ist jedoch die Analyse eines kleineren Teils des Audiomaterials erforderlich; z.B
mit
sox my.wav -n remix 2 trim 20 30 spektrogramm
Das Spektrogramm zeigt nur Informationen vom zweiten (rechten) Kanal und von
dreißig Sekunden Audio ab zwanzig Sekunden. Um eine kleine zu analysieren
Teil des Frequenzbereichs, der Rate Effekt kann genutzt werden, z
sox my.wav -n rate 6k Spektrogramm
ermöglicht eine detaillierte Analyse von Frequenzen bis zu 3 kHz (halbe Abtastrate), d. h
Dort ist das menschliche Gehör am empfindlichsten. Mit
sox my.wav -n trim 0 10 spectrogram -x 600 -y 200 -z 100
Die angegebenen Optionen steuern die Größe der X-, Y- und Z-Achsen des Spektrogramms (in diesem Fall).
In diesem Fall beträgt die Spektrogrammfläche des erzeugten Bildes 600 x 200 Pixel
und der Z-Achsen-Bereich beträgt 100 dB). Beachten Sie, dass das erzeugte Bild Achsen enthält
Legenden usw. und daher etwas größer als die angegebene Spektrogrammgröße.
In diesem Beispiel:
sox -n -n synth 6 tri 10k:14k spectrogram -z 100 -w kaiser
Zur optimalen Darstellung wird ein Analysefenster mit hohem Dynamikbereich ausgewählt
Spektrogramm einer überstrichenen Dreieckswelle. Fügen Sie für ein ähnliches Beispiel Folgendes an
zum Befehl „chime“ in der Beschreibung des verzögern Wirkung (oben):
Rate 2k Spektrogramm -X 200 -Z -10 -w Kaiser
Es stehen auch Optionen zur Steuerung des Erscheinungsbilds zur Verfügung (Farbsatz, Helligkeit,
Kontrast usw.) und Dateiname des Spektrogramms; zB mit
sox my.wav -n spectrogram -m -l -o print.png
Es wird ein Spektrogramm erstellt, das zum Drucken auf einem Schwarzweißdrucker geeignet ist.
Option:
-x num Ändern Sie die (maximale) Breite (X-Achse) des Spektrogramms gegenüber der Standardeinstellung
Wert von 800 Pixeln zu einer bestimmten Zahl zwischen 100 und 200000. Siehe auch -X
und -d.
-X num X-Achsen-Pixel/Sekunde; Der Standardwert wird automatisch berechnet, um dem angegebenen oder zu entsprechen
bekannte Audiodauer auf die X-Achsengröße, andernfalls 100. Wenn gegeben
Verbindung mit -d, diese Option beeinflusst die Breite des Spektrogramms;
andernfalls beeinflusst es die Dauer des Spektrogramms. num kann ab 1 sein
(geringe zeitliche Auflösung) bis 5000 (hohe zeitliche Auflösung) und muss kein sein
ganze Zahl. SoX nimmt möglicherweise eine leichte Anpassung der angegebenen Zahl vor
Verarbeitungsquantisierungsgründe; Wenn ja, meldet SoX die tatsächliche Zahl
verwendet (sichtbar, wenn die globale SoX-Option aktiviert ist). -V in Kraft ist). Siehe auch -x und
-d.
-y num Legt die Größe der Y-Achse in Pixel fest (pro Kanal); das ist die Anzahl von
Frequenz-„Bins“, die in der Fourier-Analyse verwendet werden, die das Spektrogramm erstellt.
Beachten Sie, dass die Erstellung des Spektrogramms langsam sein kann, wenn diese Zahl nicht eins ist
mehr als eine Zweierpotenz (z. B. 129). Standardmäßig ist die Größe der Y-Achse ausgewählt
automatisch (abhängig von der Anzahl der Kanäle). Sehen -Y für alternative
Art und Weise, die Spektrogrammhöhe einzustellen.
-Y num Legt die angestrebte Gesamthöhe des/der Spektrogramm(e) fest. Der Standardwert ist
550 Pixel. Mit dieser Option (und standardmäßig) wählt SoX eine Höhe
für einzelne Spektrogrammkanäle ist das also eins mehr als eine Zweierpotenz
Die tatsächliche Gesamthöhe kann unter der angegebenen Zahl liegen. Allerdings da
Es gibt auch eine Mindesthöhe pro Kanal. Wenn also viele Kanäle vorhanden sind, beträgt die
Anzahl kann überschritten werden. Sehen -y für eine alternative Möglichkeit zur Einstellung des Spektrogramms
Höhe.
-z num Z-Achsen-(Farb-)Bereich in dB, Standard 120. Dies legt den Dynamikbereich von fest
das zu seinde Spektrogramm -num dBFS auf 0 dBFS. Num kann im Bereich von 20 bis 180 liegen.
Durch Verringern des Dynamikbereichs wird der „Kontrast“ effektiv erhöht
Spektrogramm-Anzeige und umgekehrt.
-Z num Legt die Obergrenze der Z-Achse in dBFS fest. Ein Negativ num effektiv
erhöht die „Helligkeit“ der Spektrogrammanzeige und umgekehrt.
-q num Legt die Z-Achsen-Quantisierung fest, also die Anzahl der verschiedenen Farben (bzw
Intensitäten), in denen Z-Achsenwerte gerendert werden sollen. Eine kleine Zahl (z. B. 4) wird es tun
ergeben einen „Poster“-ähnlichen Effekt, der es einfacher macht, Größenordnungen zu erkennen
ähnliches Niveau. Kleine Zahlen führen in der Regel auch zu kleinen PNG-Dateien. Der
Die angegebene Zahl gibt die Anzahl der Farben an, die innerhalb des Z-Achsenbereichs verwendet werden sollen.
Zwei Farben sind für die Darstellung von Werten außerhalb des Bereichs reserviert.
-w Name
Fenster: Hann (Standard), Hamming, Bartlett, Rechteckig oder Kaiser. Der
Das Spektrogramm wird mithilfe der Diskreten Fourier-Transformation (DFT) erstellt.
Algorithmus. Ein wichtiger Parameter dieses Algorithmus ist die Wahl von
„Fensterfunktion“. Standardmäßig verwendet SoX das Hann-Fenster, das gute All-
runde Frequenzauflösungs- und Dynamikbereichseigenschaften. Zum Besseren
Frequenzauflösung (aber geringerer Dynamikbereich), wählen Sie ein Hamming-Fenster; für
Wenn Sie einen höheren Dynamikbereich (aber schlechtere Frequenzauflösung) wünschen, wählen Sie einen Kaiser
Fenster. Bartlett- und Rechteckfenster sind ebenfalls erhältlich.
-W num Fensteranpassungsparameter. Hiermit können kleine Anpassungen vorgenommen werden
die Kaiserfensterform. Eine positive Zahl (bis zu zehn) erhöht den Wert
Dynamikbereich, eine negative Zahl verringert ihn.
-s Lassen Sie eine lockere Überlappung von DFT-Fenstern zu. Dies kann in einigen Fällen zunehmen
Bildschärfe und sorgen für eine bessere Haftung -x Wert, aber am
Kosten eines kleinen spektralen Verlusts.
-m Erstellt ein monochromes Spektrogramm (Standard ist Farbe).
-h Wählt eine Farbpalette mit vielen Farben aus – optisch weniger ansprechend als die Standardeinstellung
Farbpalette, aber es kann es einfacher machen, verschiedene Ebenen zu unterscheiden.
Wenn diese Option in Verbindung mit verwendet wird -m, das Ergebnis wird ein Hybrid sein
Monochrom/Farbpalette.
-p num Permutieren Sie die Farben in einer Farb- oder Hybridpalette. Der num Parameter, von
1 (Standard) bis 6, wählt die Permutation aus.
-l Erstellt ein „druckerfreundliches“ Spektrogramm mit hellem Hintergrund (der
Standardmäßig ist der Hintergrund dunkel).
-a Unterdrücken Sie die Anzeige der Achsenlinien. Dies ist manchmal hilfreich, um zu helfen
um Artefakte an den Spektrogrammrändern zu erkennen.
-r Rohspektrogramm: Unterdrücken Sie die Anzeige von Achsen und Legenden.
-A Wählt einen alternativen, festen Farbsatz aus. Dies ist nur vorgesehen
Kompatibilität mit Spektrogrammen, die von einem anderen Paket erstellt wurden. Es sollte nicht
normalerweise verwendet werden, da es einige Probleme hat, nicht zuletzt einen Mangel an
Differenzierung am unteren Ende, was zur Maskierung des Low-Levels führt
Artefakte.
-t Text
Legen Sie den Bildtitel fest – Text, der über dem Spektrogramm angezeigt werden soll.
-c Text
Legen Sie den Bildkommentar fest (oder löschen Sie ihn), der unten und links davon angezeigt werden soll
das Spektrogramm.
-o Text
Name der Spektrogramm-Ausgabe-PNG-Datei, standardmäßig „spectrogram.png“.
Erweitert Option:
Um einen kleineren Audioabschnitt zu verarbeiten, ohne andere Effekte zu beeinträchtigen oder
das Ausgangssignal (im Gegensatz zum trimmen Effekt verwendet wird), können die folgenden Optionen verfügbar sein
verwendet werden.
-d Dauer
Diese Option stellt die X-Achsen-Auflösung so ein, dass Audio mit der angegebenen Auflösung übereinstimmt
Dauer ([[HH:]MM:]SS) passt zur ausgewählten (oder standardmäßigen) X-Achsenbreite. Für
Beispiel
sox input.mp3 output.wav -n spectrogram -d 1:00 stats
erstellt ein Spektrogramm, das die erste Minute des Audios zeigt, während
Statistik Der Effekt wird auf das gesamte Audiosignal angewendet.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] -X für eine alternative Möglichkeit zum Einstellen der X-Achsen-Auflösung.
-S Zeit
Starten Sie das Spektrogramm an der angegebenen Stelle im Audiostream. Zum Beispiel
sox input.aiff output.wav spectrogram -S 1:00
erstellt ein Spektrogramm, das alle bis auf die erste Minute des Audios zeigt (die
Die Ausgabedatei empfängt jedoch den gesamten Audiostream.
Informationen zur Möglichkeit der Offline-Verarbeitung von Spektraldaten finden Sie im Zustand
Wirkung.
Geschwindigkeit Faktor[c]
Passen Sie die Audiogeschwindigkeit an (Tonhöhe und Tempo zusammen). Faktor ist entweder das Verhältnis von
die neue Geschwindigkeit auf die alte Geschwindigkeit: größer als 1 beschleunigt, kleiner als 1 verlangsamt,
oder, wenn der Buchstabe „c“ angehängt ist, die Anzahl der Cent (d. h. Hundertstel a).
Halbton), um den die Tonhöhe (und das Tempo) angepasst werden soll: größer als 0
steigt, kleiner als 0 sinkt.
Technisch gesehen verändert der Geschwindigkeitseffekt nur die Informationen zur Abtastrate, sodass die
Proben selbst unberührt. Der Rate Der Effekt wird automatisch zum erneuten Abtasten aufgerufen
an die Ausgabe-Abtastrate anpassen, wobei die Standardqualität/-geschwindigkeit verwendet wird. Für höhere Qualität bzw
schnelleres Resampling, zusätzlich zu Geschwindigkeit Wirkung, spezifizieren Sie die Rate bewirken
mit der gewünschten Qualitätsoption.
Siehe auch die biegen, Tonhöhe und Zeit, Effekte.
spleißen [-h|-t|-q] { Position[,Überschuss[,Spielraum]] }
Fügen Sie Audioabschnitte zusammen. Dieser Effekt bietet gegenüber einfachem Audio zwei Vorteile
Verkettung: An der Verbindungsstelle wird eine (normalerweise kurze) Überblendung und eine Welle angewendet
Ein Ähnlichkeitsvergleich wird durchgeführt, um den besten Ort für die Erstellung zu ermitteln
beizutreten.
Eine der Optionen -h, -t, oder auch -q kann gegeben werden, um die Fade-Hüllkurve als Halbwert auszuwählen.
Kosinuswelle (Standard), Dreieckswelle (auch linear genannt) oder Viertelkosinuswelle
beziehungsweise.
Typ Audio Verblassen Grad des Veränderungen
t korrelierte konstante Verstärkung abrupt
h korrelierte konstante Verstärkung glatt
q unkorrelierte konstante Leistung glatt
Um einen Splice durchzuführen, verwenden Sie zunächst die trimmen Effekt, um die zu bearbeitenden Audioabschnitte auszuwählen
miteinander verbunden. B. bei der Durchführung eines Bandspleißes, das Ende des Abschnitts sein
gespleißt sollte mit einem kleinen getrimmt werden Überschuss (Standard 0.005 Sekunden) des Audios
nach dem idealen Verbindungspunkt. Der Anfang des Audioabschnitts, an dem gespleißt werden soll
sollte mit dem gleichen getrimmt werden Überschuss (vor dem idealen Verbindungspunkt), plus an
zusätzlich Spielraum (Standard 0.005 Sekunden). SoX sollte dann mit den beiden aufgerufen werden
Audioabschnitte als Eingabedateien und die spleißen Wirkung gegeben mit der Position bei
die der Spleiß durchgeführt werden soll – dies ist die Länge des ersten Audioabschnitts (einschließlich
der Überschuss).
Das folgende Diagramm verwendet die Bandanalogie, um den Spleißvorgang zu veranschaulichen.
Der Effekt simuliert die diagonalen Schnitte und verbindet die beiden Teile:
Länge1 Überschuss
-----------><--->
_________ : : _________________
\ : : :\ `
\ : : : \ `
\: : : \ `
* : : * - - *
\ : : :\ `
\ : : : \ `
_______________\: : : \_____`____
:::::
<---> <----->
überschüssiger Spielraum
wobei * die Verbindungspunkte angibt.
Beispielsweise beginnt ein langes Lied mit zwei Strophen, die beginnen (wie z. B. festgelegt durch
Verwendung der Spiel & Sport Befehl mit dem trimmen (Anfang) Effekt) zu Zeiten 0:30.125 und
1:03.432. Die folgenden Befehle schneiden den ersten Vers aus:
sox too-long.wav part1.wav trim 0 30.130
(5 ms Überschreitung, nach Beginn der ersten Strophe)
sox too-long.wav part2.wav trim 1:03.422
(5 ms Überschuss plus 5 ms Spielraum, bevor die zweite Strophe beginnt)
sox part1.wav part2.wav just-right.wav splice 30.130
Ein weiteres Beispiel ist der SoX-Befehl
play „|sox -n -p synth 1 sin %1“ „|sox -n -p synth 1 sin %3“
erzeugt und spielt zwei Noten, aber beim Übergang ist ein unangenehmes Klicken zu hören; Die
Der Klick kann durch Spleißen statt durch Verketten des Audios entfernt werden, d. h. durch
anhängen spleißen 1 zum Befehl. (Klicks am Anfang und Ende des Audios
kann entfernt werden von vor der Spleißeffekt mit verblassen q .01 2 .01).
Vorausgesetzt, Ihre Arithmetik ist gut genug, können mehrere Spleiße mit a durchgeführt werden
Single spleißen Aufruf. Zum Beispiel:
#!/ Bin / sh
# Audio kopieren und einfügen
# acpo Infile-Kopieren-Starten-Kopieren-Stoppen-Einfügen-Over-Start-Outfile
# Alle Zeiten werden in Proben gemessen.
rate=`soxi -r "$1"`
e=`expr $rate '*' 5 / 1000` # Standardüberschuss verwenden
l=$e # und Spielraum.
sox „$1“ Piece.wav trim `expr $2 - $e - $l`s \
`expr $3 - $2 + $e + $l + $e`s
sox „$1“ part1.wav trim 0 `expr $4 + $e`s
sox „$1“ part2.wav trim `expr $4 + $3 - $2 - $e - $l`s
sox part1.wav piece.wav part2.wav „$5“ splice \
`expr $4 + $e`s \
`expr $4 + $e + $3 - $2 + $e + $l + $e`s
Im obigen Bourne-Shell-Skript werden zwei Splices zum „Kopieren und Einfügen“ von Audio verwendet.
* * *
Es ist auch möglich, diesen Effekt zu nutzen, um allgemeine Überblendungen durchzuführen, z. B. zum Zusammenfügen
zwei Lieder. In diesem Fall, Überschuss wäre typischerweise eine Anzahl von Sekunden, die -q
Normalerweise wird die Option gegeben (um eine Überblendung mit „gleicher Leistung“ auszuwählen) und Spielraum
sollte Null sein (was die Standardeinstellung ist, wenn -q gegeben ist). Wenn beispielsweise f1.wav und
f2.wav sind also Audiodateien, die überblendet werden sollen
sox f1.wav f2.wav out.wav splice -q $(soxi -D f1.wav),3
Überblendet die Dateien, bei denen der Punkt gleicher Lautstärke 3 Sekunden vor dem Ende liegt
von f1.wav, d. h. die Gesamtlänge der Überblendung beträgt 2 × 3 = 6 Sekunden (Hinweis: Die
$(...)-Notation ist POSIX-Shell).
Zustand [-s Treppe] [-rms] [-Frequenz] [-v] [-d]
Zeigt statistische Zeit- und Frequenzbereichsinformationen zum Audio an. Audio
wird unverändert durch die SoX-Verarbeitungskette geleitet.
Die Informationen werden an den Stream „Standardfehler“ (stderr) ausgegeben und sind
berechnet, wo n ist die Dauer des Audios in Samples, c ist die Anzahl von
Audiokanäle, r ist die Audio-Abtastrate und xk stellt den PCM-Wert dar (im
(standardmäßig Bereich -1 bis +1) jedes aufeinanderfolgenden Samples im Audio wie folgt:
Muster besuch n×c
Länge (Sekunden) n÷r
Skaliert by Siehe -s unten.
Maximal Amplitude max (xk) Der maximale Stichprobenwert
im Audio; normalerweise
das wird positiv sein
Anzahl.
Mindestens Amplitude Mindest(xk) Der minimale Stichprobenwert
im Audio; normalerweise
das wird negativ sein
Anzahl.
Mittellinie Amplitude ½min(xk)+½max(xk)
Bedeuten Norm ¹/nΣ│xk│ Der Durchschnitt der
absoluter Wert von jedem
Probe im Audio.
Bedeuten Amplitude ¹/nΣxk Der Durchschnitt von jedem
Probe im Audio. Wenn
diese Zahl ist ungleich Null,
dann zeigt es an
Vorhandensein eines DC
Offset (was sein könnte
mit entfernt
dcshift bewirken).
RMS Amplitude √(¹/nΣxk²) Der Pegel eines DC
Signal, das hätte
die gleiche Leistung wie die
Durchschnittliche Audioleistung.
Maximal Delta max(│xk-xk-1│)
Mindestens Delta min(│xk-xk-1│)
Bedeuten Delta ¹/n-1Σ│xk-xk-1│
RMS Delta √(¹/n-1Σ(xk-xk-1)²)
rau Frequenz In Hz.
Volume Einstellung Der Parameter zum vol
Wirkung, die machen würde
der Ton so laut wie
möglich ohne
Ausschnitt. Hinweis: Siehe die
Diskussion über Ausschnitt
oben aus Gründen, warum es
ist selten eine gute Idee
das tatsächlich zu tun.
Beachten Sie, dass die Delta-Messungen nicht für Mehrkanal-Audio gelten.
Das -s Mit der Option können die Eingabedaten um einen bestimmten Faktor skaliert werden. Der Standard
Wert von Treppe ist 2147483647 (dh der Maximalwert einer 32-Bit-Ganzzahl mit Vorzeichen).
Interne Effekte funktionieren immer mit vorzeichenbehafteten langen PCM-Daten, und das sollte auch der Wert sein
beziehen sich auf diese Tatsache.
Das -rms Die Option konvertiert alle ausgegebenen Durchschnittswerte in den quadratischen Mittelwert.
Format.
Das -v Die Option zeigt nur den Wert „Lautstärkeanpassung“ an.
Das -Frequenz Die Option berechnet stattdessen das Leistungsspektrum des Eingangs (4096 Punkte DFT).
die oben aufgeführten Statistiken. Dies sollte nur mit einem Einkanal-Audio verwendet werden
Datei.
Das -d Die Option zeigt einen Hex-Dump des 32-Bit-signierten PCM-Datenaudios in SoXs an
Interner Puffer. Dies wird hauptsächlich verwendet, um Endian-Probleme aufzuspüren
treten manchmal in plattformübergreifenden Versionen von SoX auf.
Siehe auch die Statistik Wirkung.
Statistik [-b Bits|-x Bits|-s Treppe] [-w Fensterzeit]
Statistische Zeitbereichsinformationen zu den Audiokanälen anzeigen; Audio ist
unverändert durch die SoX-Verarbeitungskette geleitet. Statistiken werden berechnet und
für jeden Audiokanal angezeigt und ggf. auch ein Gesamtwert angezeigt
gegeben.
Zum Beispiel für eine typische, gut gemasterte Stereo-Musikdatei:
Insgesamt links rechts
DC-Offset 0.000803 -0.000391 0.000803
Min. Niveau -0.750977 -0.750977 -0.653412
Maximales Niveau 0.708801 0.708801 0.653534
Pk lev dB -2.49 -2.49 -3.69
RMS-Pegel dB -19.41 -19.13 -19.71
RMS Pk dB -13.82 -13.82 -14.38
RMS Tr dB -85.25 -85.25 -82.66
Scheitelfaktor - 6.79 6.32
Pauschalfaktor 0.00 0.00 0.00
PK zählen 2 2 2
Bittiefe 16/16 16/16 16/16
Anzahl Proben 7.72 Millionen
Länge s 174.973
Maßstab max. 1.000000
Fenster 0.050
DC Offset, Min. Grad des und Max Grad des werden standardmäßig im Bereich ±1 angezeigt. Wenn die
-b (Bits)-Optionen angegeben sind, werden diese drei Messungen auf a skaliert
vorzeichenbehaftete Ganzzahl mit der angegebenen Anzahl von Bits; zum Beispiel für 16 Bit die Skala
wäre -32768 bis +32767. Der -x Option verhält sich genauso wie -b außer dass
Die vorzeichenbehafteten Ganzzahlwerte werden hexadezimal angezeigt. Der -s Option skaliert die
drei Messungen mit einer gegebenen Gleitkommazahl.
Pk lev dB und RMS lev dB sind standardmäßige Spitzen- und RMS-Pegel, gemessen in dBFS.
RMS Pk dB und RMS Tr dB sind Spitzen- und Tiefstwerte für den RMS-Pegel, gemessen über einen Zeitraum
kurzes Fenster (Standard 50 ms).
Hals Faktor ist das Standardverhältnis von Spitzen- zu RMS-Pegel (Hinweis: nicht in dB).
Flache Schaltflächen Faktor ist ein Maß für die Ebenheit (also aufeinanderfolgende Proben mit demselben
Wert) des Signals bei seinen Spitzenpegeln (d. h. entweder Min. Grad des , oder auch Max Grad des ).
Pk zählen ist die Häufigkeit (nicht die Anzahl der Abtastungen), mit der das Signal empfangen wurde
entweder erreicht Min. Grad des , oder auch Max Grad des .
Die rechte Hand Bit-Tiefe Abbildung ist die Standarddefinition der Bittiefe, dh Bits
Werte mit geringerer Bedeutung als die angegebene Zahl werden auf Null festgelegt. Die linke Abbildung ist
die Anzahl der höchstwertigen Bits, die auf Null (oder Eins für negativ) festgelegt sind
Zahlen) von der rechten Zahl subtrahiert (die subtrahierte Zahl ist direkt).
Ähnliche Pk lev dB).
Für Mehrkanal-Audio beträgt ein Gesamtwert für jede der oben genannten Messungen
gegeben und aus den Kanalzahlen wie folgt abgeleitet: DC Offset: maximal
Größe; Max Grad des , Pk lev dB, RMS Pk dB, Bit-Tiefe: maximal; Min. Grad des ,
RMS Tr dB: Minimum; RMS lev dB, Flache Schaltflächen Faktor, Pk zählen: Durchschnitt; Hals Faktor: nicht
anwendbar.
Länge s ist die Dauer des Audios in Sekunden und Num Proben ist gleich dem
Abtastrate multipliziert mit Länge. Skalieren Max ist die Skalierung, die auf die erste angewendet wird
drei Messungen; Konkret handelt es sich dabei um den Höchstwert, auf den zutreffen könnte
Max Grad des . Window s ist die Länge des Fensters, das für den Spitzen- und Tiefstwert des RMS verwendet wird
Messungen.
Siehe auch die Zustand Wirkung.
tauschen Stereokanäle tauschen. Siehe auch remix für einen Effekt, der einen beliebigen Kanal ermöglicht
Auswahl und Bestellung (und Mischung).
Strecke Faktor [Fenster verblassen verschieben Fading]
Ändern Sie die Audiodauer (aber nicht die Tonhöhe). Dieser Effekt ist weitgehend gleichwertig
zu den Zeit, Wirkung mit (Faktor invertiert und) search auf Null gesetzt, also im Allgemeinen
seine Ergebnisse sind vergleichsweise dürftig; Es wird beibehalten, da es manchmal eine bessere Leistung erbringen kann
Zeit, für kleine Faktors.
Faktor Dehnung: >1 verlängern, <1 verkürzen Dauer. Fenster Größe ist in ms.
Der Standardwert ist 20 ms. Der verblassen Option, kann „lin“ sein. verschieben Verhältnis, in [0 1]. Standard
hängt vom Dehnungsfaktor ab. 1 zum Verkürzen, 0.8 zum Verlängern. Der Fading Verhältnis, in [0
0.5]. Der Standardwert eines Fades hängt davon ab Faktor und verschieben.
Siehe auch die Zeit, Wirkung.
Synth [-j SCHLÜSSEL] [-n] [len [WOW! [ph [p1 [p2 [p3]]]]]] {[tippe] [kombinieren]
[[%]Frequenz[k][:|+|/|-[%]freq2[k]]] [WOW! [ph [p1 [p2 [p3]]]]]}
Dieser Effekt kann verwendet werden, um Audiotöne mit fester oder gewobbelter Frequenz zu erzeugen
verschiedene Wellenformen zu erzeugen oder breitbandiges Rauschen in verschiedenen „Farben“ zu erzeugen. Mehrere
Synthesizer-Effekte können kaskadiert werden, um komplexere Wellenformen zu erzeugen. in jeder Phase es
Es besteht die Möglichkeit zu wählen, ob die erzeugte Wellenform mit oder gemischt werden soll
auf den Ausgang der vorherigen Stufe moduliert. Audio für jeden Kanal in einem
Mehrkanal-Audiodateien können unabhängig synthetisiert werden.
Obwohl dieser Effekt zum Generieren von Audio verwendet wird, muss dennoch eine Eingabedatei angegeben werden.
Deren Eigenschaften werden verwendet, um die Länge des synthetisierten Audios festzulegen
Anzahl der Kanäle und Abtastrate; Da jedoch das Audio der Eingabedatei vorhanden ist
normalerweise nicht benötigt, eine „Nulldatei“ (mit dem speziellen Namen -n) wird oft angegeben
stattdessen (und die als Parameter angegebene Länge). Synth oder von einem anderen gegeben
Effekt, der eine zugehörige Länge haben kann).
Im Folgenden wird beispielsweise eine 3-sekündige Audiodatei mit 48 kHz erzeugt, die Folgendes enthält:
Sinuswelle von 300 bis 3300 Hz:
sox -n Output.wav Synth 3 Sinus 300-3300
und das ergibt eine 8-kHz-Version:
sox -r 8000 -n Output.wav Synth 3 Sinus 300-3300
Durch Angabe der angezeigten Parameter können mehrere Kanäle synthetisiert werden
mehrfach zwischen geschweiften Klammern; Im Folgenden wird der Wobbelton links eingefügt
Kanal und fügt rechts „braunes“ Rauschen hinzu:
sox -n Output.wav Synth 3 Sinus 300-3300 Brownnoise
Das folgende Beispiel zeigt, wie zwei Synth-Effekte kaskadiert werden können, um mehr zu erzeugen
komplexe Wellenform:
play -n synth 0.5 sine 200-500 synth 0.5 sine fmod 700-100
Häufigkeiten können auch in „wissenschaftlicher“ Notenschreibweise oder durch Voranstellen eines „%“ angegeben werden.
Zeichen, als Anzahl von Halbtönen relativ zum „mittleren A“ (440 Hz). Zum Beispiel,
Folgendes könnte zum Stimmen der tiefen „E“-Saite einer Gitarre verwendet werden:
play -n synth 4 pluck %-29
oder mit einer (Bourne-Shell-)Schleife die ganze Gitarre:
für n in E2 A2 D3 G3 B3 E4; Tun
play -n synth 4 zupfen $n wiederholen 2; Erledigt
Weitere Informationen im verzögern Effekt (oben) und der Verweis auf „SoX-Scripting-Beispiele“ (unten)
Für weitere Synth Beispiele.
NB Dieser Effekt erzeugt Audio mit maximaler Lautstärke (0 dBFS), was bedeutet, dass dort
Bei der späteren Verwendung des Audiomaterials besteht eine hohe Wahrscheinlichkeit eines Clippings.
Sie werden diesen Effekt mit dem verfolgen wollen gewinnen Wirkung, um dies zu verhindern
Ereignis. (Siehe auch Ausschnitt oben.) Beachten Sie, dass standardmäßig die Synth bewirken
beinhaltet die Funktionalität von gewinnen -h (Siehe gewinnen Wirkung für Details);
Synth's -n Möglicherweise besteht die Möglichkeit, dieses Verhalten zu deaktivieren.
Eine detaillierte Beschreibung von jedem Synth Parameter folgt:
len ist die Länge des zu synthetisierenden Audiomaterials, ausgedrückt als Zeit oder als Anzahl
Proben; 0=Eingabelänge, Standard=0.
Das Format zur Angabe von Zeitlängen ist hh:mm:ss.frac. Das Format für
Bei der Angabe der Probenanzahl handelt es sich um die Anzahl der Proben mit angehängtem Buchstaben „s“.
es.
tippe ist eines von Sinus, Quadrat, Dreieck, Sägezahn, Trapez, exp, [weißes] Rauschen,
tpdfnoise pinknoise, brownnoise, zupfen; Standard = Sinus.
kombinieren ist eines von „create“, „mix“, „amod“ (Amplitudenmodulation) und „fmod“ (Frequenz).
Modulation); default=erstellen.
Frequenz/freq2 sind die Frequenzen am Anfang/Ende der Synthese in Hz oder, wenn
mit vorangestelltem „%“, Halbtöne relativ zu A (440 Hz); alternativ „wissenschaftlich“
Notennotation (z. B. E2) kann verwendet werden. Die Standardfrequenz beträgt 440 Hz. Standardmäßig,
Die bei den Notennotationen verwendete Stimmung ist „gleichschwebend“; Die -j SCHLÜSSEL ganz ohne irgendetwas tun oder drücken zu müssen.
wählt „nur Intonation“, wobei SCHLÜSSEL ist eine ganze Zahl von Halbtönen relativ zu
A (so wählt beispielsweise -9 oder 3 die Tonart C) oder eine Note in wissenschaftlicher Notation.
If freq2 gegeben ist, dann len muss ebenfalls gegeben sein und der erzeugte Ton wird es auch sein
zwischen den vorgegebenen Frequenzen gewobbelt werden. Die beiden angegebenen Frequenzen müssen sein
getrennt durch eines der Zeichen „:“, „+“, „/“ oder „-“. Dieses Zeichen wird verwendet
um die Sweep-Funktion wie folgt anzugeben:
: Linear: Der Ton ändert sich um eine feste Anzahl von Hertz pro Sekunde.
+ Quadrat: Eine Funktion zweiter Ordnung wird verwendet, um den Ton zu ändern.
/ Exponentiell: Der Ton ändert sich um eine feste Anzahl von Halbtönen pro Sekunde.
- Exponentiell: wie „/“, aber Anfangsphase immer Null und gestuft (weniger
sanfte) Frequenzänderungen.
Wird nicht für Lärm verwendet.
WOW! ist der Bias (DC-Offset) des Signals in Prozent; Standard = 0.
ph ist die Phasenverschiebung in Prozent eines Zyklus; Standard = 1. Wird nicht für Lärm verwendet.
p1 ist der Prozentsatz jedes Zyklus, der „an“ (Quadrat) oder „steigend“ (Dreieck,
exp, Trapez); Standard = 50 (Quadrat, Dreieck, Exp), Standard = 10 (Trapez) oder
aufrechterhalten (zupfen); Standard = 40.
p2 (Trapez): der Prozentsatz in jedem Zyklus, bei dem das „Sinken“ beginnt;
Standard = 50. exp: die Amplitude in Vielfachen von 2 dB; Standard = 50 oder Tone-1 (Zupfen);
Standard = 20.
p3 (Trapez): der Prozentsatz in jedem Zyklus, bei dem der „Fall“ endet;
Standard = 60 oder Ton-2 (Zupfen); Standard = 90.
Zeit, [-q] [-m|-s|-l] Faktor [Segment [search [überlappen]]]
Ändern Sie die Geschwindigkeit der Audiowiedergabe, nicht jedoch die Tonhöhe. Dieser Effekt nutzt die WSOLA
Algorithmus. Der Ton wird in Segmente zerhackt, die dann zeitlich verschoben werden
Domäne und überlappen (überblenden) an den Punkten, an denen ihre Wellenformen am stärksten sind
ähnlich wie durch Messung der „kleinsten Quadrate“ bestimmt.
Standardmäßig werden lineare Suchen verwendet, um die besten Überlappungspunkte zu finden. Wenn die
optional -q Wenn der Parameter angegeben ist, werden stattdessen Baumsuchen verwendet. Das macht das
Der Effekt wirkt schneller, aber das Ergebnis klingt möglicherweise nicht so gut. Wenn Sie jedoch
Die Verarbeitungsgeschwindigkeit muss verbessert werden, dadurch wird die Klangqualität im Allgemeinen weniger beeinträchtigt
als die Such- oder Überlappungswerte zu reduzieren.
Das -m Die Option wird verwendet, um die Standardwerte für Segment, Suche und Überlappung zu optimieren
Musikverarbeitung.
Das -s Die Option wird verwendet, um die Standardwerte für Segment, Suche und Überlappung zu optimieren
Sprachverarbeitung.
Das -l Die Option wird verwendet, um die Standardwerte für Segment, Suche und Überlappung zu optimieren
„lineare“ Verarbeitung, die tendenziell zu deutlicheren Verzerrungen führt, dies aber möglicherweise der Fall ist
nützlich, wenn der Faktor nahe bei 1 liegt.
Wenn -m, -s oder -l angegeben ist, wird der Standardwert des Segments berechnet
basierend auf dem Faktor, während Standardsuch- und Überlappungswerte auf dem Segment basieren. Beliebig
Die von Ihnen angegebenen Werte überschreiben weiterhin diese Standardwerte.
Faktor Gibt das Verhältnis des neuen Tempos zum alten Tempo an, also beschleunigt z. B. 1.1 das Tempo
Tempo um 10 % und 0.9 verlangsamt es um 10 %.
Das optionale Segment Der Parameter wählt die Segmentgröße des Algorithmus in aus
Millisekunden. Wenn keine anderen Flags angegeben sind, beträgt der Standardwert 82 und ist
eignet sich normalerweise für kleine Änderungen am Tempo der Musik. Für größere Änderungen
(z. B. Faktor 2), 41 ms ergeben möglicherweise ein besseres Ergebnis. Die Flags -m, -s und -l
führt dazu, dass der Segmentstandard automatisch basierend auf dem Faktor angepasst wird. Für
Wenn Sie beispielsweise -s (für Sprache) mit einem Tempo von 1.25 verwenden, wird ein Standardsegment berechnet
Wert von 32.
Das optionale search Der Parameter gibt die Audiolänge in Millisekunden an, über die die
Der Algorithmus sucht nach überlappenden Punkten. Wenn keine anderen Flags angegeben sind, wird die
Der Standardwert ist 14.68. Größere Werte benötigen mehr Verarbeitungszeit und können möglicherweise auch nicht verwendet werden
bessere Ergebnisse erzielen. Ein praktisches Maximum ist die Hälfte des Segmentwerts. Suchen
kann reduziert werden, um die Verarbeitungszeit zu verkürzen, allerdings mit der Gefahr einer Verschlechterung der Ausgabequalität. Der
Die Flags -m, -s und -l bewirken, dass der Suchstandard automatisch angepasst wird
basierend auf dem Segment.
Das optionale überlappen Der Parameter gibt die Länge der Segmentüberlappung in Millisekunden an.
Der Standardwert ist 12, aber die Flags -m, -s oder -l passen die Überlappung basierend auf automatisch an
Segmentgröße. Zunehmende Überlappungen verlängern die Verarbeitungszeit und können länger werden
Qualität. Ein praktisches Maximum für Überlappung ist der Suchwert mit Überlappung
ist normalerweise (mindestens) etwas kleiner als die Suche.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] Geschwindigkeit für einen Effekt, der Tempo und Tonhöhe gleichzeitig ändert, Tonhöhe und biegen
für Effekte, die nur die Tonhöhe ändern, und Strecke für einen Effekt, der das Tempo ändert
einen anderen Algorithmus verwenden.
Diskant gewinnen [Frequenz[k] [Breite[s|h|k|o|q]]]
Wenden Sie einen Höhentonkontrolleffekt an. Siehe die Beschreibung des Bass Wirkung für
Details.
Tremolo Geschwindigkeit [Tiefe]
Wenden Sie einen Tremolo-Effekt (niederfrequente Amplitudenmodulation) auf das Audio an. Der
Die Tremolofrequenz in Hz ist gegeben durch Geschwindigkeitund die Tiefe als Prozentsatz von Tiefe
(Standardeinstellung 40).
trimmen {[=|-]Position}
Schneidet Teile aus dem Audio heraus. Eine beliebige Anzahl von Positions können gegeben werden; Audio ist nicht
bis zum ersten Mal an den Ausgang gesendet Position ist erreicht. Die Wirkung wechselt dann
zwischen dem Kopieren und dem Verwerfen von Audiodaten Position.
Sollten Sie jetzt aufgefordert werden, ein Position Steht vor einem Gleichheits- oder Minuszeichen, wird es relativ zu interpretiert
den Anfang bzw. das Ende des Audios. (Die Audiolänge muss sein
bekannt dafür, dass endrelative Standorte funktionieren.) Andernfalls wird es als Versatz betrachtet
von der letzten Position, oder vom Beginn des Audios für den ersten Parameter. Benutzen
ein Wert von 0 für den ersten Position Der Parameter ermöglicht das Kopieren vom Anfang an
das Audio.
Alle Parameter können entweder als Zeitspanne oder als genaue Anzahl angegeben werden
Proben. Das Format zur Angabe von Zeitlängen ist hh:mm:ss.frac. Ein Wert von
1:30.5 für den ersten Parameter startet erst nach 1 Minute, dreißig und ½ Sekunden
in den Ton. Das Format zur Angabe der Probenanzahl ist die Anzahl der Proben
mit dem angehängten Buchstaben „s“. Ein Wert von 8000s für den ersten Parameter wird
Warten Sie, bis 8000 Samples gelesen wurden, bevor Sie mit der Audioverarbeitung beginnen.
Zum Beispiel,
Sox Infile Outfile Trim 0 10
kopiert die ersten zehn Sekunden, while
Infile Trim abspielen 12:34 =15:00 -2:00
Die Wiedergabe erfolgt ab 12 Minuten und 34 Sekunden bis zu 15 Minuten
(dh 2 Minuten und 26 Sekunden lang), dann wird die Wiedergabe zwei Minuten vor dem fortgesetzt
Ende des Audios.
Upsampling [Faktor]
Upsampling des Signals um einen ganzzahligen Faktor: Faktor-1 Nullwertproben werden eingefügt
zwischen jedem Paar von Eingabeproben. Das Ergebnis ist das ursprüngliche Spektrum
in den neuen Frequenzraum repliziert (Aliasing) und gedämpft. Das
Die Dämpfung kann durch Hinzufügen ausgeglichen werden vol Faktor nach jedem weiteren
wird bearbeitet. Der Upsample-Effekt wird typischerweise in Kombination mit Filterung verwendet
Effekte.
Informationen zu einem allgemeinen Resampling-Effekt mit Anti-Aliasing finden Sie unter Rate. Siehe auch Downsampling.
als [Optionen]
Sprachaktivitätsdetektor. Versucht, Stille und leise Hintergrundgeräusche zu reduzieren
die Enden von Sprachaufzeichnungen (ziemlich hohe Auflösung, dh 16 Bit, 44–48 kHz).
Der Algorithmus verwendet derzeit eine einfache Cepstral-Leistungsmessung, um Sprache zu erkennen.
kann sich also von anderen Dingen täuschen lassen, insbesondere von der Musik. Der Effekt kann nur abgeschnitten werden
die Vorderseite des Audios, also um von hinten zu trimmen, die rückgängig machen Wirkung muss
auch genutzt werden. Z.B
Rede abspielen.wav Norm vad
von vorne beschneiden,
Abspielen von Speech.wav, normal umkehren und umkehren
von hinten beschneiden, und
Abspielen von Speech.wav, Norm, umgekehrt, umgekehrt
von beiden Enden abschneiden. Die Verwendung der Norm Wirkung wird empfohlen, aber denken Sie daran
das auch nicht rückgängig machen noch Norm ist für die Verwendung mit gestreamtem Audio geeignet.
Option:
Standardwerte werden in Klammern angezeigt.
-t num (7)
Der Messpegel, der zum Auslösen der Aktivitätserkennung verwendet wird. Dies könnte erforderlich sein
je nach Geräuschpegel, Signalpegel usw. geändert werden
Eigenschaften des Eingangsaudios.
-T num (0.25)
Die Zeitkonstante (in Sekunden), die dazu dient, kurze Tonausbrüche zu ignorieren.
-s num (1)
Die Audiomenge (in Sekunden), nach der nach leiseren/kürzeren Ausbrüchen gesucht werden soll
Audio, das vor dem erkannten Triggerpunkt eingefügt werden soll.
-g num (0.25)
Zulässige Lücke (in Sekunden) zwischen einzuschließenden leiseren/kürzeren Audiostößen
vor dem erkannten Triggerpunkt.
-p num (0)
Die Menge an Audio (in Sekunden), die vor dem Triggerpunkt und gespeichert werden soll
Alle gefundenen leiseren/kürzeren Ausbrüche.
Erweitert Option:
Diese ermöglichen eine Feinabstimmung der internen Parameter des Algorithmus.
-b num Der Algorithmus (intern) verwendet der Reihe nach die adaptive Rauschschätzung/-reduzierung
um den Beginn des gewünschten Audios zu erkennen. Diese Option legt die Zeit für fest
erste Lärmschätzung.
-N num Zeitkonstante, die vom adaptiven Geräuschschätzer für den Geräuschpegel verwendet wird
nimmt zu.
-n num Zeitkonstante, die vom adaptiven Geräuschschätzer für den Geräuschpegel verwendet wird
wird weniger.
-r num Ausmaß der Rauschunterdrückung, die im Erkennungsalgorithmus verwendet werden soll (z. B. 0, 0.5,
...).
-f num Häufigkeit der Verarbeitung/Messungen des Algorithmus.
-m num Messdauer; standardmäßig das Doppelte der Messperiode; also mit
Überlappung.
-M num Zeitkonstante zur Glättung von Spektralmessungen.
-h num „Brick-Wall“-Frequenz des Hochpassfilters, der am Eingang des angewendet wird
Detektoralgorithmus.
-l num „Brick-Wall“-Frequenz des Tiefpassfilters, der am Eingang des angewendet wird
Detektoralgorithmus.
-H num „Brick-Wall“-Frequenz des im Detektoralgorithmus verwendeten Hochpass-Lifters.
-L num „Brick-Wall“-Frequenz des im Detektoralgorithmus verwendeten Tiefpass-Lifters.
Siehe auch die Stille Wirkung.
vol gewinnen [tippe [Begrenzerverstärkung]]
Wenden Sie eine Verstärkung oder Dämpfung auf das Audiosignal an. im Gegensatz zu den -v ganz ohne irgendetwas tun oder drücken zu müssen.
(Wird zum Ausgleichen mehrerer Eingabedateien verwendet, wenn diese in die SoX-Effekte eintreten
Verarbeitungskette), vol ist ein Effekt wie jeder andere und kann daher überall angewendet werden
bei Bedarf mehrmals während der Verarbeitungskette.
Der Betrag zur Änderung der Lautstärke wird durch angegeben gewinnen was interpretiert wird, nach
das Gegebene tippe, wie folgt: if tippe is Amplitude (oder wird dann weggelassen). gewinnen ist ein
Amplitudenverhältnis (d. h. Spannung oder linear), wenn Werkzeuge, dann eine Leistung (z. B. Wattzahl oder
Spannungs-Quadrat-Verhältnis, und wenn dB, dann eine Leistungsänderung in dB.
Wann tippe is Amplitude or Werkzeuge herunter ,ein gewinnen von 1 lässt die Lautstärke unverändert, weniger als
1 verringert ihn, und größer als 1 erhöht ihn; Ein Negativ gewinnen kehrt den Ton um
Sie können das Signal zusätzlich zur Lautstärke anpassen.
Wann tippe is dB herunter ,ein gewinnen Bei einem Wert von 0 bleibt die Lautstärke unverändert, bei weniger als 0 wird sie verringert.
und größer als 0 erhöht es.
Siehe [4] für eine detaillierte Diskussion der elektrischen Spannung (und damit der Audiosignalspannung).
und Leistungsverhältnisse.
Vorsicht vor Ausschnitt wenn die Lautstärke erhöht wird.
Das gewinnen und den tippe Parameter können bei Bedarf verkettet werden, z vol 10dB.
Ein optionales Begrenzerverstärkung Der Wert kann angegeben werden und sollte ein Wert sein, der deutlich kleiner ist als
1 (z. B. 0.05 oder 0.02) und wird nur bei Spitzenwerten verwendet, um Clipping zu verhindern. Nicht
Durch die Angabe dieses Parameters wird kein Begrenzer verwendet. Im ausführlichen Modus dies
Der Effekt zeigt den Prozentsatz des Audios an, der begrenzt werden musste.
[VORLÄUFIGE VOLLAUTOMATISCHE TEXTÜBERSETZUNG - muss noch überarbeitet werden. Wir bitten um Ihr Verständnis.] gewinnen für einen volumenverändernden Effekt mit unterschiedlichen Fähigkeiten, und Kompanie
für eine Kompression/Erweiterung/Begrenzung des Dynamikbereichs.
Veraltete Effekte
Die folgenden Effekte wurden umbenannt oder haben ihre Funktionalität in einen anderen integriert
Wirkung; Sie funktionieren weiterhin in dieser SoX-Version, werden jedoch möglicherweise in Zukunft entfernt.
Mischung [ -l|-r|-f|-b|-1|-2|-3|-4|n{,n} ]
Reduzieren Sie die Anzahl der Audiokanäle durch Mischen oder Auswählen von Kanälen oder erhöhen Sie sie
die Anzahl der Kanäle durch Duplizieren von Kanälen. Hinweis: Dieser Effekt wirkt sich auf die aus
Audio- Kanäle innerhalb der SoX-Effektverarbeitungskette; es sollte nicht verwechselt werden
an. Nach der Installation können Sie HEIC-Dateien mit der -m globale Option (wobei multiple Dateien werden vor dem Betreten gemischt
der Wirkungskette).
Bei Reduzierung der Kanalanzahl besteht die Möglichkeit, die zu nutzen -l, -r, -f, -b, -1,
-2, -3, -4, Optionen zur Auswahl nur des/der linken, rechten, vorderen, hinteren Kanal(s) oder
Es wird kein bestimmter Kanal für die Ausgabe verwendet, anstatt die Kanäle zu mitteln. Der -l und -r
Die Optionen führen eine Mittelung in Vierkanaldateien durch. Wählen Sie daher den genauen Kanal aus
dies verhindern.
Das Mischung Der Effekt kann auch mit bis zu 16 durch Kommas getrennten Zahlen aufgerufen werden.
die den Anteil (0 = 0 % und 1 = 100 %) jedes Eingangskanals angeben, der verwendet werden soll
in jeden Ausgangskanal gemischt werden. Im Zweikanalmodus werden 4 Zahlen ausgegeben: l →
l, l → r, r → l bzw. r → r. Im Vierkanalmodus sind die ersten 4
Zahlen geben die Proportionen für den linken vorderen Ausgangskanal wie folgt an: lf →
lf, rf → lf, lb → lf und rb → rf. Die nächsten 4 geben den Ausgang rechts vorne an
Gleiche Reihenfolge, dann Linksverteidiger und Rechtsverteidiger.
Es ist auch möglich, die 16 Nummern zu verwenden, um die Kanalanzahl zu erweitern oder zu reduzieren;
Geben Sie einfach 0 für nicht verwendete Kanäle an.
Schließlich können bestimmte reduzierte Zahlenkombinationen sicher angegeben werden
Eingangs-/Ausgangskanalkombinationen.
In Ch Außen Ch Num Mappings
2 1 2 l → l, r → l
2 2 1 Balance anpassen
4 1 4 lf → l, rf → l, lb → l, rb → l
4 2 2 lf → l&rf → r, lb → l&rb → r
4 4 1 Balance anpassen
4 4 2 vordere Balance, hintere Balance
Dieser Effekt wurde durch die ersetzt remix Effekt, der eine beliebige Anzahl von behandelt
Kanäle
DIAGNOSE
Der Exit-Status ist 0, wenn kein Fehler vorliegt, 1, wenn ein Problem mit den Befehlszeilenparametern vorliegt.
oder 2, wenn bei der Dateiverarbeitung ein Fehler auftritt.
Nutzen Sie das Online-Spielen über die Dienste von onworks.net