これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドpocketsphinx_continuousです。
プログラム:
NAME
packetsphinx_continuous-連続リスニングモードで音声認識を実行します
SYNOPSIS
Pocketsphinx_continuous -うーん うーん -口述 辞書ファイル [ オプション ] ...
DESCRIPTION
このプログラムはオーディオデバイスを開き、音声を待ちます。 発話を検出すると、
音声認識を実行します。
-adchdr
バイト単位のオーディオファイルヘッダーのサイズ(ヘッダーは無視されます)
-アドシン 入力は生のオーディオデータです
-AGC c0の自動利得制御(「max」、「emax」、「noise」、または「none」)
-agcthresh
自動利得制御の初期しきい値
-オールフォン
音声lmによる音素デコード
-allphone_ci
音声lmとコンテキストに依存しないユニットのみで音素デコードを実行します
-アルファ プリエンファシスパラメータ
-argfile
追加の引数を与えるファイル。
-アスケール
信頼スコア計算のための音響モデルスケールの逆
-ああ 音響スコアに適用される逆の重み。
-バックトレース
結果とバックトレースをログファイルに出力します。
-ビーム ビタビ検索のすべてのフレームに適用されるビーム幅(値が小さいほど広いことを意味します)
ビーム)
-ベストパス
単語格子上でbestpath(Dijkstra)検索を実行します(3回目のパス)
-bestpathlw
ベストパス検索の言語モデル確率の重み
-build_outdirs
出力ディレクトリに不足しているサブディレクトリを作成します
-セプディル
ファイルディレクトリ(制御ファイルのfilespecsの前に付けられます)
-セペクスト
入力ファイル拡張子(制御ファイルのfilespecsに付加)
-セプレン
入力特徴ベクトルのコンポーネントの数
-cmn Cepstral平均正規化スキーム(「current」、「prior」、または「none」)
-cmniit
'prior'が使用されている場合のcepstral平均の初期値(コンマ区切り)
-コンパルセン
すべてのフレームのすべてのセノネススコアを計算します(多くの場合、より速くなる可能性があります
セノネス)
-ctl 処理する発話をリストしたファイル
-ctlcount
処理する発話数(スキップ後) -ctloffset エントリ)
-ctlincr
制御ファイルのN行ごとに実行します
-ctloffset
冒頭の発話数 -ctl スキップするファイル
-ctm CTMファイル形式での出力(並べ替え後が必要な場合があります)
-デバッグ メッセージをデバッグするためのレベル
-口述 発音辞書(辞書)入力ファイル
-dictcase
辞書では大文字と小文字が区別されます(注:大文字と小文字は区別されませんがASCII文字に適用されます
のみ)
-ディザ
1/2ビットノイズを追加
-doublebw
ダブルバンドバンドフィルターを使用する(同じ中心周波数)
-ds フレームGMM計算のダウンサンプリング率
-fdict 単語発音辞書入力ファイル
-偉業 フィーチャーストリームタイプ、音響モデルによって異なります
-featparams
特徴抽出パラメーターを含みます。
-fillprob
フィラーワード遷移確率
-修道士 Frame rate
-fsg 有限状態文法ファイルをフォーマットする
-fsgctl
各発話に使用するFSGファイルをリストしたファイル
-fsgdir
FSGファイルのディレクトリ
-fsgext
FSGファイルの拡張子(先頭のドットを含む)
-fsgusealtpron
FSGに別の発音を追加する
-fsgusefiller
各状態にフィラーワードを挿入します。
-fwdフラット
単語格子上で前方フラットレキシコン検索を実行します(2回目のパス)
-fwdフラットビーム
セカンドパスフラットサーチですべてのフレームに適用されるビーム幅
-fwdflatfwid
fwdflat検索で検索される単語の終了フレームの最小数
-fwd flatlw
フラットレキシコン(2回目のパス)デコードの言語モデル確率の重み
-fwd flatsfwin
fwdflat検索で後続の単語を検索するための格子内のフレームのウィンドウ
-fwdフラットビーム
XNUMX回目のフラット検索で単語出口に適用されるビーム幅
-fwdtree
前方レキシコンツリー検索を実行します(1回目のパス)
-うーん 音響モデルファイルが含まれています。
-誇大広告 出力ファイル名
-ハイプセグ
セグメンテーションファイル名で出力
-input_endian
入力データのエンディアン(大小を問わず、NISTまたはMS Wavの場合は無視されます)
-jsgf 文法ファイル
-キーフレーズ
スポットに
-kws XNUMX行にXNUMXつずつ、特定するキーフレーズを含むファイル
-kws_遅延
最高の検出スコアを待つのを遅らせる
-kws_plp
キーワードスポッティングの電話ループ確率
-kws_threshold
p(hyp)/ p(alternatives)比のしきい値
-latsize
バックポインタテーブルの初期サイズ
-lda 機能(シングルストリーム機能)に適用される変換行列を含む
のみ)
-ldadim
特徴変換の出力の次元(行列全体を使用する場合は0)
-リフター
リフターの場合はsin-curveの長さ、リフターがない場合は0。
-lm トリグラム言語モデル入力ファイル
-lmctl 言語モデルのセット
この -うーん と -口述 引数は常に必要です。 また -lm or -fsg 必要とされている、
統計言語モデルを使用しているか、有限状態文法を使用しているかによって異なります。
onworks.netサービスを使用してオンラインでpocketsphinx_continuousを使用する