言葉の精度向上方法
1.基本的には入力がすべて¶
- まずは入力がきれいにでるように調整してみましょう。
- 音声加工を入れている場合は、加工前の声を認識させるとよい場合があります
- ノイズが少なく、声がしっかりメリハリよくとれる(SN比が高い)ほうがいいです。
機器を調整しましょう。下記の場合は精度が落ちます
- AGC機能が過剰に働き、音量がころころ変わる場合
- 音楽や雑音、複数の話者が被るような音の取り方をしている場合
- エコーなどがかかっている場合
- サンプルレート低下やフィルタなどで高音域がカットされている場合
- ポップノイズがたくさん入る場合
設定がうまくできているか、わからない場合
- 一度録音・録画したり、配信した音声をよく聞いてみましょう。
- 音量のメリハリがあるか、音が混じってないか、ノイズがのっていないかなどに注意してみてください。
音声をきれいにしすぎてもだめです
- Google音声認識などは、バックグラウンドノイズを基準に音声区切りを判断しているようです。
- フィルタなどで取り除きすぎると、最初の文章が欠けたり、発話終了の確定判断に時間を要すケースがあります。
2.音が取れるようになったら、発話をきれいにしましょう¶
音声認識の傾向としては、下記の言葉を思い通り出すのは難しいです
- 単語
- 似たような文が続く(庭には二羽鶏が・・・)
- 人名
- 造語
- 言語が入り混じる場合
- 極端に速い、もしくは遅い発話
- そのようなケースをなるべく避けるほうが、言葉の精度はよくなります
- 文としてわかりやすい会話をすると認識しやすいです。
- 口元をはっきりあけ、自然な速度で認識させましょう
- 音声認識が得意な言い回しがあります。それを会得しましょう。
発話について
- 音声認識は学習している音声に一番近いものをもってきています
- 認識されやすい音声は他者にも聞き取りやすいものです
- 特に海外から見に来る視聴者は語学勉強していることも多くあります
- ただし、過剰に補正すると個性がなくなることもあるのでメリハリをうまくつけてみましょう
3.それでも認識しない場合は、音声認識辞書をつくります。¶
- UDトークを利用している場合は、音声認識精度を上げるための辞書機能が使えます。
- これにより、格段に認識しやすくなります
湧き出しについて
- なんでもかんでも登録すると、意図しないときに単語が変換されて出てきます。
- これは「湧き出し」という現象で、過学習している状態です。
- 普段出る言葉は登録しなくて問題ないので、過度に登録せず、湧き出しに注意しましょう。
4.誤認識を強制的に置き換える辞書をつくります¶
- ここまできてだめならば、いよいよ強制的に置き換えます。
- 辞書プラグインを使って置き換えます。
- あらかじめ誤って表示されるパターンを調べ、それをごっそり置き換えます。
- 意図しない置き換えが起きないようフレーズの長さを考慮しましょう
辞書プラグインはいくつかあります
- 単純に置き換える辞書のほかにもプラグインはあります
- ゆかりねっと式で正規表現が使えるプラグインがあります
- 大阪弁などに変換できる変換プラグインもあります
- 辞書プラグインでは、母国語のほかに外国語変換時の辞書も設定できます
5.これだけやってもだめなら、あとは楽しもう¶
- もともと完全に出そうと思ったら、優秀な通訳者をたくさんつけるべきです。
- そんな通訳者をつけても、人間ですから完全にできることはなくミスはします。
- この手軽さ、この安さで実施する中でどう品質をあげるか?を考えましょう。
- いわばゲームだと思ってもらっても構いません。皆さんはどう攻略しますか?
字幕は相棒だと思って使おう
- たまに間違う字幕も、時として見せ場を作ってくれるいわば相棒です。
- その誤字すら、笑い…エンターテインメントに変えてしまいましょう(その技量を試されていると思いましょう)
- 視聴者さんが切り抜いて拡散してくれたら視聴者もふえるかもしれません
- 正確さをもとめるなら、後日 YouTubeにアップするときに修正した字幕ファイルをUPするのがよいでしょう
- 字幕ファイルは出力プラグインで生成できます。
技術は進化するもの。極端に性能はさがることはありません
- 技術は時間とともに進化しレベルアップするものです
- その進化を待つのもいいですが、あるものをうまく使えば、もっといい体験が先取りできます。
- 興味を持った今がチャレンジするときです。