ABC 323, CAREER SKILLS / Whisper

[00:00:00.000 --> 00:00:16.000] はい、現在、ウィスパーを使って自分の音声をエキストファイルに文字起こしして、それをさらに合成音声に喋ってもらうというのをやってもらいたいと思っています。
[00:00:16.000 --> 00:00:32.000] 合成音声のいいところは、たぶん時間補完が効くだろうというところで、例えば早回しにして再生したりとか遅くして再生したりするときも、補完をすればかなり聞き取りやすくなるんじゃないかなという気がしています。
[00:00:32.000 --> 00:00:44.000] だから人間だったらスピード1で喋ったり、スピード2で喋ったりというのをその場でやり直してくれるみたいな、合成音声はやり直してくれるんじゃないかなというふうに思っています。
[00:00:44.000 --> 00:01:03.000] 発話し直す。だから単に元のデータを倍速再生するとかってなったらクオリティが下がってしまうけれど、そのスピードで聞くための音を改めて作り直して再生できるというのが合成音声の強みなんじゃないかなと思っています。

かなり良い精度で破綻した喋りを再現されてしまった。あまりにも簡単過ぎる。

VRAM の大きな (> 10 GB) GPU があれば、 large モデルでもリアルタイムの文字起こしができるらしい。この程度の夢は手の内なのかと感動した。

Blender Text to Speech

上のように作成したテキストを合成音声に読み上げてほしい。また動画編集ソフトとの連携が取れてほしい。

実は Linux で最も実用的な動画編集ソフトは Blender らしい。そこで Blender Text to Speech (Youtube) で合成音声による再生を試みたが、 libespeak.so.1 へのリンクに失敗して詰まった。 NixOS が難し過ぎる、、