この1年間、英語動画の文字起こしと日英字幕の制作に取り組んでいます。だいぶ手順が確定してきたので、ここらで一つ、作業過程を図解しておこうと思います。英語情報を拡散したいと願う方々のお役に立てれば幸いです。
5つのステップ
自分がやっていることを図に描いたら、以下のようになりました。
① 翻訳したい動画を選ぶ
私の情報源は主にBit CHUTE、rumble、BANNED.videoです。
YouTubeはソフトウェアのチュートリアル動画で面白いのがあれば取り上げますが、私が求める「メディア支配から離脱するための助けになる英語動画」は探すのが難しいです。仮に今日見つけても、明日は削除されるかもしれない。YouTubeというのはそういうプラットフォームだと思っています。
② AssemblyAIに音声を送り、音声認識テキストを取得
目標の動画が決まったらダウンロードして音声部分を抜き出し、wavファイルをAssemblyAIに送ります。数分で文字起こしのテキストデータが出来上がります。このサービスのウルトラすごいところは、出来上がりが高品質+AI使用料が申し訳ないほど低額なことです。
例えば、たいていの文字起こしプログラムではこうなりますが:
months later the first anti viral drug used to treat smallpox was created funded by bill gates and the wellcome trust
同じ音声データをAssemblyAIにかけるとこうなります:
Months later, the first antiviral drug used to treat smallpox was created, funded by Bill Gates and the Wellcome Trust.
単価は1分あたり$0.015。10分程度の動画なら円安でもほぼ無料に近い額です。
このサービスのおかげで英語文字起こし作業が継続できています。感謝。
③ Kdenliveで字幕作業
AssemblyAIはオプション指定で字幕データ形式のファイルも作ってくれます。これをKdenliveに取り込みます。KdenliveはLinux、Mac、Windowsに対応しているフリーのビデオ編集ソフトで、字幕ファイルを読み込み、タイミングや内容を編集して字幕データを出力できます。
画面右は"Wing"というPython IDEでこれを「常に最前面に表示」にしてテキスト編集を行っています。Kdenliveにも字幕編集機能はついていますが、ちょっと使いにくい。Kdenlive + Python IDEの組み合わせが快適です。
④ DeepL、英辞郎を使って翻訳
Kdenliveの作業が終わったら、翻訳してHTMLコードを更新します。日本語字幕は英語字幕の行に1対1で対訳をつけるのではなく、翻訳がしやすいように英語テキストをある程度つなげてからDeepLに入力しています。
例えば、英語字幕がこうなっている箇所は:
6
00:00:17.117 --> 00:00:20.617
In the following video from February 24, 2022,
7
00:00:20.617 --> 00:00:24.400
the freelance journalist reports live on location from Donetsk Ukraine.
日本語字幕では一文で表示しています。
6
00:00:17.117 --> 00:00:24.400
2022年2月24日の以下の映像では、フリーランス・ジャーナリストがウクライナのドネツクから現地で生中継しています。
③と④は行ったり来たりの作業です。固有名詞のスペルチェックや文字数のチェック、場合によっては動画内のウェブ・ページのURLを探してリンクを追加したりしています。
この辺りの作業は自作のPythonスクリプトで数回のクリックでコードが更新されるようにしています。
⑤ 字幕ファイル、HTMLファイルをサーバにアップロード
字幕、対訳表、和訳全文がOKならレンタル・サーバの自分のサイトにアップロードします。私のコンテンツは公序良俗に反するものではありませんが、借り物のプラットフォームに載せるのは懸念があります。
ワクチンやウクライナの記事をリリースする際、「これは検閲の対象だろうか?」と余計な心配をしながら発信するのはあまり気持ちのいいものではありません。
Dropboxを使って協同作業が出来ないだろうか?
この一連の作業の中で、一番時間がかかるのは③と④です。この段階まで来ると、AssemblyAIの出番は終わり、ディープルさんと英辞郎君と自作スクリプトが活躍します。
AssemblyAIが出力した字幕タイミングでは文脈上合わないな、ここはカンマではなくピリオドでしょ、みたいな箇所がいくつもあります。また、和訳にして初めて、読みやすくするには原文のつながりを変更した方がいい、と分かる場合もよくあります。
英語テキスト修正 —> 和訳 —> 対訳表の更新というステップの繰り返しで1本の記事が完成します。
今、筆者が何となく思い始めたことがあって、それはDropbox Paperで協同作業環境が構築できないだろうか? ということです。
文字起こし&字幕で皆に伝えたい情報を共有しやすくする、というのは手間はかかるけど行う価値がある活動だと思っています。そろそろ、複数人でコンテンツが作成できる環境について考え始めてもいい時期ではないかと感じています。