音読をICレコーダで録音し、読み間違いやつっかえを修正した音声に字幕をつけたかったのですが、Web ビデオテキストトラックフォーマット (WebVTT)はビデオファイルがないと使えないんですね。
しょうがないので原本のJPEG画像と録音をいっしょにしてMP4ファイルを作りました。
continue…▶音読をICレコーダで録音し、読み間違いやつっかえを修正した音声に字幕をつけたかったのですが、Web ビデオテキストトラックフォーマット (WebVTT)はビデオファイルがないと使えないんですね。
しょうがないので原本のJPEG画像と録音をいっしょにしてMP4ファイルを作りました。
continue…▶昔の本を音読してテキスト化する作業、和気清麿を取り上げて音声付きスライドショービデオを作ります。まずは全編の画像を読みやすいサイズに変えて表示するところから。
原本はこちら:『偉人と英雄 : 教訓童話. 3 (高山彦九郎・ネルソン・和気清麿・伊藤博文)』
continue…▶国立デジタル本の画像を得た後は、それを音読して録音するステップに入ります。『偉人の言葉』はその準備ができているのだけど、録音は家族が寝静まった後でないと出来ないので、別の読み上げ本の画像を取る作業をやっておきます。『食ひ改めよ 無病健康法』という、食と健康に関する本です。
continue…▶前回、画像をクリックすると次のページに変わるスクリプトを書きました。このスクリプトに右クリックで前のページに戻る機能と50ページごとのジャンプ機能を追加します。
continue…▶国立デジタルPDFからJPEG画像が取れたので、これをスライドショーで表示したいと思います。
先ずは左クリックで次の画像を出すだけの単純なスクリプトを書きます。この動画が参考になりました:
Simple JavaScript Slideshow In 5 Minutes
国立国会図書館デジタルコレクションに収録されている昭和の本を音読して、その録音の文字起こしからテキストデータを作成する試み。最初に困るのがダウンロードしたPDFが読みにくいことです。
読みにくいと言ってもこの場合は、難しい漢字や言い回しということではなくて、「画像が暗い」「字が小さい」など視覚的につらくて読みにくいということです。
それで、PDFからオリジナルのJPEGを抜き出す方法を調べてみました。
continue…▶『共産党を吾等が排撃する五つの理由』の第七章、全文(5576字)と要約(557字以下)
※文中の2箇所「即ち万世一系の皇位を廃止し奉らんとする」「朝憲紊乱行為は、彼等が万世一系の皇位を廃止し」の「廃止」は、原文では伏せ字になっています。文脈からその言葉は「廃止」であろうと判断しました。
continue…▶『共産党を吾等が排撃する五つの理由』の第六章、全文(5810字)と要約(581字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第五章、全文(1310字)と要約(131字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第四章、全文(1960字)と要約(196字以下)
continue…▶