をはょ🤭ふむです。

突然ですが、シチュボ・朗読ラボを始めます!その名もふむふむらぼ!
このラボでは、シチュボや朗読に関するテクニカル(技術的)な話題を中心に、これからシチュボや朗読の録音を始めようとしている方へ向けて、色々と情報を発信していけたらなと思っております!

さて、初回の今回は、ふむもやっておりますが、YouTubeに音声作品を投稿する場合に最適な設定について、非常にマニアックな側面から書いていけたらと思います。

最初に断っておきますが、今回の設定にしたからといって、劇的に音質が良くなるということはありません。
基本的に、音質をよくするために優先すべきは下記のような感じかと思います。

録音環境 > マイクとか機材 > 設定

さらに、音質がどうこうと細かいことを言うより前に、内容が良くなければ聴いてもらえないというのは言うまでもありません。

内容 > 音質

ただ、まぁ内容の良さについては、聴く側の主観によるところも大きいし、人それぞれ才能の見せどころなのでこんなところでボクみたいな者が語れることではないわけです。
録音環境や、マイクとか機材についてはまたいずれこのラボで取り上げるとして、今回は設定を見ていきましょう。

結論から言うと

いきなり結論ですが、YouTubeには48kHz24Bitの音声データをQuickTime ProRes 422等の、音質劣化のないフォーマットにしてアップしましょう!
何も考えずにかき出すとH.264等のmp4形式になりますが、これだと折角の音声が圧縮されてしまいます。

YouTubeに音声を投稿するということ

そもそも、YouTubeという映像がメインのサイトに音声をメインとしたコンテンツを投稿するというのは、ちょっと使い方としてトリッキーです。
録音したデータそのものはYouTubeが受け付けてくれないので、映像のフォーマットに変換する必要があります。
PCならPCの映像編集ソフト、スマホなら映像編集アプリを使って、何らかの映像を音声にくっつけて書き出す必要があります。

デジタル音声の基本

そもそも人の喉から放たれる音声は、物理的な空気の振動、つまり「アナログ」の状態でそこに存在します。
それを録音機に入れて記録するときは、「デジタル」のデータに変換されます。(カセットテープ等はアナログのまま記録できますが、もう手に入りませんね)
デジタルとは、つまりコンピュータが認識できる0と1の羅列で記述されているということで、音声の場合は、先ほどの空気の振動を細かい時間単位で記録していくことになります。

ここで、普段ふむが編集を行っている音声波形を見てみましょう。

これは、ふむが録音したモノラル(片耳分)の音声約0.1秒のデジタルデータです。何か見覚えがあるでしょうか。
ちなみに「し」って言ってます🤭

黄色い線のところをもうちょっと拡大してみましょう。

実はこんな感じで、線が上下している形になっています。
これは音の振動を可視化したもので、画面の上の方が空気が密な部分、下の方が空気が疎な部分、という意味になっています。
この空気振動のデータから、スピーカーの振動でその空気の状態を再現して、スピーカーやイヤフォンから出すと、同じ音が鳴るというわけです。

もっと拡大してみましょう。

ここで、実は線に見えていたものは点の集まりだったということがわかったでしょうか。
この空気の状態を点で記録していったのが、音声のデジタルデータとなります。

サンプリング周波数とは

この「点の個数」は音質にとても重要で、この個数が多いほど空気振動の再現度が向上します。
そこで、この点を1秒当たり何個記録すればいいのかという問題が出てきます。
この1秒当たりの点の個数を「サンプリング周波数」と言います。

「周波数」とは、1秒当たりに何回その現象が起こるか、ということを示し、単位はHz(ヘルツ)です。
この点が1秒間に10個だとすると、サンプリング周波数は10Hzということになるわけです。
その10個の点を、上の画面の上下に配置していくと、1秒間に5個の山を持ったギザギザを作ることができます。
これは、音声の周波数でいうと5Hzの状態となります。このことから、サンプリング周波数の特徴は下記のようになります。

デジタルデータでは、サンプリング周波数の半分の周波数の音まで記録できる

点が多くなると再現度があがる、というのは実は視覚の世界でも同じです。
知っているかもしれませんが、高精細に見えるデジタル写真も、実は細かな点で構成されています。
この点が細かい=解像度が高いということになりますね。その分データの量も増えるわけです。

絵画の世界でも、細かな点で構成された印象派の絵画が多くあります。例えば有名なジョルジュ・スーラの「グランド・ジャット島の日曜日の午後」(1884-1886年)

これは点描といって、比較的大きめの点で描くことで、ふんわりとした雰囲気が出ていますよね。
解像度の低い状態をわざと作ることで、芸術の完成度を高めた例と言えるでしょう。

業界標準の44.1kHzと48kHz

その昔、デジタルの音声開発が一番盛んだったのは、CD(コンパクトディスク)が開発されたころです。
そのころの研究で、「ヒトは大体20kHz(20,000Hz)の音まで聴けるっぽい」ということがわかりました。
そこで、CDでは、20kHzの高音まで再現できるように、ということで「44.1kHz」のサンプリング周波数で記録することになりました。
さらにその後に出てきた、デジタル映像の業界では、さらに少し音質を向上させた「48kHz」が採用されるようになりました。

YouTubeでは、内部的には48kHzが使われているようです。
ですので、YouTubeに投稿する場合は、最初から48kHzの音声データをアップしてあげることで、内部的な処理を最小限にすることができます。

長くなってきたので、映像のフォーマットについては次回やりましょう!