YouTubeに音声を投下する場合に最適な設定について【ふむふむらぼ01】

をはょ🤭ふむです。

突然ですが、シチュボ・朗読ラボを始めます！その名もふむふむらぼ！
このラボでは、シチュボや朗読に関するテクニカル（技術的）な話題を中心に、これからシチュボや朗読の録音を始めようとしている方へ向けて、色々と情報を発信していけたらなと思っております！

さて、初回の今回は、ふむもやっておりますが、YouTubeに音声作品を投稿する場合に最適な設定について、非常にマニアックな側面から書いていけたらと思います。

最初に断っておきますが、今回の設定にしたからといって、劇的に音質が良くなるということはありません。
基本的に、音質をよくするために優先すべきは下記のような感じかと思います。

録音環境　＞　マイクとか機材　＞　設定

さらに、音質がどうこうと細かいことを言うより前に、内容が良くなければ聴いてもらえないというのは言うまでもありません。

内容　＞　音質

ただ、まぁ内容の良さについては、聴く側の主観によるところも大きいし、人それぞれ才能の見せどころなのでこんなところでボクみたいな者が語れることではないわけです。
録音環境や、マイクとか機材についてはまたいずれこのラボで取り上げるとして、今回は設定を見ていきましょう。

結論から言うと

いきなり結論ですが、YouTubeには48kHz24Bitの音声データをQuickTime ProRes 422等の、音質劣化のないフォーマットにしてアップしましょう！
何も考えずにかき出すとH.264等のmp4形式になりますが、これだと折角の音声が圧縮されてしまいます。

YouTubeに音声を投稿するということ

そもそも、YouTubeという映像がメインのサイトに音声をメインとしたコンテンツを投稿するというのは、ちょっと使い方としてトリッキーです。
録音したデータそのものはYouTubeが受け付けてくれないので、映像のフォーマットに変換する必要があります。
PCならPCの映像編集ソフト、スマホなら映像編集アプリを使って、何らかの映像を音声にくっつけて書き出す必要があります。

デジタル音声の基本

そもそも人の喉から放たれる音声は、物理的な空気の振動、つまり「アナログ」の状態でそこに存在します。
それを録音機に入れて記録するときは、「デジタル」のデータに変換されます。（カセットテープ等はアナログのまま記録できますが、もう手に入りませんね）
デジタルとは、つまりコンピュータが認識できる0と1の羅列で記述されているということで、音声の場合は、先ほどの空気の振動を細かい時間単位で記録していくことになります。

ここで、普段ふむが編集を行っている音声波形を見てみましょう。

これは、ふむが録音したモノラル（片耳分）の音声約0.1秒のデジタルデータです。何か見覚えがあるでしょうか。
ちなみに「し」って言ってます🤭

黄色い線のところをもうちょっと拡大してみましょう。

実はこんな感じで、線が上下している形になっています。
これは音の振動を可視化したもので、画面の上の方が空気が密な部分、下の方が空気が疎な部分、という意味になっています。
この空気振動のデータから、スピーカーの振動でその空気の状態を再現して、スピーカーやイヤフォンから出すと、同じ音が鳴るというわけです。

もっと拡大してみましょう。

ここで、実は線に見えていたものは点の集まりだったということがわかったでしょうか。
この空気の状態を点で記録していったのが、音声のデジタルデータとなります。

サンプリング周波数とは

この「点の個数」は音質にとても重要で、この個数が多いほど空気振動の再現度が向上します。
そこで、この点を1秒当たり何個記録すればいいのかという問題が出てきます。
この1秒当たりの点の個数を「サンプリング周波数」と言います。

「周波数」とは、1秒当たりに何回その現象が起こるか、ということを示し、単位はHz（ヘルツ）です。
この点が1秒間に10個だとすると、サンプリング周波数は10Hzということになるわけです。
その10個の点を、上の画面の上下に配置していくと、1秒間に5個の山を持ったギザギザを作ることができます。
これは、音声の周波数でいうと5Hzの状態となります。このことから、サンプリング周波数の特徴は下記のようになります。

デジタルデータでは、サンプリング周波数の半分の周波数の音まで記録できる

点が多くなると再現度があがる、というのは実は視覚の世界でも同じです。
知っているかもしれませんが、高精細に見えるデジタル写真も、実は細かな点で構成されています。
この点が細かい＝解像度が高いということになりますね。その分データの量も増えるわけです。

絵画の世界でも、細かな点で構成された印象派の絵画が多くあります。例えば有名なジョルジュ・スーラの「グランド・ジャット島の日曜日の午後」(1884-1886年）

これは点描といって、比較的大きめの点で描くことで、ふんわりとした雰囲気が出ていますよね。
解像度の低い状態をわざと作ることで、芸術の完成度を高めた例と言えるでしょう。

業界標準の44.1kHzと48kHz

その昔、デジタルの音声開発が一番盛んだったのは、CD（コンパクトディスク）が開発されたころです。
そのころの研究で、「ヒトは大体20kHz（20,000Hz）の音まで聴けるっぽい」ということがわかりました。
そこで、CDでは、20kHzの高音まで再現できるように、ということで「44.1kHz」のサンプリング周波数で記録することになりました。
さらにその後に出てきた、デジタル映像の業界では、さらに少し音質を向上させた「48kHz」が採用されるようになりました。

YouTubeでは、内部的には48kHzが使われているようです。
ですので、YouTubeに投稿する場合は、最初から48kHzの音声データをアップしてあげることで、内部的な処理を最小限にすることができます。

長くなってきたので、映像のフォーマットについては次回やりましょう！

POSTED COMMENT

旭誼香雪より:

2020年5月4日 1:50 AM

ご主人様☁*°(-⊡ω⊡)✌またまたお仕事を作りましたね。今から活動を始めますな方はきっと役立つはずよね。
私はあなたの部下になりたかった。あなたは教え方までお上手なんです。私のアホでも何となくふんふんと分かった気になるんだもの。
私が寝ないで推し事する様に、あなたもこれ！してるのがたのしいんだね？なら善きです☁*°(-⊡ω⊡)☝そんなご主人様☁*°素敵です☁*°

返信
nostalgia より:

2020年5月4日 2:03 AM

今まで知らなかった技術的な事を詳細に知った上で、これからの作品を聴いていくと、また違う見方が出来るかなと思います。色んな方のボイスを聴いていますが、ふむさんが、一番だと思います。色々考えながら真摯に取り組んでおられる事が、ふむさんの作品にも現れているのでしょう。これから初めようとされる方の力になるよう、頑張って下さい。私も学びなから、ずっと応援しています。

返信
ゆふより:

2020年5月4日 3:04 AM

ふむくん、ふむふむらぼ解説おめでとう🎉

素人の私が読んでもわかりやすい🤓
凄く丁寧な文でまとめてあるから
これから音声投稿始める方もきっと役に立つと思います😊

ふむくんはお仕事にストイックで丁寧なところも私は大好きだけど、こうやってその技術を伝えようと惜しみなく出してくるところも素敵だなと思います😌
最近また、音声投稿者の方増えてるもんね。

台本を少しだけど、書いていると、ボイス投稿始めました～って台本垢の方に言ってきてくださる方がたまにいるので😊

ふむふむらぼって名前もまたかわいい(๑>◡<๑)

たくはんの人に読んでもらえますように😌🍀

返信
匿名より:

2020年5月4日 3:27 AM

おはようございます。

可能であれば、超初心者的なことになりますが、機材の導入から説明をしていただきたかったところです。
動画も撮影する際や、ふむさんの様に音声だけの際など。

返信
しろてんより:

2020年5月4日 5:40 AM

ふむさん、とってもわかりやすくて良いです！
こういうのを待っていた配信者さんもいるはず！

というかいます！（ふむさん優しいし、すげーやと言っておりました笑）

まさか点描を例えに持ってくるとは思わなかった笑
でもとっても丁寧な解説なので、これなら役立つ事間違いないですね！

やっぱりふむさんって凄い！
改めて尊敬！！です！

返信
美紅より:

2020年5月4日 6:39 AM

ふむくん、初回のふむふむらぼお疲れ様でした*.(๓´͈ ˘ `͈๓).*

YouTubeに音声をあげるには、こんなに手間がかかってることを初めて知りました✨✨
人の声は、アナログで、録音したらデジタルになるなんて初めて知りました！
人の声の振動が上下の線になってるのは、知ってたけど、点の集まりだということは、知らなかった✨✨

初心者でも、わかりやすい解説をありがとうございます🌹💗✨
きっと音声投稿者の方には、すごく参考になると思いました😊💕

返信
匿名より:

2020年5月4日 7:11 AM

おはようございます、ふむさん。

以前、youtube標準の音質からQuickTime ProRes 422にされたと知って調べてみましたが、技術的な言葉の多さから何となく音質が良くなった、と理解するのが精一杯でした。

こうして、分かりやすく噛み砕いて教えていただけるのは、本当に嬉しくありがたいです。

そして、何よりも大切なのは音質でも機材でもなく、内容だということ。ふむさんのボイスは技術的なことに加えて、誰の心にも寄り添うものと感じています。そういった点では台本を書かれる方の力は大きいと思います。

台本があって演じる、それを最大限に生かす技術的なことをもっと知りたくなりました。
ありがとうございます。

ふむふむらぼの開設、おめでとうございます。
次回もぜひ、楽しみにしています。

返信
hiroko より:

2020年5月4日 8:03 AM

ふむふむらぼ
開設ぉめでと～o(>∀<*)o
ふむちゃんが今までやってみたい事とか、話してくれてたけど、それをひとつひとつ確実に実現していく行動力、ホント凄いと思う！！
有言実行とはまさにこの事だね(・ω<)-☆
音の波形や周波数は何となくの知識ではいたけど、ここまでの知識は初めて知って勉強になったょ
このふむちゃんの記事から、もうちょっと知りたい事があればふむちゃんの言葉をきっかけに掘り下げる事も出来るだろうし、そうしてまた音声投稿をやってみたいと思う人が増えて行くといいね( *´꒳`* )

返信
りえこ☁ より:

2020年5月4日 9:51 AM

ふむくんをはょ☁️

ここではラボの所長さんとして活躍する姿が見られそう！

まず､このブログのページ自体がすごく見やすくきれいです｡

ページの見やすさって重要だと思うから💭

そんな所でもセンスを感じさせてくれて､それが自分の好みに合っててうれしい♡

結論から言うとの記述は先日教えてくれた圧縮の事だったね｡

その後の解説も私なんかにも理解しやすくまとめられてるよ｡

ふむくんって教えじょうずなタイプなんだろな～

デジタル音声の基本､サンプリング周波数の内容も興味深く読みました｡

知らなかった人の好奇心を駆り立てる文章の書き方だね｡
実際に投稿する訳じゃなくても知ってて楽しいです！

また次回いろいろ教えてね｡

このラボがたくさんの人の役に立つすてきな場所になりますように🙏

返信
まる。☁️ より:

2024年12月8日 1:33 PM

今読むと本当にわかりやすく載せてくれてるよね
特にデジタル音声の基本は凄く納得した…今頃ですみません笑
いつも気配を感じられるボイスを届ける為に
沢山の時間を使って編集してくれて本当にありがとう♡

返信