FC2ブログ

YouTubeにおけるラウドネスノーマライゼーションについての備忘録

新型コロナウイルスの影響で現場が中止になったりして時間が出来たので、YouTubeにおけるラウドネスノーマライゼーションの挙動をチェックしてみました。自分の中だけで知識として蓄積してもよかったのですが、せっかくなので備忘録を兼ねてブログに書いてみようと思います。

さて、現状YouTubeは誰でも動画をアップロードできます。全くデジタル音声の知識のない素人から、プロの音楽制作者まで、PCはもちろん、スマホでも気軽に動画を公開できます。当然、個々の技術の有無によって、動画ごとに大きな音量差が生まれることになります。そうなると、動画ページを開くたびに爆音になったり、音が小さすぎて聞こえない、ということが生じ、ユーザー側でその都度ボリューム調整をするのは非常に面倒です。

YouTubeにおけるラウドネスノーマライゼーションは、そういった音量差を均一化し、ユーザー側に負担となる動画ごとのボリューム調整をしなくてもいいようにつけられた機能です。実際の動きとしては、基準を超える音量の動画の音声を、超えた分だけ下げる、という挙動をする模様です。基準より小さい音量の動画の音声はそのままですので、例えば、とても小さな自然音だけがずっと流れている動画などはそのまま静かな世界を届けられるというわけです。

さて、今回はYouTube側で自動的に調整が入る中で、どのように音声を調整してアップロードするのが最適なのか、ということを考えたいと思います。

まず、ラウドネスとは何なのか?ということですが、これは等ラウドネス曲線などで表されるように、人の耳は敏感な周波数と鈍感な周波数があります。電気的には同じレベルの信号であっても、空気振動となって人の耳に届けば、敏感な周波数では大きく聞こえ、鈍感な周波数では小さく聞こえる。それを考慮に入れて、実際に人が感じるであろう音量感を数値化したもの、と捉えていただいて構いません。勿論聞こえ方に個人差はありますが。

これはLUFS(もしくはLKFS)という単位で表され、Loudness Units relative to Full Scale(もしくはLoudness, K-weighted, relative to full scale)の省略形で、どちらも同じものと考えていただいてOKです。

今の地上デジタル放送も同じ規格に基づいて音量調整がされており、-24LUFS(±1LUFS)を基準に番組、CMが作られています。とはいえ、音の表現として音の大小は不可欠なものなので、短い時間ではなく、コンテンツ全体で計算して、この基準に合わせるように音量調整がなされます。基準から逸脱する制作物は、NGを食らい、やり直しとなったりします。
生放送でも同様で、リアルタイムにこの基準内に収まるように、ミキサーが調整しています。ちなみに私も生放送のバラエティ番組のミキサーをやっています。レコーディングだけが音の仕事ではないのです。
なお、TVで±1LUFSが許されているのは、この生放送に対応するためです。番組終盤で突然盛り上がったりすると、必ずしも-24LUFSぴったりをキープ出来るわけがありませんので、そのマージンとして設けられています。

さて、テレビの話は置いておいて、YouTubeに戻りましょう。

まず、YouTubeにおいて、どういった特性でラウドネスを検知しているのかを知る必要があります。ラウドネスは規格ですので、勝手に計測方法を変えていいものではないはずですが、独自のプログラムを運用している可能性はあります。

というわけで、まずは複数の周波数の正弦波で-5LUFSのファイルを作り、YouTubeに上げて、ラウドネスノーマライゼーション(長いので、以下LNと記載します)の挙動を見てみました。

◇50Hz:100%/35% (content loudness 9.1dB)
◇100Hz:100%/35% (content loudness 9.1dB)
◇250Hz:100%/35% (content loudness 9.1dB)
◇500Hz:100%/35% (content loudness 9.1dB)
◇1kHz:100%/35% (content loudness 9.1dB)
◇2kHz:100%/35% (content loudness 9.1dB)
◇4kHz:100%/35% (content loudness 9.1dB)
◇8kHz:100%/35% (content loudness 9.1dB)
◇16kHz:100%/35% (content loudness 9.1dB)
◇20kHz:100%/41% (content loudness 7.8dB)

ここでLNによるラウドネスの変化は20kHz以外は同じ値であることが分かります。つまり超高域に入るまでは、一般的なラウドネス計算と同じ周波数特性をもっていると考えられます。

ですので、20kHz付近で同じ正弦波を作り、挙動をチェックしたところ、
◇19kHz:100%/36% (content loudness 8.8dB)
◇20kHz:100%/41% (content loudness 7.8dB)
◇21kHz:100%/57% (content loudness 4.9dB)
となり、19kHz付近から落ちはじめ、21kHzでさらにグッと下がっています。

これは超高域に行くと、LNの影響が少なくなることを示しています。つまりデジタルメーター上の振りも大きくなるはずですが、実際には21kHzになると、メーターはほぼ触れず、音も出力されませんでした。ブラウザ上の問題なのか、YouTube側の再生エンジンの仕様なのか不明ですが、とりあえず実際には音として出てきません。Google ChromeとFirefoxで検証したところ値は一緒なので、ブラウザというよりは、YouTube側の問題のような気もしますが。

各周波数ごとのYouTubeアップ前とアップ後のデジタルピーク値は以下の通りです。
◇50Hz:-0.3dBFS → -9.3dBFS
◇100Hz:-3.1dBFS → -12.2dBFS
◇250Hz:-4.1dBFS → -13.1dBFS
◇500Hz:-4.2dBFS → -13.3dBFS
◇1kHz:-4.7dBFS → -14dBFS
◇2kHz:-7.1dBFS → -16.3dBFS
◇4kHz:-7.3dBFS → -17.2dBFS
◇8kHz:-8.2dBFS → -18.5dBFS
◇16kHz:-9.1dBFS → -16.8dBFS
◇20kHz:-7.5dBFS → -20dBFS

ラウドネス値は単位はLUFSですが、増減の数値はdBFSと変わりません。つまり、1LUFS下げたければ、そのまま1dB下げればよいはずなのです。しかし、この結果は2kHz以下は概ね0.1dB程度の誤差の範囲と思われる差ですが、4kHzと8kHzはLNによって下げられたと表示される9.1dBよりも1dBほど出力が下がっていることを意味しています。そして逆に16kHzでは9.1dBよりも1dBほど出力が上がっています。これは周波数によってEQでもされているのか?と思わされる何とも不思議な結果でした。

しかし、ピンクノイズも同じようにYouTubeにアップしてみたところ、この画像のような結果になりました。

YouTube比較スペアナ

白がアップ前の元ファイル、赤がYouTubeです。
4kHzも8kHzも16kHzも特性的にはほぼ一緒。YouTubeの方は17kHzあたりでスパッと上は切れていました。強烈なLPFでカットしているのでしょう。
また、正弦波のみでチェックした時は、19kHzも20kHzもスピーカーから音が出ています。

正弦波と全周波数帯域に渡る信号では挙動が異なる模様です。しかし、正弦波のみで動画を上げるということは普通はしませんし、20kHzなんて超高次倍音領域です。YouTube用だからといって、気にする必要はないように思います。バランスよくミックス、調整すればよいでしょう。

問題はそれよりもLNの影響の方です。

ピンクノイズを使い、5分間の中でランダムに音量が上下するようにしたところ、このような結果になりました。
◇-9LUFS 100%/58% (content loudness 4.7dB)
◇-12LUFS 100%/82% (content loudness 1.7dB)
◇-15LUFS 100%/100% (content loudness -1.3dB)

全て-13.7LUFSになるように、LNがかかっていますね。

次に、知らない方もいると思いますが、ブラウンノイズというものを使って、音色やダイナミクスを調整した場合にどうなるか調べました。同じようにランダムに音量が上下するようにしています。
◇-19LUFS 100%/100% (content loudness -5dB)
◇-19LUFS EQで中域と高域をブースト 100%/100% (content loudness -5dB)
◇-15LUFS コンプで圧縮して音圧UP 100%/100% (content loudness -0.9dB)

ブラウンノイズはピンクノイズと比べると、低域にエネルギーが寄っていますので、元々ラウドネス値が上がりづらいです。19LUFSと低い値になった2つのファイルは、EQをかけても同じ値を示しました。基準まではあと5dB足らないよ、と言われています。ただ、これ以上上げるとデジタルクリップを起こすので却下しました。そこでコンプで無理やりレベルを上げてみると、あと0.9dB足らないよ、と言われました。

どうやら-14〜14.1LUFSが基準のようですね。
先ほどのピンクノイズとは異なる結果になりました。

では、音楽ファイルではどうなるのか。
先日レコーディングからミックス、マスタリングまで全て担当した楽曲で試してみます。マスタリングでかなり音圧を出しましたので、マスタリング後と、配信も考慮に入れたレベルでミックスした音源と比較してみます。

◇Tr1マスタリング前-14LUFS 100%/100% (content loudness 0.0dB)
◇Tr1マスタリング後-5.9LUFS 100%/39% (content loudness 8.1dB)
◇Tr2マスタリング前-15LUFS 100%/100% (content loudness -0.9dB)
◇Tr2マスタリング後-8.3LUFS 100%/52% (content loudness 5.7dB)

どれも-14LUFS前後を基準としてLNが行われた模様です。

そして、先ほど示したように、各周波数の正弦波を試した時も、-14.1LUFSになるようにLNがかかっていました。

これらの事例で分かることは、正弦波で一部実際のピークレベルに違いが出たことは気になりますが、おそらくYouTubeのラウドネスノーマライゼーションは-14LUFSを基準にして、アップロードされたファイルの音量を調整しているということです。この値を基準にしてミックス、編集し、動画をアップロードすれば、ダイナミクスを生かした音を聴かせることが出来るということのようです。

ちなみにラウドネス値の算出は-70LUFSを絶対閾値として、それ以下の音量の時を無視します。つまりコンテンツの大半が無音で、一瞬だけ爆音の音源などは、ラウドネス値に反映されるのが爆音の部分だけとなるため、意外とラウドネス値が高くなり、LNで-14LUFS程度になるように下げられます。これも実験済みです。

また、-70LUFSまでいかなくても、大きいところは-5LUFS、小さいところは-40LUFSなんかの音源も小さいところを無視されて計算されるので、それほどラウドネス値は下がりません。無理やり大きい音を聴かせることは出来ないということですね。

過剰な爆音は耳にも悪いですし、音の大小が大きすぎるコンテンツは何より聞きづらいです。CMになった途端に音が大きくなると鬱陶しいですよね?それと同じことが言えます。視聴時の音量は配信側ではなくユーザー側が決めるものです。無理に大きい音にするのではなく、聴きやすい音量で楽しいコンテンツを制作していきましょう。
スポンサーサイト



コメントの投稿

非公開コメント

プロフィール

アクセルスタジオ ikenaga

Author:アクセルスタジオ ikenaga
レコーディング・マスタリングエンジニア ikenaga です。
関西を中心に、レコーディング/ミキシング/マスタリング/MA/音声編集・ノイズ除去などの録音業務と、
ジングル・サウンドロゴ・効果音制作などの制作業務を行なっています。

ご依頼・お問い合わせ・お見積もりのご依頼は、
↓のホームページからよろしくお願い致します。

https://accel-studio.com/

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR