ハイレゾならぬリマスタ商法はコレどうなんだろう。

 間に一つ挟まってしまったが、俗にいうハイレゾオーディオについてぐだぐた言う回、最後にコレでも。

 いわゆるハイレゾ音源に手を出すようになってしまって以来、ハイレゾ音源と通常のCD相当音源を聴き比べて「何と言ったものか」的な感想を抱くことが正直少なくないんですわ。
 こんな感想が出る理由は明確で、

 16bit44.1KHz(48KHz)のミックス&マスタリングが酷過ぎる

 この一言に尽きるんですよ、コレがね。

 ◇

 特に日本では音圧競争なれの果ては俗に「海苔」なんて言われるぐらいべた~っとした波形のミックス&マスタリングが当たり前のようになってしまっており、挙げ句の果てにはデジタルクリップなど恐れない的な代物が堂々と「商品」として出回っている始末。

 アマに毛も生えない程度の自分ですら音聞いていて普通に気になるし、波形取り込んでちょっとしたツール使えばガシガシ引っかかってくる(検出される)というレベルなのに、これを放置する「プロ」ってどんだけなんよ・・・ととと脱線脱線、話を元に戻して。

 自分が聴く音楽は基本的には多重録音で、ボーカルとオケが別録なのは当然として、コーラスや複数人ボーカル、オケの楽器自体も完全バラ録が今時の当たり前。
 こうなってくるとミキシング&マスタリングの技術が音楽トラックしての完成度の命運を握っていると言っても良いワケなのだ、が。

 もうね、何というかね・・・というモノが多過ぎるワケですよ。
 正直言って音圧云々とは関係無くというかそれ以前に「単にヘタクソ」なものが殆ど。

 ♯こういう音源の耳障りを少しでも良くする為に、以前ネタにした「テープシミュレータ」+「真空管シミュレータ」+「BBE」という組み合わせは効果絶大なんです、少なくても自分には。

 で、ハイレゾ配信になった途端、マスタリングどころかミックスからやり直しただろコレ、的な音源が実際ちらほら見られる訳です。
 結果的に(元々が酷いので)良くなっているモノが多いのだが、実際こういう音源を手元でダウンサンプリングして16bit48KHz(44.1KHz)にしてみても、当初出た16bit44.1KHz(48KHz)の音源より圧倒的に良いんですよ。当たり前だけど。

 ・・・やれば出来るってのに、何で最初からこの音質で16bit44.1KHz(48KHz)のマスター作らないの?
 これで「ハイレゾだから音がいい」って宣伝するの、詐欺って言うんじゃ?

 ◇

 それじゃ24bit96KHz(或いはそれ以上)音源は今のところ素晴らしモノかと言われますと。
 最近ハイレゾ音源でも「海苔」の台頭が目に余るワケでして・・・。

 個人的には「海苔」も大概とは思っていますが、問題の本質は結果として「海苔」になることではないと思っていますよ。
 EDMやダンス系の音楽では狙って作っているだろうし、それが心地良いならそれもアリ。
 そうではなく、現状として猫も杓子も「海苔」にする為に無茶苦茶なミックス&マスタリングで音がズタボロになっていることの方が問題なんだと思いまっせ。

 ♯そもそもヘタクソなミックス&マスタリングなのに「海苔」化で更に悲惨なことになっている場合を含む。

 その点、波形見ると海苔なのに聴くと実にスムースなんて恐ろしいマスターも「極稀に」あります。
 これはホントにミキシング&マスタリングエンジニアの超絶技巧の結晶なワケで、素直に感服してしまう訳ですがね。ホント「極稀」ですよ、こういうのに当たる確率。

 そして大抵の「海苔」は現在進行形でまぁ以下略なワケでして。
 24bit96KHzというフォーマットの優秀さで「辛うじて」16bit44.1KHz(48KHz)よりはマシ、というレベルものも最近は珍しくなくなってきている気がするのですよ。
 このまま行くとあと数年でハイレゾ音源もボロクソミックス&マスタリングが当たり前、になっているかも。

 ♯いやマジでそうなって欲しくないですが、今のハイレゾ関連商品の展開を見ていると正直こうなる確率は相当高いかと・・・。

 ◇

 ということで、本日のうだうだの結論。

 「商品」を作る以上、ハイレゾでも16bit44.1KHz(48KHz)でも、まともなミックス&マスタリングしろや
 自分みたいなシロートにすらガタガタ言われるようなモノを「商品」として売るなや

 ということです、はい。

Share

MQAフォーマットって次世代MP3、かも。

 今回もうだうだ長いので、まずはまとめ3行。

 ・MQAフォーマットはハイレゾの高域を可聴域に押し込む技術。
 ・高域を不可逆圧縮で、時間軸レスポンスを重視した方式。
 ・言うなれば新世代のMP3。理屈は分かるが何だかビミョー。

 ◇

 さて、前回に引き続いてMQAのお話。
 今回はMQAフォーマットについて。「高域を低域に埋め込む」とはどういうことか。
 個人的にはビミョーという印象を持ってしまったが、その辺りも含めてつらつらと書いてみます。

 ◇

 前回書いたように、MQAでは音質について「時間軸で正確」というアプローチを取っているんですよ。

 ではそれを具体的に実現しようとすると、原理的にはハイレゾにするしかない。
 デジタルでサンプリングしている以上、サンプリング周波数=時間軸精度という制約を受けざるを得ないワケで、この周波数が高い程原理的に「時間軸の正確」性を保証し易い。
 というか、サンプリング周波数未満の時間軸の正確性を担保することは原理的に不可能ですわな。

 一方で、ハイレゾ配信ではデータ量が増える。そりゃそうだ、情報量が多いんだもの。
 この情報量の多さが問題だ、というのがMQAの主張。

 ・・・え?
 そもそもハイレゾ音源程度の情報量の多さで何が問題?動画がバンバン流れるこの高速回線時代に?

 ↑コレが自分の最初の感想で、結局最後までこの印象はひっくり返らなかったので、自分的にはビミョーという感想しか持っていないのだが。
 まぁ、ここは話を続けます。

 で、ここからはまたMQAの主張。
 人間の耳は「ダイナミックレンジには鈍感」なので、ハイレゾの高い周波数成分を圧縮して、可聴帯域内の微細な音量変化に押し込んでしまえば良くね、と。
 そうすればハイレゾをそのまま配信する場合と比べて、データ量を抑えることが出来るよね、と。

 例えば、24bit/44.1KHzのデータのうち下位6bitを「高周波数用」として割り当てると、従来の再生装置でも18bit相当の音源としては問題なく再生出来る。
 一方で、MQA対応の再生装置を使うと、18bit/44.1KHzに加えて、最大で176.4KHzまでのハイレゾ相当の周波数成分を復元出来る。
 その結果、ハイレゾの特徴である「時間軸での正確」性を担保できる、と。

 勿論「押し込む」ので原理的に不可逆圧縮、ハイレゾそのままよりは劣化していることは間違いない。
 だが、要するに「限られたデータ量を音量変化より周波数帯域に割り当てた方が幸せになれるでしょ」というのがMQAの主張なワケですよ。

 ・・・ん~、まぁ理屈は分かるのだけど。
 こういう発想は「限られたデータ量を音域全体でなく耳につく音だけに割り当てた方が幸せになれるでしょ」というMP3と根は一緒な気がするのよね。
 なので「新世代のMP3」と自分は解釈しました、はい。

 ◇

 ちなみに、この「時間軸での正確」性については、実は従来から別のアプローチもあるのであり。

 音の時間軸のズレは波形で見ればブレ・鈍りなんですよ。
 そして再生時にこの波形のブレ・鈍りを発生させる最大の要因がDACのオーバーサンプリング・デジタルフィルター処理。

 そこで、オーバーサンプリング処理時に「本来あるべき波形」を推測して近づけてしまおう、という技術が生まれたワケで。
 このテの技術は「失われた20KHz以上の再生」という言い方をされることもあるが、同時に「時間軸の正確」性も(何も考慮してない場合に比べて結果的に)改善されている、と。

 ♯「推測」なのでどうしても音に味付けが出るのが不可避なので、好き嫌いも出るのだが。でもそれを言い出したらそもそもオーバーサンプリング・デジタルフィルター処理自体原理的に音への影響は不可避なので、ね。

 この技術の先駆けが日本コロムビア=DENONのALPHA Processing。その他にもVictorのK2 TECHNOLOGY、PIONEERのLEGATO LINK CONVERSION、その他色々開発され実装されていったのだ、が。
 現在単品コンポとして生き残っているのは上記の中ではALPHA Processingのみで、K2はシステムオーディオのみ、LEGATO LINK CONVERSIONに至っては消滅の憂き目に遭ってますな。

 ♯PIONEERが現在採用している「Hi-bit32 Audio Processing」もLEGATO LINK CONVERSIONを血を引いていないワケでもないらしいのだが、直系という程でも無いようで・・・。

 あと、DENONの海外サイトにALPHA Processingの技術解説ドキュメント(英語)があるので、読んでみるのも一興かと。つかコレの日本語版何処?
 http://www.denon.com/pages/GlossaryDetail.aspx?GId=13

 ◇

 以上、こんな感じで。

 ちなみに、このMQAの原理を理解して最初に思い浮かんだのは、実はMP3ではなく昔あった4chレコードだったんですな。
 アレは2ch分の音声を可聴領域より上の帯域のFMに乗せてしまうという代物だったが、何か発想が似ているような気がして。
 ただ、流石に4chレコードなんてブツがアレ過ぎて絶対伝わらないと思ったので、次に思い浮かんだMP3ネタを上には書きました、と。

 ということで、今回はここまで。

Share

MQAのアプローチ自体は割と真っ当な気がする。

 今回もうだうだ長いので、まずはまとめ3行。

 ・MQAって最近何だか微妙に流行りつつあるらしい。
 ・MQAの高音質化のアプローチ自体は結構悪くない気がする。
 ・フォーマットと高音質化アプローチを一緒くたにしている現在のマーケティング手法はダメ過ぎ。

 ◇

 さて、巷ではほぼ話題になっていないが、俗にいう「おーでぃおふぁいる」なる人々の間で話題になっているらしい「MQA」というフォーマット。

 ハイレゾについていろいろ調べたり考えたりしている過程で引っかかってきた単語なのだが、個人的には「理屈に納得」した部分と「え゛ー」という部分と両極端だったので、取り敢えず触れてみる。
 但し、現在のMQAのマーケティング手法が正直あまりにも分かりづらく、かえって混乱を招いているだけな気しかしないので、

 ・MQAの高音質化アプローチ=「時間軸で音を正確にする」
 ・MQAフォーマットの原理と特徴=「高域を低域に埋め込む」

 の2パートに分割して、取り敢えず以下に書いてみる。

 ◇

 以下、「時間軸で音を正確にする」とはどういう意味かについて。

 これ以前自分が書いたネタ。というか、前回書いた元ネタの方がコレ、というネタバレ。
 詳細は前回のエントリ読んで下さいな。ざっくり言うと、時間軸での音のズレや変化に人間は結構敏感っぽい、という。
 振り返って、近年のオーディオ制作環境を見てみると、という話ですよ。

 最近の制作現場では基本的にデジタルの世界で音を捏ね回す。デジタルの素晴らしいことは伝送時にノイズが入らないことで、おかげでノイズフロア(無音時の雑音)が下がり、ダイナミックレンジが稼げるようになったと。
 更に、様々に音を加工しても劣化が少ないため、音源に対してアナログ時代には信じられない程の手を加えているというのが現代のオーディオパッケージ。

 が、デジタルの世界ではこの時間軸の変化が忘れ去られてきたのではないか、というのがMQAの主張。
 時間軸での変化が発生した結果、再生した音は当初の音とはかけ離れてしまう、と。

 実際問題として、デジタル世界でもフィルタを使ったりすると時間軸の変化は避けられない。これは数式ではじき出せる「原理」「理屈」そのもので、避けようがない。
 一番分かり易いところでは「リニアフェイズ」アルゴリズム。
 実際に処理した結果を見ると、実際の音の波形の前後に追加の波形が発生してしまう=時間軸では明らかに変化している。名前の通り位相こそはズレないのだが、逆に位相をズラさない為にはこれは不可避という。

 他にも、変換で使われるディザリング等、この時間軸での変化を発生させるポイントは、デジタル世界で処理していても相当に多い。
 しかも実際に処理に使われているアルゴリズム=数式を解いてみても、原理的に発生するもの。
 つまり、時間軸で見ると音はどんどん「正確」ではなくなっている、というワケですな。
 これが音質にとって致命的によろしくない、という主張ですよ。

 それに対して、MQAではどうするか。
 肝心のこの部分は、残念ながらきちっと書かれている文章は見つからず。
 とはいえここまでの流れを考えれば「ざっくりした」方向性は明確で、意図的に逆方向の時間軸変化を加え、結果的に時間軸のズレや変化が少ない音源を作る、ということではないかと。

 ◇

 以上、MQAの高音質へのアプローチ、でしたとさ。

 えっと・・・何となくBBEが思い浮かんでしまったのは自分だけですかね。アレはマイクやスピーカーという物理的な制約によって発生する群遅延特性を改善する為に電気的に補正をかけるというアプローチだが、「時間軸で補正」というのが共通点なので。

 さて、ここまでで予定よりだいぶ長くなってしまったので、「MQAフォーマットの原理と特徴」は次エントリにて。

Share

聞こえることと聴こえることは違う、と考えることにした。

 今回もうだうだ長いので、三行まとめ。

 ・ハイレゾオーディオは聴くと確かに音が違う。何か理屈で説明つくのかね。
 ・ハイレゾ制作環境では可聴域の音にも差が出る可能性はありそう。
 ・人間の耳は時間軸方向には結構敏感なのかも。

 ◇

 さて、巷で話題の「ハイレゾ」。
 以前の自分は正直全く興味無かったのだが、とあるタイミングで同じ音楽のCDとハイレゾを聴き比べるという機会がありまして。

 「アレ?違うよねコレ?」

 自分の耳でも違いが分かってしまったのですよ。明らかにハイレゾの方が気持ちが良い。
 個人的にはこれかなり衝撃的でした。違いが分かってしまうの、という意味で。

 ということで、感覚として納得してしまったのですよ。
 それ以来、自分でもハイレゾ音源を入手するようになって今に至っているワケです。

 ということで、本日のエントリーは「S.Kazの考えるハイレゾとは」という、いつもにも増してウザい話になっております。
 以下、いろんな意味でご注意下さい&閲覧は自己責任で。

 ◇

 さて、上記ような衝撃体験の後。

 自分としてはどうしても納得出来る説明が欲しかったワケですよ。
 何しろ自分の基本的な認識は「ピュアオーディオ」=「色んな意味で残念な世界」なので

 注:意見には個人差があります。

 科学的に納得出来る説明が欲しい、と。
 ちなみに当方、

 ・CD品質(16bit/44.1KHz)と24bit/48KHzでは、差が良く分からんです。
 ・24bit/48KHzと24bit/96KHzの落差は結構ある。これは(それなりの再生機器であれば)聴き分けが出来る筈。
 ・24bit/96KHzと32bit/96KHzの差は全然分かりません。

 ♯192KHzの音源は買ったことがないので差が分かるか不明。

 という状態。
 つまり、ビット数の差は分からないがサンプリング周波数の差は結構分かるということ。

 とはいえ「人間には20KHz以上の音は聞こえない」ということについては、現在のところ科学的にも否定しようがない模様。
 つまり理屈詰だとハイレゾの意味は無い・・・って、ならばどうしてこの差があるんだ?

 ということで、自分が至った結論は以下。

 ・ハイレゾで音源を作成したことで20KHz以下の可聴領域にも有意な差が出ていて、それが聴き分け出来る理由に違いない。

 これが証明出来る何かがあれば・・・と思って色々調べていると、ちらほらと面白い話が。
 個人的には結果的に凄く納得してしまったので、結論としてこれでいいかと思っている。
 以下、その二つの理由をつらつらと書いてみる。

 ◇

 理由そのⅠ。ハイレゾ音源「制作環境」が音が良いのかも。

 高い周波数まで扱うことを前提とした結果、可聴領域=低い周波数についても結果的に高音質になっているという考え方。

 アナログの世界で言えば、一般的な電子部品の周波数特性を考えると、高周波まで特性の良い素子は大抵低周波での特性も良い。「特性に余裕がある」ということで、これが結果的に可聴領域の音に良い影響を与えている可能性があるんじゃね、と。

 デジタルの世界でも、サンプリング周波数が高いということは単純にデータ密度が濃いということ。例えば1KHzのサイン波を描くのに48点使えるか96点使えるか、この2倍密度の濃さが音質に影響を与えている可能性があるのではないか、と。

 更にデジタルの世界の話をする場合、昨今の音源作成のデジタル処理の多さも見落とせないポイントかと。
 ハイレゾに対応することでデジタル処理で音を加工する際の加工精度が従来より要求されるようになり、結果として可聴領域にも良い影響を与えている可能性はあってもおかしくないよね、的な。

 最後の点については、48KHzと96KHzでは音が豹変するVSTも実際いくつも見ているので、良い悪いは兎も角音が変わることについては「あるだろ」としか。

 ◇

 理由そのⅡ。人間の耳は時間軸方向には結構敏感なのかも。

 最近知ったのだが、人間の耳(というか脳)は「時間軸の音のズレや変化」については従来考えられていたよりずっと敏感だ、という研究があるらしい。
 これはどういうことかというと、20KHzの音の1サイクルは0.05ms=50μsで、これ以上高い周波数は「聞こえ」ないが、一方で音の出るタイミングのズレや音の立ち上がり方の違いについてはもっと短い時間でも認識出来る、ということ。

 言われてみればそうかもね、ぐらいには考えられる話で。
 例えば人間の左右の耳の間は16cm程度しか離れていないにも拘わらず、遠くの音の音源方向が何となく分かる。
 音源からの距離の比率を考えると、非常に僅かな時間差だけでこの感覚を導き出しているワケで、それはつまり脳がそれなりの精度で音の位相差を処理しているということではないかと。

 それに人間は兎も角として、生物の中には反響音を解析するソナーのような能力を持っている種だって居るぐらいなので、生体原理としては精細な時間軸での認識は不可能ではない筈。

 更にこの話は位相特性とか群遅延特性という話に繋がっていったり、当方大好きBBEの動作原理にも微妙に繋がったりとしているのだが、この辺りは語り始めると長くなるので省略して、と。

 まぁ要するに、サンプリング周波数が高いということは当然時間方向の解像度が高いワケで、その分音が正確に再現され、良い音に聴こえるんじゃね、という話。

 ◇

 以上のような理屈から、当方は「ハイレゾって多分プラセボではない」と信じることにしたのだ、が。
 さて、ホントのトコはどうなんだろうね。

Share

TractionはBananaがお好みだったらしい。

 タイトルが何だかなぁだが、今回はまたしてもDAWを使ってVSTをPC音声出力に突っ込むという話。
 また問題が出てしまったので、その話でも。

 ◇

 前回ネタにしたように、VSTHostではなくTracktion5を使うことで音が遅延してどんどんズレていく問題は解消したのだが。
 しばらく使っていると、今度は別の問題が発覚したんですな。

 それは、MME(Windows Audio)を使うと、割と頻繁に音飛びするということ。

 そりゃMMEなんて使うからだろというツッコミはある意味正しく、DirectSoundを使えば音飛びの頻度は減らせるものの、ゼロにはならない。
 しかもDirectSoundを使うとKernel Mixerの影響をモロに受けてしまうという。MMEの方が小手先テクニックで影響を減らせるようなので、敢えてMMEを使っていたのですよ。
 勿論、MPC-HCではWASAPI出力が使えるのでこれを使っているが、それをVB-Cableに通してしまうとTracktionはMMEかDirectXでしか入力出来ない。
 まぁこれも環境依存らしく、環境によってはあまり気にならないが、一方で1分も間があかずに音飛びまくる環境も。

 それでは原因の切り分け・・・ということで、折角のDAWなので入力側を録音してみたところ、録音の段階で音飛びしていることが判明。これつまり、TracktionがMME経由での録音はあまり得意でないってことなのか、単にVB-Cableとの相性なのか。ASIO入力だとこんなこと起こらないんだが。

 ♯勿論音源になるソフトから直にハードウェアに音声出力すれば音は飛ばないですよ。

 まぁこうなると、結論としては「TracktionはASIOで入出力」しかない、ということですな。

 勿論ハードウェアループバック使えば簡単に出来ますよ。おカネかかるけど。
 それではソフトウェアだけで出来るかな、ということで、色々探してみたのだが、結論としては

 「タダでは無理、DonationWareを使えば出来る」

 ということで。以下、具体的な手法。

 使用するDonationWareはVB-AudioのVoicemeeter Banana。
 これはソフトウェア仮想ミキサーだが、全ての仮想I/OにMME・DirectX・KernelStreaming・WaveRT・ASIOが使えるという変態的、違った、汎用性の非常に高い構成なのですよ。
 なので、以下のように繋げればTracktionをASIOで使えるばかりか、KernelMixerも完全排除出来るという。

 MPC-HCからWASAPI出力
 →VoiceMeeter BananaからASIO出力
 →Tracktion5からASIO出力
 →Voicemeeter BananaからASIOまたはKernelStreamingで出力

 実際にこのソフトを使うとケーブルが無いので(当たり前だ)何処がどう繋がっているかやや分かり難いものの、一度ルーティングを理解してしまえば何の問題も無い。

 そして音は・・・おお、飛ばない!
 ASIOバッファを詰め過ぎれば当然音は飛ぶが、逆に言うとそれ以外では音飛びは出てこない。

 まぁ短時間の確認なんでウン時間も流し続ければもしかしらたまに飛ぶのかも知れないが、少なくともMMEやDirectSound使っていたら間違いなく飛びが確認出来るだけの時間はかけたので、これは間違いなく改善している。

 ◇

 ということで、問題を解決したものの、それには結局追加投資が必要だということに。
 DonationWareってことは要するに試用期限が切られていないシェアウェアなんで、使い続けるなら送金しないと。
 ん~、背に腹は代えられないってヤツなのかなこれは。

 以上、今回はここまで。

Share