MQAのアプローチ自体は割と真っ当な気がする。

 今回もうだうだ長いので、まずはまとめ3行。

 ・MQAって最近何だか微妙に流行りつつあるらしい。
 ・MQAの高音質化のアプローチ自体は結構悪くない気がする。
 ・フォーマットと高音質化アプローチを一緒くたにしている現在のマーケティング手法はダメ過ぎ。

 ◇

 さて、巷ではほぼ話題になっていないが、俗にいう「おーでぃおふぁいる」なる人々の間で話題になっているらしい「MQA」というフォーマット。

 ハイレゾについていろいろ調べたり考えたりしている過程で引っかかってきた単語なのだが、個人的には「理屈に納得」した部分と「え゛ー」という部分と両極端だったので、取り敢えず触れてみる。
 但し、現在のMQAのマーケティング手法が正直あまりにも分かりづらく、かえって混乱を招いているだけな気しかしないので、

 ・MQAの高音質化アプローチ=「時間軸で音を正確にする」
 ・MQAフォーマットの原理と特徴=「高域を低域に埋め込む」

 の2パートに分割して、取り敢えず以下に書いてみる。

 ◇

 以下、「時間軸で音を正確にする」とはどういう意味かについて。

 これ以前自分が書いたネタ。というか、前回書いた元ネタの方がコレ、というネタバレ。
 詳細は前回のエントリ読んで下さいな。ざっくり言うと、時間軸での音のズレや変化に人間は結構敏感っぽい、という。
 振り返って、近年のオーディオ制作環境を見てみると、という話ですよ。

 最近の制作現場では基本的にデジタルの世界で音を捏ね回す。デジタルの素晴らしいことは伝送時にノイズが入らないことで、おかげでノイズフロア(無音時の雑音)が下がり、ダイナミックレンジが稼げるようになったと。
 更に、様々に音を加工しても劣化が少ないため、音源に対してアナログ時代には信じられない程の手を加えているというのが現代のオーディオパッケージ。

 が、デジタルの世界ではこの時間軸の変化が忘れ去られてきたのではないか、というのがMQAの主張。
 時間軸での変化が発生した結果、再生した音は当初の音とはかけ離れてしまう、と。

 実際問題として、デジタル世界でもフィルタを使ったりすると時間軸の変化は避けられない。これは数式ではじき出せる「原理」「理屈」そのもので、避けようがない。
 一番分かり易いところでは「リニアフェイズ」アルゴリズム。
 実際に処理した結果を見ると、実際の音の波形の前後に追加の波形が発生してしまう=時間軸では明らかに変化している。名前の通り位相こそはズレないのだが、逆に位相をズラさない為にはこれは不可避という。

 他にも、変換で使われるディザリング等、この時間軸での変化を発生させるポイントは、デジタル世界で処理していても相当に多い。
 しかも実際に処理に使われているアルゴリズム=数式を解いてみても、原理的に発生するもの。
 つまり、時間軸で見ると音はどんどん「正確」ではなくなっている、というワケですな。
 これが音質にとって致命的によろしくない、という主張ですよ。

 それに対して、MQAではどうするか。
 肝心のこの部分は、残念ながらきちっと書かれている文章は見つからず。
 とはいえここまでの流れを考えれば「ざっくりした」方向性は明確で、意図的に逆方向の時間軸変化を加え、結果的に時間軸のズレや変化が少ない音源を作る、ということではないかと。

 ◇

 以上、MQAの高音質へのアプローチ、でしたとさ。

 えっと・・・何となくBBEが思い浮かんでしまったのは自分だけですかね。アレはマイクやスピーカーという物理的な制約によって発生する群遅延特性を改善する為に電気的に補正をかけるというアプローチだが、「時間軸で補正」というのが共通点なので。

 さて、ここまでで予定よりだいぶ長くなってしまったので、「MQAフォーマットの原理と特徴」は次エントリにて。

Share

聞こえることと聴こえることは違う、と考えることにした。

 今回もうだうだ長いので、三行まとめ。

 ・ハイレゾオーディオは聴くと確かに音が違う。何か理屈で説明つくのかね。
 ・ハイレゾ制作環境では可聴域の音にも差が出る可能性はありそう。
 ・人間の耳は時間軸方向には結構敏感なのかも。

 ◇

 さて、巷で話題の「ハイレゾ」。
 以前の自分は正直全く興味無かったのだが、とあるタイミングで同じ音楽のCDとハイレゾを聴き比べるという機会がありまして。

 「アレ?違うよねコレ?」

 自分の耳でも違いが分かってしまったのですよ。明らかにハイレゾの方が気持ちが良い。
 個人的にはこれかなり衝撃的でした。違いが分かってしまうの、という意味で。

 ということで、感覚として納得してしまったのですよ。
 それ以来、自分でもハイレゾ音源を入手するようになって今に至っているワケです。

 ということで、本日のエントリーは「S.Kazの考えるハイレゾとは」という、いつもにも増してウザい話になっております。
 以下、いろんな意味でご注意下さい&閲覧は自己責任で。

 ◇

 さて、上記ような衝撃体験の後。

 自分としてはどうしても納得出来る説明が欲しかったワケですよ。
 何しろ自分の基本的な認識は「ピュアオーディオ」=「色んな意味で残念な世界」なので

 注:意見には個人差があります。

 科学的に納得出来る説明が欲しい、と。
 ちなみに当方、

 ・CD品質(16bit/44.1KHz)と24bit/48KHzでは、差が良く分からんです。
 ・24bit/48KHzと24bit/96KHzの落差は結構ある。これは(それなりの再生機器であれば)聴き分けが出来る筈。
 ・24bit/96KHzと32bit/96KHzの差は全然分かりません。

 ♯192KHzの音源は買ったことがないので差が分かるか不明。

 という状態。
 つまり、ビット数の差は分からないがサンプリング周波数の差は結構分かるということ。

 とはいえ「人間には20KHz以上の音は聞こえない」ということについては、現在のところ科学的にも否定しようがない模様。
 つまり理屈詰だとハイレゾの意味は無い・・・って、ならばどうしてこの差があるんだ?

 ということで、自分が至った結論は以下。

 ・ハイレゾで音源を作成したことで20KHz以下の可聴領域にも有意な差が出ていて、それが聴き分け出来る理由に違いない。

 これが証明出来る何かがあれば・・・と思って色々調べていると、ちらほらと面白い話が。
 個人的には結果的に凄く納得してしまったので、結論としてこれでいいかと思っている。
 以下、その二つの理由をつらつらと書いてみる。

 ◇

 理由そのⅠ。ハイレゾ音源「制作環境」が音が良いのかも。

 高い周波数まで扱うことを前提とした結果、可聴領域=低い周波数についても結果的に高音質になっているという考え方。

 アナログの世界で言えば、一般的な電子部品の周波数特性を考えると、高周波まで特性の良い素子は大抵低周波での特性も良い。「特性に余裕がある」ということで、これが結果的に可聴領域の音に良い影響を与えている可能性があるんじゃね、と。

 デジタルの世界でも、サンプリング周波数が高いということは単純にデータ密度が濃いということ。例えば1KHzのサイン波を描くのに48点使えるか96点使えるか、この2倍密度の濃さが音質に影響を与えている可能性があるのではないか、と。

 更にデジタルの世界の話をする場合、昨今の音源作成のデジタル処理の多さも見落とせないポイントかと。
 ハイレゾに対応することでデジタル処理で音を加工する際の加工精度が従来より要求されるようになり、結果として可聴領域にも良い影響を与えている可能性はあってもおかしくないよね、的な。

 最後の点については、48KHzと96KHzでは音が豹変するVSTも実際いくつも見ているので、良い悪いは兎も角音が変わることについては「あるだろ」としか。

 ◇

 理由そのⅡ。人間の耳は時間軸方向には結構敏感なのかも。

 最近知ったのだが、人間の耳(というか脳)は「時間軸の音のズレや変化」については従来考えられていたよりずっと敏感だ、という研究があるらしい。
 これはどういうことかというと、20KHzの音の1サイクルは0.05ms=50μsで、これ以上高い周波数は「聞こえ」ないが、一方で音の出るタイミングのズレや音の立ち上がり方の違いについてはもっと短い時間でも認識出来る、ということ。

 言われてみればそうかもね、ぐらいには考えられる話で。
 例えば人間の左右の耳の間は16cm程度しか離れていないにも拘わらず、遠くの音の音源方向が何となく分かる。
 音源からの距離の比率を考えると、非常に僅かな時間差だけでこの感覚を導き出しているワケで、それはつまり脳がそれなりの精度で音の位相差を処理しているということではないかと。

 それに人間は兎も角として、生物の中には反響音を解析するソナーのような能力を持っている種だって居るぐらいなので、生体原理としては精細な時間軸での認識は不可能ではない筈。

 更にこの話は位相特性とか群遅延特性という話に繋がっていったり、当方大好きBBEの動作原理にも微妙に繋がったりとしているのだが、この辺りは語り始めると長くなるので省略して、と。

 まぁ要するに、サンプリング周波数が高いということは当然時間方向の解像度が高いワケで、その分音が正確に再現され、良い音に聴こえるんじゃね、という話。

 ◇

 以上のような理屈から、当方は「ハイレゾって多分プラセボではない」と信じることにしたのだ、が。
 さて、ホントのトコはどうなんだろうね。

Share

TractionはBananaがお好みだったらしい。

 タイトルが何だかなぁだが、今回はまたしてもDAWを使ってVSTをPC音声出力に突っ込むという話。
 また問題が出てしまったので、その話でも。

 ◇

 前回ネタにしたように、VSTHostではなくTracktion5を使うことで音が遅延してどんどんズレていく問題は解消したのだが。
 しばらく使っていると、今度は別の問題が発覚したんですな。

 それは、MME(Windows Audio)を使うと、割と頻繁に音飛びするということ。

 そりゃMMEなんて使うからだろというツッコミはある意味正しく、DirectSoundを使えば音飛びの頻度は減らせるものの、ゼロにはならない。
 しかもDirectSoundを使うとKernel Mixerの影響をモロに受けてしまうという。MMEの方が小手先テクニックで影響を減らせるようなので、敢えてMMEを使っていたのですよ。
 勿論、MPC-HCではWASAPI出力が使えるのでこれを使っているが、それをVB-Cableに通してしまうとTracktionはMMEかDirectXでしか入力出来ない。
 まぁこれも環境依存らしく、環境によってはあまり気にならないが、一方で1分も間があかずに音飛びまくる環境も。

 それでは原因の切り分け・・・ということで、折角のDAWなので入力側を録音してみたところ、録音の段階で音飛びしていることが判明。これつまり、TracktionがMME経由での録音はあまり得意でないってことなのか、単にVB-Cableとの相性なのか。ASIO入力だとこんなこと起こらないんだが。

 ♯勿論音源になるソフトから直にハードウェアに音声出力すれば音は飛ばないですよ。

 まぁこうなると、結論としては「TracktionはASIOで入出力」しかない、ということですな。

 勿論ハードウェアループバック使えば簡単に出来ますよ。おカネかかるけど。
 それではソフトウェアだけで出来るかな、ということで、色々探してみたのだが、結論としては

 「タダでは無理、DonationWareを使えば出来る」

 ということで。以下、具体的な手法。

 使用するDonationWareはVB-AudioのVoicemeeter Banana。
 これはソフトウェア仮想ミキサーだが、全ての仮想I/OにMME・DirectX・KernelStreaming・WaveRT・ASIOが使えるという変態的、違った、汎用性の非常に高い構成なのですよ。
 なので、以下のように繋げればTracktionをASIOで使えるばかりか、KernelMixerも完全排除出来るという。

 MPC-HCからWASAPI出力
 →VoiceMeeter BananaからASIO出力
 →Tracktion5からASIO出力
 →Voicemeeter BananaからASIOまたはKernelStreamingで出力

 実際にこのソフトを使うとケーブルが無いので(当たり前だ)何処がどう繋がっているかやや分かり難いものの、一度ルーティングを理解してしまえば何の問題も無い。

 そして音は・・・おお、飛ばない!
 ASIOバッファを詰め過ぎれば当然音は飛ぶが、逆に言うとそれ以外では音飛びは出てこない。

 まぁ短時間の確認なんでウン時間も流し続ければもしかしらたまに飛ぶのかも知れないが、少なくともMMEやDirectSound使っていたら間違いなく飛びが確認出来るだけの時間はかけたので、これは間違いなく改善している。

 ◇

 ということで、問題を解決したものの、それには結局追加投資が必要だということに。
 DonationWareってことは要するに試用期限が切られていないシェアウェアなんで、使い続けるなら送金しないと。
 ん~、背に腹は代えられないってヤツなのかなこれは。

 以上、今回はここまで。

Share

XTS-AESが漸く使えるようになったのでBitLockerについておさらいしてみた。

 さて、本日はBitLockerのお話でも。

 Windows10 1511では結構あちこちに手が入っているのは周知の事実。
 その中でも、個人的にはかなりの注目ポイントだと思われるのに、世間では全く取り上げられていないネタが一つ。

 「Windows10 1511からBitLockerでXTS-AESがサポートされた」

 漸くというか何で最初から無かったのといか、そういうレベルではあるが。

 これでBitLockerも漸く「世間並の暗号化強度」と胸を張って言えるようになりました・・・のだが。
 これが世間で全く注目されないということは、やっぱりストレージ暗号化なんて世間では全く流行っていないってことよね、コレ。

 一方で、従来Windows8から使われてきたAES-CBCについて、何だか微妙に誤解されているような雰囲気も。

 ということで、今回はBitLockerの歴史と暗号強度の話でもしてようかと。

 ◆

 まず、暗号化ってのは当然ながら強度が高い方がいい。
 但し実際には互換性や処理能力からどこかで「妥協」が発生するので、実際にはこの「妥協」点が適切か、という話になるのですよ。

 ◇

 ということで、まずは初代BitLockerから。
 いわゆるNT6カーネル→Windows Vista~7、2008~2008R2にて実装。

 暗号化モードはAES-CBCで128bit(こちらが標準)または256bit、更にElephant Diffuserが標準で付いてくるが、使用しない設定も可能。

 最大の特徴はElephant Diffuserという難読化(というか掻き混ぜというか)アルゴリズムを使っていることで、AES-CBCにおける攻撃耐性の弱さをこれでカバーしている。
 一方で欠点もElephant Diffuserに存在し、何しろコレはAESのような標準化された手法ではないのでハードウェアアクセラレーションが効かず、結果としてBitLockerの重さの主原因となってしまったと言われている。

 ちなみにこの初代BitLockerの詳細についてはMITのサイトに公開されているMSの論文(https://css.csail.mit.edu/6.858/2013/readings/bitlocker.pdf)にかなり詳しく書かれているので興味ある方は一読を。

 ◇

 次は2代目BitLockerから。
 いわゆるNT6.1カーネル→Windows 8~8.1、2012~2008R2にて実装。

 暗号化モードはAES-CBCで128bit(こちらが標準)または256bitのみ。
 恐らく速度を優先するために、Elephant Diffuserのサポートをしれっと切ってしまったというのが最大のポイント。標準として使用しないとしても選択肢として残すぐらいしておけば良かったのに、サポート切りってどうよ、と。

 さてそれではAES-CBCの何がそんなにマズいのか。

 先程も「攻撃耐性の弱さ」と書いたが、「特定の状況」では簡単に突破して解読出来てしまうのですよ、AES-CBCって。
 しかもこの「特定の状況」、攻撃者は暗号化キーを知る必要が無いという。

 これだけ訊くと「それじゃ暗号の意味ないじゃん」という方、ちょっと待った。
 この「特定の状況」って、攻撃者は暗号化キーこそ知る必要はないものの、それ以外の状況は結構特殊なんですよ。

 その特殊な状況というのは、攻撃者は暗号化キーは知らないが、最低限復号されたデータにはアクセス可能、というもの。
 個人ベースで一つの環境を占有していればこういう状況には遭遇しようがないが、一方でエンタープライズ系で集中鍵管理やっていたり、家族みんなで同じ環境使ってますなんて環境だと想定しうる事態なんですな。
 そのような状況では、例えば権限管理が甘いor突破されてしまうと、本来読めてはいけない筈のデータが読めたり書き換えできてしまったりする可能性があるんですわ。

 これがAES-CBCの攻撃耐性の弱さなんですな。
 エンタープライズでは複数のユーザーが権限を使い分けるなんて当たり前なので、こんな調子じゃとても許容し辛い。
 なので実際に(ディスクの暗号化が必要な)大多数の企業では、サードパーティ製でXTS-AES等の強度の高い暗号化が出来る専用ツールが導入されていたりするんですな。

 逆に言えば、個人が自分専用で使うUSBメモリのようなメディアなら、AES-CBCでも事実上十分な暗号化強度を持っていまっせ。そういう使い方ならアルゴリズムよりもキーの方の強度を心配しましょう、はい。

 ♯いくらAESが突破不能でも、辞書攻撃や総当たり攻撃で暗号化キーがあっさりヒットするようでは元も子もない。

 ◇

 そして3代目BitLocker。
 実装はWindows10 1511以降。WindowsServer 2016でも標準サポートしていると思われるが未確認。

 最大の特徴はXTS-AESを採用したこと。
 IEEEで標準化された暗号化アルゴリズムを採用することで、最近のCPUが備えるハードウェアアクセラレーションを活用してElephant Diffuser以上の難読化を高速に処理することが可能となった上、FIPS等の他の規格にも準拠し易くなったという良いことづくめ。
 勿論、エンタープライズの世界でも使い物になる。

 欠点はというと単純に昔の環境では見えないということぐらい。

 ちなみにWindows10 1511以降でしか使用しない前提ならば、XTS-AESを使用した方がAES-CBCより処理速度が速い上、強度も高いので選択しない理由は無い。
 ついでに言うとデフォルトはAES128のままだが、ハードウェアアクセラレーションが効いている環境ならAES256にしても誤差程度しか処理速度に差が出ないので、そちらに変更することをおススメ。

 ◆

 最後に、実際の設定方法。ポリシーで設定すること可能だが、個人的にはレジストリで。

 HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\FVE

 EncryptionMethodWithXtsFdv [DWORD] ←固定ドライブ
 EncryptionMethodWithXtsOS [DWORD] ←OS起動ドライブ
 EncryptionMethodWithXtsRdv [DWORD] ←リムーバブルドライブ

 1 →AES-CBC 128 /w Elephant Diffuser (Vista/7 Only)
 2 →AES-CBC 256 /w Elephant Diffuser (Vista/7 Only)
 3 →AES-CBC 128
 4 →AES-CBC 256
 5 →XTS-AES 128 (W10 1511~)
 5 →XTS-AES 256 (W10 1511~)

 ということになっております。
 ちなみにポリシーで設定する場合の場所はここ。

 グループポリシーエディタ(gpedit.msc)起動
 コンピューターの構成→管理用テンプレート→Windowsコンポーネント→BitLockerドライブ暗号化

 ・ドライブの暗号化方法と暗号強度を選択する(Windows8、Windows Server2012、Windows8.1、Windows Server2012 R2、Windows 10 [Version 1507])
 ・ドライブの暗号化方法と暗号強度を選択してください(Windows 10 [Version 1511] 以降)
 ・ドライブの暗号化方法と暗号強度を選択する(Windows Vista、Windows Server2008、Windows7、Windows Server2008 R2)

 ・・・この翻訳の揺れは何。

 ◆

 以上、本日はこんな感じで。

Share

勢い余ってAIEP3complete買ってしまった(後半)。

 さて、先日のXpand!2の¥100ぐらいセールに続き、勢い余ってAIEP3(AIR Instrument Expansion Pack 3 Complete)アップグレードまで¥9Kセールで買ってしまっていたので、レビューという程丁寧ではないが、ざっくり感想をば、その2。

 全体の感想とかは前回を見てもらうとして、以下続き。
 個別タイトルを、独断と偏見に基づき、☆の数で3段階評価。

 ◆

 ・Transfuser – ☆

 Webの説明読んでも意味さっぱり、実際触ってみると「あぁこういうことか」と分かるものの、んじゃそれを説明出来るかと言われるとまた困ってしまうというという、兎にも角にも実に説明し辛いソフト。

 説明っぽく言うと、短いフレーズやループパターンのシーケンサと音源が一体になっていて、キーボード等のMIDIコントローラを使ってリアルタイムにそのパターンや音を抜き差しして「演奏」するというもの。
 一昔前からシンセとか触っている人だと「RolandのMCシリーズGrooveBoxをAIRが解釈しなおしてソフトウェアにした感じ」というと伝わるかも知れない。

 なので、ライブパフォーマンスソフトの一種といった感じ。
 音出していると楽しいのは良いのだが、それ以外の使いどころが見当たらなくて。

 若しくは何となく「それっぽい感じ」を思い出したい時に使うとか。
 プリセットパターンは各種一通り揃ってはいるものの、逆に言うと一通り程度しかなくバラエティに乏しいので、伴奏自動生成ソフトのような使い方には苦しい。
 勿論自分で一つ一つのフレーズやパターンをコツコツ作りこんでいくことも出来るが、一通り組み上げるのはかなりの手間なので、ここにバラエティ豊かな各種音楽ジャンル向けのパターン拡張パックとかが揃っていたりしたら、もう少し違う展開もあったのかなぁとか思いつつ。

 ・THE RISER – ☆☆

 いわゆるシュワーンな音専用の音源。何でこんなもの作ってしまったのか分からんが、音出していると楽しいのよこれが。
 UIも視覚的に分かり易いし、音色の幅もこれが意外と広かったりする。キュルキュルキュルだとか。

 但し、実際問題トラックの中でこの音を使おうとするとEDM以外では相当難しく、個人的には飛び道具として紛れ込ませる程度しか思いつかない。要するに大多数には使いどころが無いという。
 なので、EDMとかでこういう音を多用する人以外は、敢えて狙って買うようなものでもない。

 とはいえ、あったらあったでシュワーン楽しいので、評価やや甘。

 ・DB-33 – ☆☆

 またしてもWizooお得意の、出音の割に軽いというトーンホイール(ハモンド)オルガン音源。

 トーンホイールオルガンの音自体は珍しくはなく、特にハモンドのサンプリングなんて何処にでもあると思うが、一方でドローバーで音作り出来るサンプリングではないオルガン専用音源って本格的なのはそう多くない気が。
 その点、コレはハモンド実機にあったパラメータを一通り備え、ドローバーで音作りも楽しめる。
 個人的にはオルガンの「実機の音」には特に拘りはないので、もうこれで十分な感じ。

 もちろん「物量作戦サンプリング音源」と比較したら「実機っぽさ」では勝負にならないので、念のため。

 ・MINI GRAND – ☆

 またまたWizooお得意の、出音の割に・・・というパターンなのだ、が。これはちょっと。Strike2と同じで「ソツない音」の傾向が明らかに裏目に出ている。

 価格やサンプル容量を考えれば相対的には頑張ってると言えなくもない気もするが、専用音源では2桁GBのライブラリ容量なんて珍しくもない時代。パッキングに混ぜるなら兎も角、メロディ張ろうとすると音の平坦さが気になってしまう筈。

 個人的にピアノの音には結構拘りがあるのと、ピアノの音に関してはナチュラル感追及の薄味より嘘臭くてもギラギラな音の方が好き(自分がこうなったのは某Y社のAWMとかいう音源のせい)なせいで辛口評価かも知れないが、傾向的にはWizoo=AIRの生音は全てこんな感じなので、ドラム音の空気を震わす感が好きな人にとってはStrike2なんぞ存在しない扱いなのかも知れないし、オルガン実機の音に拘りがある人だとDB-33が「Hammond B3っぽいの」と名乗っていることすら許せないかもしれない。

 兎にも角にも、他にピアノの音源が無ければ使ってもいいかも知れないが、積極的に選ぶ理由は特に無いかと。

 ・AIR Creative FX Collection PLUS – ☆☆

 最近のDAWって低価格品でも付属のエフェクトが充実してきているのと、フリーでも優秀なエフェクトも結構あったりするので、敢えてここでエフェクト詰め合わせが何で必要なの、とか言われると難しいところもあるが。

 ポイントは、一定品質のエフェクトを一通り揃えられる、というコトかなと。間違いが無いというか。
 悪く言えば無難とも言うが、出自と実績からして相当カタい無難でっせ。

 あるいは「出発点」として丁度良いのではないかと。
 スタートラインに立ったので、後は特に気になるエフェクトだけ単品で仕込んでいくとか。

 ◆

 ・・・後半は何だか全体的に評価低めのものが集まってしまったような。

 以上、こんな感じで。
 次はBlack Friday・・・ぃゃぃゃぃゃ。

Share