letter music

日々更新される音楽情報を雑談を交えて文字化するWebzine

ザ・ビートルズ、TR-808、そしてAIへ――ソニーコンピュータサイエンス研究所パリ・音楽チームの研究者が語る「作曲」の未来

ソニーコンピュータサイエンス研究所パリ(ソニーCSLパリ)の音楽チームにて、AI作曲アシストツールなど最先端の音楽テクノロジーの研究開発を行っているエマニュエル・デルティーさんが今年1月に来日しました。

エマニュエルさんは、フランス・パリのコンセルヴァトワール(パリ国立高等音楽院、CNSMDP)を卒業。ソニーCSLパリのメンバーとなる前は、フランス国立音響音楽研究所(IRCAM)とニューヨークのSoundwalkでサウンドデザイナー、ヨーロッパとアメリカでは映画音楽の作曲、イギリス、ケンブリッジの『Sound on Sound』誌のライター、フランス・レンヌにあるフランス国立情報学自動制御研究所(INRIA)では、MIRに適用される音楽学のコンサルタントとして、またIRCAMとAkoustic Artsの研究チームのメンバーとして働いていたという経歴の持ち主。

今回はそんなエマニュエルさんが、音楽制作の分野におけるAIの活用をはじめ、自身が研究テーマとして取り組んでいることやフランスの名門音楽学校である母校のこと、また日本の音楽テクノロジーに関する印象などについて見解を聞かせてくださいました。

エマニュエル・デルティーさん

ソニーCSLパリならではの研究開発プロセス

ーーエマニュエルさんご自身の研究テーマについて教えてください。

私の所属する音楽チームの研究には2つの側面があります。1つは音楽家が利用できるテクノロジーの開発であり、もう1つは開発した技術を社会実装する方法を模索するというものです。簡単に言えば、コンテンツを作るクリエイターとテクノロジーをうまく適応させる方法について研究しています。

1950年代から音楽の録音に使われていたテクノロジーを、音楽を制作する面に応用する動きはありました。例えば、レコーディングした音源の再生スピードを変えたりすることで、新しい音楽を作る方法です。ザ・ビートルズはそのようにして、従来の音楽とは全く異なる音楽を作り出しました。

youtu.be ザ・ビートルズの「レコーディングした音源の再生スピードを変え」る制作手法の解説動画

また1960年代にシンセサイザーができたことで、自動的に音を合成することができるようになりました。そこで課題となったのは、それをどうクリエイティブに使うかということです。同じように現在はAIの分野において、人間の指示通りに音楽を作ること自体はできる一方、予想外のものが飛び出してくる可能性もあるという課題があります。しかし私にはそのこと自体が面白く、様々な可能性が生まれる機会にできればと思い研究をしています。

ーー具体的にソニーCSLパリではどのようなことに取り組んでいるのですか?

ソニーCSLパリの音楽チームではテクノロジーの研究と開発をしていますが、研究者だけでそれを行うのではなく、ミュージシャンと一緒に働きながら、新しいテクノロジーを作っていくことが大切だと考えています。欧米のソニー・ミュージックエンタテインメント(SME)やソニー・ミュージックパブリッシング(SMP) はテクノロジーの利用に積極的ではないところがあります。そのような状況を踏まえて、私たちとしてはレコード会社側にテクノロジーを押し付けるのではなく、まず所属するミュージシャンにテクノロジーの有用性を説明し、利用してもらうことで、結果的にレコード会社にも私たちの技術を評価してもらう手法をとっています。

実際に、ある音楽ディレクターは、私たちの技術を使った所属ミュージシャンからソニーCSLパリの技術を知りましたが、今では広くSME/SMPフランスのスタッフ間にも広く私たちの技術が知られています。また、ロンドンを拠点とするSMP UKでも、ソニーCSLパリの開発した技術が楽曲制作の現場で実際に利用されています。

音楽制作と技術研究には大きな違いがあり、両者のギャップを埋めるためには工夫が必要です。したがって、私たちの研究は伝統的な音楽研究とは異なり、新しい音楽を作るための技術を開発し、それをソニーのビジネスに貢献することを目標としたものになっています。

ミュージシャンと研究者の“コモングラウンド”を作るには

ーーご出身のCNSMDPやIRCAMについて教えてもらえますか?

CNSMDPは、フランス音楽の伝統を受け継ぎ、それを守ることを目的に設立された1795年から存在する歴史ある音楽学校です。最近ではより現代的な音楽にもアプローチするべきだという考えが学校側にもあり、私が在籍していた頃は、より現代的なレコーディングが学校のテーマのひとつになっていました。

一方、IRCAMは1974年からある音楽の研究所で、ここではテクノロジーと音楽を並行して研究しています。普通、音楽とテクノロジーの研究はそれぞれ別々の目的で行うものなので、両方を一緒にやっていくことはすごく珍しいのですが、その意味ではソニーCSLパリと似たアプローチを取っていると言えます。

ただ、活動内容の違いがあるとすれば、IRCAMでは、いわゆる現代音楽と言われる種類の音楽を作っているというところです。ソニーCSLパリでは、ポップミュージックのような比較的幅広いリスナーのいるポピュラーな音楽を作っているミュージシャンと一緒に研究をしています。

ーーそこで勉強や研究している人の中には実際に音楽のプレイヤー経験や作曲経験があるのでしょうか? ミュージシャンと研究者では音楽に対する考え方も違う気がするのですが、一方で演奏や作曲の経験はお互いの共通言語になるように思いますがいかがでしょうか?

音楽制作の研究においては、楽器を演奏できることが必ずしも共通言語になるとは思いません。それよりもDAWなどの音楽制作ソフトについて研究することで、研究者同士が共通の理解を持つことができる“コモングラウンド”を作り出すことができると考えています。

ソニーCSLパリでも研究するためには現代的な音楽制作について、理解がある人たちを集める必要がありました。なぜなら現代的な音楽制作の研究をするには、バックグラウンドとしてクラシック音楽に通じているだけでは不十分であり、現代的な音楽制作に関する知識が必要になるからです。多くの人は楽譜を読めなくても、PCを使って楽しく音楽制作しています。しかし研究者という人々は得てしてAIを使って楽譜を生成しようとするので、制作実態とのギャップが生じがちなのです。

楽譜・コンポーザー至上主義からの脱却が必要

ーー現在のDAWはミュージシャンと研究者の間にある共通言語として完成形だと思いますか?

DAWが完成形かどうかはあまり重要ではなく、現代のミュージシャンがDAWを使って音楽を作る方法を研究者が理解することの方が重要だと考えています。また、DAWはあくまで現在の例のひとつであり、それが共通言語としての完成形かどうかはまた別の話だと思いますね。

同僚の研究者には、伝統的な音楽の考え方のままであればコンポーザー――たとえば「モーツァルト」のような――をすごくリスペクトしなければいけないけれど、現代において新しい音楽を創作しようとするのであれば、自分たち研究者もミュージシャンと一緒に――これまでのルールに縛られずに――創作することが必要だと教えています。確固たる名声のあるコンポーザーたちに対して過度なリスペクトを持たないくらいにならないと、自由な発想で新しい音楽を生み出すことは難しいと思うからです。

例えば、デヴィッド・ゲッタのアルバム『Listen』には32人のミュージシャンがクレジットされていますが、その32人から出てくるアイデアを全部採用するのではなく、そのうちのごく一部の良いアイデアだけを採用する形で作られています。このように、現代の音楽制作では、多数のアーティストからのアイデアを採用していますが、そのうちの一部がAIによるものに置き換えられたとしても、私としては特に違和感はありません。

open.spotify.com

確かにモーツァルトの時代はコンポーザーが1人で作曲していたので、そのプロセスのすべてに関わるコンポーザーという存在がリスペクトを一身に集めていましたが、現代の作曲は複数のミュージシャンが参加することが普通です。出てくるアイデアをすべて使うわけではないという意味でも、作曲プロセス自体があまり重要視されていない印象です。

要は、砂遊びでいえば大きな砂場があることよりも、砂を使って何を作るのかが大切なように、明確な目標やルールを設けずに自由に考えて創作する中で、いかに面白いものを作れるのかが重要だということです。AIを作曲に利用するということも、この考え方の延長で捉えるべきだと私は思います。本来、機械学習では学習データに対する結果の適合性や正確性が重視されています。しかし、少なくとも現段階のAIを使った音楽制作においては、学習データに対する結果の正確性はあまり重要ではありません。それよりもAIを使うことで面白い音楽を作ることの方が重要だし、AIを使った結果に重点を置いて考えるべきだと思います。

AIが生み出す独自の音とは

AIを音楽分野において活用しようとなったとき、どのような経路で世の中に現れてくるものなのでしょうか。

大別すると4つに分けることができると思います。ひとつはアカデミックリサーチで、PoC(概念実証)のように実例を用いた論文とセットで提出する必要があります。そこで用いられる機械学習のテクノロジーは最先端のものではありますが、生まれる音楽自体に面白みはあまり感じられません。

次に、ソニーCSLパリも取り組んでいる、ミュージシャンと一緒に行うAI技術を活用した音楽制作のプロジェクトです。これの特徴であり欠点でもあるのは、AIが作ったパートとミュージシャンが作ったパートの違いがわかりづらいので、世間的なインパクトも少なくなるということですね。

DrumNet:入力した既存のオーディオに合わせてドラムのリズムを生成する、インタラクティブなAIツール。2次元平面上に点を置いて演奏スタイル(実際のさまざまな音楽ジャンルからAIが学習して作られている)を選択すると、テンポやブレイク、フレーズなどのさまざまな要素をオーディオに合わせて実現してくれる。

DrumNet - Music Team at Sony CSL Paris

BassNet:ある音楽プロジェクトに必要なベースラインをインタラクティブに探すことができるAIツール。ベースラインはまったくのゼロから作り出されるのではなく、プロジェクトにすでにある素材に反応するように設計されている。

BassNet | Sony's Technology Hub

そして、Open AIの「Jukebox」のようなAIによる自動音楽生成です。これはボタンひとつで音楽生成できるという便利さがある反面、 AIによって自動生成される音楽は、現段階ではありふれたものが多く、クオリティもまだ低いため、ひとつめとは別の意味で面白みに欠けると思っています。私たちが開発したいのは、ミュージシャンが好んで使う技術であって、ボタンひとつで自動的に音楽生成する技術ではありません。音楽は人間の手で、人間のために作られるという考え方が好きなのです。

そして​​最後に、AIを搭載した音楽制作ツールの販売です。これはSteinberg社​​など音楽機材メーカーが新しいテクノロジーとしてAIを搭載したツールを販売するということですね。​​

ーーAIがメロディーやリズムを生成することは比較的簡単である一方、新しいサウンドを作ることは大変だと聞きます。それはなぜなのでしょうか?

まず音楽のデータ量について、楽譜とオーディオデータを比較すると、オーディオデータのほうがデータ量が遥かに多く、このことがAIで新しい音を作る際に大きな課題となるからです。最近はDiffusionモデルなど、ディープラーニング技術を使って音楽を作ることも簡単になってきてはいますが、まだまだAIで本格的な(楽譜を前提としない)ポップミュージックを作ることは難しい状況です。

そもそも、オーディオ生成においては技術的な制約だけでなく、音楽を作る意図に沿った要素をどのようにコントロールするかを決めることにこそ難しさが伴うのです。楽譜と比べ、オーディオではコントロールできる要素が多く、作り手はまず制御する要素を決める必要があるのですが、AIにとってはまだそのことが難しいのです。

ーーソニーCSLパリでは、すでに新しいサウンドを作ることに特化したDrumGANなどの音生成技術も発表しています。

そうですね。例えば、DrumGANは、バスドラムやスネアなどの音を生成するだけでなく、データ容量が非常に軽いものとして生成することが可能なAIモデルです。Steinbergの「Backbone」というプラグインにはこのDrumGANが搭載されており、これは商用リリースされた初のAI搭載ドラムシンセサイザーということになります。ミュージシャンと協力しながら研究開発を進めているため、こうした商用ベースで利用できる技術を開発・提供できるのはソニーCSLパリの強みだと言えますね。

youtu.be

過去には、TR-808のように「本物のドラムの代わりになるような機材を」という本来の目的からすれば失敗作だったかもしれませんが、その音色が独特なものだったため、ミュージシャンの間で面白がられるようになったという事例があります。AIでも同様のアプローチを取ることが重要であり、従来とは異なる手法を取り入れることがこういった従来とは違う新しいものを生み出すツールを開発していく上で求められているように思います。

研究者の多くはAIが作る音を実際の楽器の音に近づけるための研究をしがちなのですが、私はこういった研究の本来の目的はAIが生み出す独自の音を理解することにあると思うので、そのことを考えるようにと、同僚の研究者たちにはよく言っています。

日本発のテクノロジーや文化は今?

ーーエマニュエルさんが個人的に現在特に関心を持っているテーマは何でしょう?

西洋の伝統的な音楽と現在の音楽の間にある違いについて、先ほどコンポーザーに関する話の中でも触れましたが、基本的に従来のミュージシャンたちは、ほとんどの音楽を楽譜に落とし込むことができると考えています。そのため、例えば、楽譜にピッチが記載されていれば、それは正確であると見なされる傾向がありました。​​

でも今、流行しているイギリスやアメリカの音楽を聴くと、必ずしも楽譜に落とし込まれていない音楽が多くなってきています。現代の音楽を再現するためには、従来の楽譜に落とし込むというアプローチ自体が変革されていってもよいように思うんです。

これまで多くのミュージシャンは、文化的にも様々な音楽の音を楽譜に落とし込むことができると教育されてきましたが、新しい音楽を作るためには、その考えに縛られすぎてはいけないと個人的に考えています。現代の「音楽は楽譜に落とし込むことができる」という考え方以外にも、新たなアプローチがあるということを証明したいと思っています。

(下記リンクはエマニュエルさんによる論文。カニエ・ウェストのアルバムを例にとりつつ、楽譜によっては記述することのできない「ピッチ」の概念が、現代の音楽制作においては重要であることが記されている)

medium.com

ーー最後に、日本発のテクノロジーや文化について開発者の視点から興味深いと思う点があればお聞かせいただけますか?

80年代~90年代には日本発の面白い音楽テクノロジーがたくさんあったと思います。例えば、TR-808のドラムの音は現在では耳にしないことがないくらい定着していますが、一方で現在の日本の音楽テクノロジーが世界に影響を与えることは少なくなってきているように思います。

その原因はもしかしたらJ-POPの音楽へのアプローチの進歩が止まっているためかもしれませんね。J-POPは、近年のアングロサクソン音楽(よりオープンで自由な音楽形式)よりも、西洋のバロック音楽(ベース、コード、メロディーからなる音楽形式)と関係が深いように思います。イギリスやアメリカの音楽はそこから次の段階までうまく進展していった印象があります。

日本の音楽ビジネスに関して個人的に感じるのは、プロモーションやその中での表現に力を入れすぎており、音楽そのものを押し上げる大きな動きが見られないということです。そういう意味では今、J-POPと呼ばれているものにあまりイノベーションを感じません。これは日本社会が過去の偉大なミュージシャンをリスペクトしすぎているあまり起きていることなのかもしれません。

AIは音楽を単なる音波として捉えるので、従来の音楽制作における「リスペクト」のような感情的な側面は排除されてしまいます。でも、それがAIの面白い点であり、これまでにない新しいイノベーションとは、そういうところから生まれるのかもしれませんよね。

取材・文:Jun Fukunaga

*オリジナル掲載先のSoundmainサービス終了により本サイトに移管(オリジナル公開日は2023.04.12)