letter music

日々更新される音楽情報を雑談を交えて文字化するWebzine

AIと音楽家がよりクリエイティブな関係性を築くには? AI研究者・アーティスト・DJの徳井直生(Qosmo Inc.)に訊く

昨年はイラストなど、ビジュアルの分野で画像生成AIの活用に注目が集まりました。音楽制作の分野においても、Soundmain Studioにも搭載されている音源分離・歌声合成機能を始め、AI技術を活用したさまざまな音楽ツールが発表されています。

2023年以降の音楽制作におけるAI活用はどのようになっていくのか。その可能性を探るべく、慶應義塾大学で教鞭をとる傍らAIツールを開発する企業・Qosmoの代表を務める徳井直生さんにインタビューを行いました。

徳井さんは、AIを用いた人間の創造性の拡張を研究と作品制作の両面から模索する活動に取り組んでおり、これまでに手がけた作品は、ニューヨークMoMA、ロンドン・バービカンセンター、NTTインターコミュニケーション・センター、アルスエレクトロニカなどで展示されています。2021年の単著『創るためのAI――機械と創造性のはてしない物語』は技術的・歴史的な文脈を丹念に辿りながらAIと人間の創造性の関わりについて著し話題に。AIとステージ上で共演するDJパフォーマンスにも長年取り組んでおり、昨年12月に東京で開催されたMUTEK.JP 2022ではその最新バージョンをパフォーマンスしています。

今回はそんな徳井さんに、AI DJに取り組む理由や、画像生成AIと音楽生成AIの技術的な違い、AI作曲を始めとした人間とAIの対話から生まれるクリエイティブなど、AIを使って音楽を作ることの可能性やその本質について伺いました。

「AIジョッキー」的ライブパフォーマンス

ーー経営者や大学教授などさまざまな顔をお持ちの徳井さんですが、個人としてAIの分野で取り組まれていることについてまず教えていただけますか。

僕自身の活動としては2000年前後から継続して、「まだ誰も聴いたことがない音楽を作る」ということをテーマに取り組んでいます。元々DJをやったり楽曲を作っていたこともあって、5年ほど前からAIを使ったB2BのDJなどをやっていました。ここ1年半はそのAI DJの取り組みをもう一歩進めて、AIを使って選曲するのではなく、リアルタイムでAIモデルが生成する音を使って、それをステージ上でミックスするというパフォーマンスを行っています。

ーーそうした活動を始めた理由を教えてもらえますか?

曲作りでAIを使い始めたのは2000年代初頭くらいで、当時はNujabesのようなアーティストとも一緒に楽曲制作していました。その頃に考えていたのは、AIのシステムがあればいろいろなフレーズやリズムの可能性を効率的に試せるということです。またその結果として、自分1人では考えつかないような音楽が作れるようになるとも思っていました。

AI DJに関しては、はじめは全自動でAIにやらせようとしていたんです。ただそのやり方だとどうしても意外性がなく、こじんまりしたパフォーマンスになってしまう。そこでAIとのB2Bというやり方にすることで、僕自身がAIにとっての“ノイズ”としてそのシステムに介入することで、AIだけでも、僕だけでも思いつかない選曲が実現できるようになると考えました。そこから発展して、現在やっている形のパフォーマンスに至ったという感じですね。

ーー現在、取り組まれているAIを使ったパフォーマンスの技術的な背景について教えてもらえますか?

少し前まではMIDIを使いながら、リズムやそれに合ったベースラインの音を生成するAIモデルなどをいくつか使って試すということをやっていました。でも、その形だと人間の手だけでは多くのシンセやリズムマシンの音色をリアルタイムで即座に選択して、かつ、それらが調和する形で展開を作りながら音楽を作っていくのはかなり難しいんです。なのでそのやり方は一旦諦めて、今はリアルタイムに音そのものを合成する音響合成を用いたやり方にしています。

このやり方になったのは、単純に2年前にはできなかったことが今は技術的にできるようになったことも大きいですね。AIを使ってMIDIを生成していく技術自体は、僕がAIを使い始めた頃からありましたが、AIがリアルタイムで音響合成するということは最近になってようやく実現できるようになったことなんです。

仕組みとしては、画像生成のアルゴリズムであるGAN(※)をスペクトログラム(周波数×時間×振幅の3次元データ)の生成に応用するものになっています。ただ、スペクトログラムには位相の情報がなく、単純には逆変換できないので別のGANを使って、WAVなど波形に逆変換させています。

※ GAN(生成的敵対ネットワーク):AIのアルゴリズムのひとつで、生成器(Generator)と識別器(Discriminator)という二つのニューラルネットワークを「敵対」させることで学習を行うというもの。生成器は学習データに含まれるデータのパターンを学習し、ランダムなノイズ(乱数)を入力として学習データに類似するデータを生成するように学習を進める。それに対して識別器は、入力されたデータが生成器の学習データに含まれるいわば「本物」のデータなのかをより正確に識別しようと努める。この二つのネットワークがお互いを出し抜こうとすることで学習が進み、最終的には学習データにそっくりなデータを生成できるようになる。(『創るためのAI』より解説を抜粋、一部改変)

そして、リズムやベースラインなどの音を学習させたAIモデルを複数用意しておき、それぞれのAIから出力される音を僕がDJとして、ステージ上でリアルタイムでミックスしています。その際は細かいスペクトログラムを生成するAIモデルの細かいパラメータもモーフィングさせていきますが、このやり方だとモーフィングに関しても普通のDJパフォーマンスではできない独特の面白い効果を生み出すことができます。

正直、音質面ではまだまだ普通のソフトシンセと比べると劣りますが、その代わりにさっき話したように独特のモーフィングのさせ方であったり、バリエーションをいくらでも作り出せるなど即興性の高いパフォーマンスができるのもこのやり方の特徴です。

なるほど。トラックの抜き差しで曲を構成していくダブミックスに似ていますね。

そうかもしれませんね。AI DJと銘打ってはいますが、DJというよりは、AIをリアルタイムで手なずける“AIジョッキー”と言えるものになっていると思います。既存のものの中では、Ableton Liveを使って、自由にリズムやウワモノなど各パートを組み合わせたり、音数を増やしたり、減らしたりできるDJが、感覚的には近いかもしれません。

MUTEK.JP 2022でも披露した最新パフォーマンスでは、映像もAIがリアルタイム生成したものが流れた

「AIがクリエイティブな仕事を奪う」という誤解

ーー昨年、画像生成AIが出てきた際にはクリエイティブ職が仕事を奪われるのではないかという「AI脅威論」が再燃しました。今後音楽領域にもAIが浸透していくにあたって、なぜこうした論調が出てくるのか徳井さんの見解をお聞きしたいです。

AIに対して、何でもできて、絶対に間違いを起こさない“完璧なもの”だったり、人間を模倣することで効率よく大量生産できるから自分が置き換えられてしまうという印象を持つ人はまだまだたくさんいる印象は確かにありますね。

ただ、実際にはAIに人間を真似させたとしても、どうしてもAIには再現できない部分もあるんです。僕がやっているAI DJにしても、もちろんAIでできないことはあります。

一方でAIには、人間の能力では今までできなかったことができるようになるという、表現そのものの可能性の部分でのメリットもあります。

つまり、AIを使うことで人間が人間にしかできない部分にもっとフォーカスできるようになれば、人間ができる表現自体も拡張していくはずなんです。僕としてはAIをそういうものとして捉えているので、自分の活動を通じて、そのイメージを音楽家の人に伝えていきたいと思っています。

ーー現在の音楽シーンでもAIは音楽プラットフォームのパーソナライズ機能をはじめ、作曲アシスタントツールやサンプル生成などさまざまなかたちで活用されていますが、他にはどのような音楽シーンにおけるAI利用の可能性が考えられますか?

たとえば僕が経営するQosmoでは、AIが季節や時間、店内のインテリアなどから判断して、お店に適したBGMの選曲をしてくれるUSENさんのAIチャンネルの開発に関わっています。

最近では、作家性を問われることが少ない睡眠や集中力を高めるためのBGMの楽曲生成にAIが使われることも増えていますね。音源分離の他、音源の自動ミックスにもAIが使われるケースがあります。

あとは昨年話題になった画像生成AIの「Midjourney」や「Stable Diffusion」の音楽版――テキストから音楽を自動生成する――の登場が今年の大きなトピックになりそうな予感がします(徳井さんより補足:このインタビューの直後、まさにそのようなシステムである「Riffusion」が発表されました)。とはいえ、そういったものは仕組み上、AIが学習したフレーズや音楽スタイルの切り貼りのような形で音楽を生成するため、それが音楽家の創造性を高めるものになるかどうかと言われると個人的には懐疑的ではあるのですが。

ーーちなみにそういった「AIが作る音楽」が一般的に普及した場合、人間が作る音楽とはどういった形で棲み分けが進んでいくと思いますか?

基本的にAIは音楽理論的に正しいものなど、最大公約数的なものを生成するのが得意なんです。でも、そのような中からは新しい音楽スタイルは生まれにくいと思うんですね。

例えば、ノイズだと思っていたギターフィードバックが実はかっこいいとか、バッハの時代であれば不協和音にしか聴こえないような音でも、少し時代が経ってモーツァルトの時代になると美しいとされるなど、音楽の歴史を振り返るとそういった表現の拡張がこれまで何度も行われてきました。

そういったことが起こるのは、人間に身体があるからこそです。結局、音楽理論的におかしいものでも身体が心地よいと感じたり、頭でかっこいいと感じるのであれば、既存の音楽理論は関係ない。AIにはそういった人間的な気持ちを認識するという部分がないので、今後はそういった意外性の部分での棲み分けが進んでいくと思います。

ーーAIを使うことによって人間の表現を拡張できる環境が広がったとしても、人間が音楽を作りたいという気持ちそのものがなくなることはない?

そう思います。僕自身はあまり音楽を通じて何かメッセージを伝えたいというタイプではないのですが、それでも人間が自分の感情を伝えたいと思うこと自体は今後もずっと続いていくと思います。逆に、特に感情を伝える必要がないBGMの制作のような仕事については、AIの普及とともに人間は担わなくなっていくでしょう。

一方、今後は個人的な感情やメッセージを伝えるための手段のひとつとしてAIを使う機会も増えていくと思います。そうなったときに、AIが提示してきたものがどこかで聴いたことがある、ありふれたものだったとしたら、「自分の伝えたいと思っていた感情を表す音楽ではない」と感じると思うんですよ。そうなった時に初めて、多くの人の中に「AIを使ったとしても、その枠の外にはみ出して何か新しいものを探そう」という意識も自然に湧いてくるんじゃないかと思います。

実際にカメラができたことで写実的な絵を描くことがつまらないと感じるようになったピカソが出てきましたが、逆にそれでも写実的な絵を描くという人もいて、そこに新しい価値が生まれるということもありました。

音楽もそれと同じというか。たとえばRolandのTR-808にしても、元々は人間の演奏を模倣しようとして開発されたものですが、模倣しきれなかったことでヒップホップやドラムンベースなど、これまでとは全く違う新しい音楽ジャンルが生まれました。また、その後にはやっぱり人の手でドラムンベースをやりたいと思う人も出てきたり、機械を人間が模倣するという逆の流れができたり、そういった模倣のし合いの中からも新しいものが生まれています。

そう考えると「AIによって人間のクリエイティビティが損なわれるかもしれない」という悲観的な見方に対しては、「人間のクリエイティビティはそんなところでは終わらない」と返すことができますね。

AIを「誤用」するためのツール開発

ーー音楽生成AIを使って作曲をする際におすすめのアプローチはありますか?

積極的にAIを「誤用」することだと思いますね。AIだからといって、必ずしも「正解」を期待しなければいけないというわけではなく、もっと自由に、あえて間違った使い方をやってみる。例えば、AIが提案してくるおすすめのコード進行をあえて崩してみる。

最終的にはそれで自分が気持ちいいものができるかどうかだと思うので、AIの提案を鵜呑みにしなくてもいいと思います。あとは、AIを使ってこれから作る曲の方向性をたくさん作り、ブレストの相手として使うという方法も考えられますね。

今後、「AIとの作曲」をより身近なものにするためのハードウェアやインターフェースについてのアイデアはありますか?

前提となるのは、先ほども言ったように「誤用」できるものであるということ。その上で、ミュージシャンが簡単にDAW上で使えるツールを作るということですね。そういった考えから、2019年にMIDIベースで簡単にリズムを生成するモデルを学習して利用できるシステムをパッケージしたMax for Live向けのデバイス「M4L.RhythmVAE」をリリースしています。

M4L.RhythmVAEのデモ映像。解説記事はこちら

また、リアルタイムで音響処理できるAIモデルをパッケージした「Neutone」という製品をリリースしています。プラグインの形になっているので、それぞれの普段使っているDAW上で使うことができます。コミュニティ型のプラットフォームとしての機能も備えていて、AI研究者やエンジニアが開発したAIモデルをクリエイターと共有することができるようになっています。

Neutoneのデモ映像。

なぜこういうものを作ったかというと、AI作曲を身近なものにしていくためにはクリエイターが自分で使うAIモデルを自分自身で学習できるからなんですね。それによって、AIを誤用できる幅が広がるわけです。

例えば、ミュージシャンが使うDAWなど音楽制作機材は、なんとなく“完璧なもの”が求められるようなイメージがあると思います。だからAI作曲ツールを使う際にも、どんなジャンルでも使える賢いシステムが必要になるという思い込みが生まれている気がする。

でも、AIも道具であると考えれば、ミュージシャンはそんなに汎用性のある道具を求めているわけではないんじゃないかとも思うんです。AIでありとあらゆるスタイルの曲を作りたいというわけではないと思うんですよね。好きなタイプの曲に関して学習して、それをうまく自分の制作に使える感じの「小さくてちょっとおバカなAIモデル」を学習のところから簡単に自分でシステムに応用できるような仕組みを作ることができれば、作曲におけるAIの活用がより身近なものになっていくんじゃないかと思っています。

AIが得意なこと、不得意なこと

ーーせっかくなので、AIがどのように学習を行っているかについても簡単にお聞きしていきたいです。まず、音楽生成AIと画像生成AIの違いはどういったところにあるのでしょうか?

僕のパフォーマンスで使っている音楽生成AIは、画像生成AIで使われているGANというアルゴリズムに基づいているので、基本的にそんなに大きな違いはありません。でも音楽の場合は、WAVのように波形で扱うのか、あるいはMIDIで扱うのかというように音楽をどのレベルで表現するかという課題があります。そこが画像生成AIとの大きな違いですね。

AIを使った音楽生成は、少し前まではMIDI形式での生成がほとんどでしたが、それは単純に生成しなければいけないデータ量が関係しているからです。例えば、CD音質のWAVの場合は、1秒間に生成しないといけないサンプルの数は画像に比べて膨大な量になってしまいます。また音楽の場合は、時間経過という要素もあるのでその前後関係を把握した上でサンプルを生成しなければいけないので技術的に難しかった。でも、最近の技術の進化によって波形を生成する技術も出てきました。

www.qosmo.jp ※Qosmoが音楽領域での最新AI活用事例をまとめたホワイトペーパー(無料でPDF配布中)


ーー時間経過の話もでてきましたが、AIによる音楽の学習もやはり時間経過に沿って行われるのでしょうか?

基本的にはそうですね。音楽の場合は冒頭に出てきたフレーズが後半になってメインのフレーズとして現れるようなものもあるので、時系列の依存関係を解決することが必要になります。ただ、それはAIが苦手とする領域です。

例えば、チャットbotの場合だと数年前の時点である程度の文章自体は生成できましたが、その頃はまだそれが繋がって長い文章になった時にちゃんと整合性がある文章は作れませんでした。でも、最近ではそれが改善されてきたことで、ChatGPTのようにすごく整合性がある文章を作れるものも出てきたんです。

音楽の場合も、MIDIレベルではかなり整合性があるものを生成できるようになっています。しかし、音響レベルでは先ほど言ったように時間的な依存関係やデータ量の問題があるため、整合性があるものを生成するのが難しい。とはいえ、僕のパフォーマンスで使っているような小節単位でリズムなどを生成できるAIモデルはすでに存在していますし、最近はその部分も少しずつ改善されつつあります。

ーーDAWの登場によって音楽制作にはパート分けを視覚的に表現するレイヤーという概念が浸透しました。AIによる音楽の学習・生成においてもそういった概念があるのでしょうか?

MIDIレベルだとAIモデルはパートごとにトラックを分けて生成していくことができますが、音響レベルでは違います。

これに関してはOpenAIが公開している「Jukebox」というシステムが良い例です。そのシステムではアーティスト名とジャンル、歌詞を指定すると、そのアーティストがその通りに歌ったものが波形として生成されるのですが、このAIモデル自体は一切音楽的な構造に関しては学習していません。

簡単に言えば、CDに入っている音楽の波形そのものを丸暗記しているようなものですが、現時点の音響レベルでは音楽的な構造をきちんと理解させた上で生成するよりも、こういった形で単純にデータとして扱った方がうまくいくんです。

ーー音声分野に比べて画像分野のほうがAI活用の技術革新が進むのが早いように見えますが、どうしてでしょうか?

これも一番の理由はデータ量の違いですね。今の深層学習技術が急に進歩し始めたのは2011年前後ですが、結果的にその技術が最初に画像認識の分野で使われるようになり、のちに画像生成の分野に繋がることになりました。

また2008年頃にスマホが登場したことで、みんながSNSで画像をアップロードするようになったのも大きいです。単純に学習のための教材が爆発的に増えたんですね。あとは身も蓋もない話ですが、画像は音楽よりもマーケットが大きいことも理由のひとつかもしれません。

音楽の場合はBGMのように、あくまで環境音楽としての機能だけが求められる市場も存在しますよね。一方でイラストの場合は、たとえAIに生成させた場合でも誰がその命令を下したが重要視されるなど、音楽よりも人が介入していることが重要視されやすい傾向があるように思います。こういった差異についてはどうお考えでしょうか?

確かに現時点ではそういう捉え方ができるかもしれませんが、僕は将来的にはイラストも音楽と同じようになっていくと思います。例えば、今はまだ僕らは本なり、Webブラウザなりでテキストを読んでいますが、 将来的にはそこに自動的にイラストや挿絵が追加されるようになるかもしれません。AIはそういうこともできてしまうんです。

そう考えるとAIの普及によって、イラストなどビジュアルの分野にもBGMのような、なんとなくそこにあっても気にならない、流し見できるようなものへのニーズが生まれるのかもしれません。

ーー最後に、徳井さんがAIの研究開発やそれを使った表現を今後どのようなスタンスで続けていくのか、改めて教えてください。

最初に言ったように、僕自身はまだ知らない、聴いたことがない音楽を自分の手で形にしたいという思いがあって音楽生成AIの開発に取り組んできました。すでに存在する音楽様式を作ることに関してはAIが自分の代わりにやってくれるというのであれば、そこはAIに任せて、「そこから半歩でも外に出て行こう」というスタンスです。

今後もスティーヴ・ジョブズの名言「宇宙にへこみを作りたい」じゃないですけど、既存の音楽の枠の外にちょっとだけでもいいので出っ張りを作りたいという気持ちで人間の可能性を拡張していくことに取り組んでいくつもりです。

取材・文:Jun Fukunaga

徳井直生 プロフィール

アーティスト/研究者/DJ。AIを用いた人間の創造性の拡張を研究と作品制作の両面から模索。AIを用いたインスタレーション作品群や音楽作品で知られる。これまでに手がけた作品は、ニューヨークMoMA、バービカンセンター(ロンドン)、NTT InterCommunication Center、アルスエレクトロニカなどで展示されている。また、AI DJプロジェクトと題し、AIのDJと自分が一曲ずつかけあうスタイルでのDJパフォーマンスを国内外で行う。2021年1月には、これまでの活動をまとめた『創るためのAI 機械と創造性のはてしない物語』を出版 (2021年度大川出版賞受賞)。 東京大学工学系研究科博士課程修了。工学博士。慶應義塾大学SFC准教授。

株式会社Qosmo 企業概要

「アートとテクノロジーを通じて人類の創造性を拡張する」をビジョンに掲げ、2009年設立。アーティスト、研究者、プログラマ、デザイナーから構成される。創造性のフロンティアを切り開く作品制作を通じて、多くの人が創造的に働き・学び・暮らせる社会の構築に寄与することをミッションに活動中。

*オリジナル掲載先のSoundmainサービス終了により本サイトに移管(オリジナル公開日は2023.02.02)