2017/06/04

バッハっぽい賛美歌を自動作曲するDeepBach

いきなりまとめ


DeepBachモデルの特徴
  • DeepBachは4つのレイヤーを持つ4つのモデルからなる
  • それぞれのモデルは異なる音域を出力
  • 過去と未来の情報を取り扱う2つのLSTMレイヤー
  • 同時に発生する他の音を扱うレイヤー
  • それらを統合し音を出力するレイヤー
  • ユーザーの創意を取り入れ作曲することが可能

DeepBachのパフォーマンス
  • 出来上がった曲に対して専門家を含め50%前後がバッハと回答
  • 盗作の恐れも低い


Today I Learned


DeepBachモデルの詳細
自動作曲されたサンプル


モデルの構造


入力データ=(V1,V2,V3,V4,S,F),
4つの音域に対応したMIDI音声(ソプラノ、アルト、テノール、バス)、ビート番号、fermatasの有無。

それぞれの音域ごとに4つのモデルを構築。
1つのモデルは4つのレイヤーからなる。
過去と未来の音を入力とする2つのembedding+LSTMレイヤー。
同時に発生する他の音を入力とするレイヤー。
それらをマージしピッチの確率を出力するレイヤー。

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjeiNJRh4HAOxfL8iqir-w0LQOw4Qjp9KsU5dbeaUPVs3zrf_bziGy1FmLrBYij2ZdS1bnTEvLOYXr4vwhEn-ReHox9JAAAtM3boD9timp8CBxdNojIrkmWA0YFUaFDw-oK8i5-V0nEYek/w140-h109-p/DeepBach_1.png


サンプルの生成


gibbs-samplingを使用。
4つの音に対応した長さLのリストをランダムに生成。
時間と音域をランダムに選び推定したモデルよりサンプリング。

利点はユーザーの好みを出力に反映できること。
たとえば、ある音域を固定、それ以外をサンプリング。
farmatasの調整。
音域ごとのサンプリングレンジの制限。


モデルの評価


人間に対するリスニングテストと盗作分析を実施。

リスニングテストでは3つのモデルを使用。
DeepBach、Maximum Entropy model、Multilayer Perceptron (MLP) model。

知覚テストでは同一のバッハのメロディーから2つのメロディーを生成し、どちらがよりバッハっぽいか聞いた 。
アンケートをもとにBradley-Terry modelによりスコアを推定。
DeepBachモデルは他のモデルより成績が良かった。

https://get.google.com/albumarchive/103519895695795326054/album/AF1QipNUUZb3u3UiAooXMsmsdK7eYrWO0dXbU8w481Bm/AF1QipPXoOYGEUyQoq_gBrGbJjDhfNvgEgWir4wLmrvM?hl=ja&authKey=CIzrnZD98-idZg








判別テストではメロディー1つを聞かせ、本物バッハか自動作曲か尋ねた。
DeepBachモデルは他のモデルより成績が良かった。
DeepBachを聞かせたところおよそ50%はバッハと判定。
バッハのむずさ考えればすげーよとのこと。
When presented a DeepBach-generated extract, around 50% of the voters would judge it as composed by Bach.
We consider this to be a good score knowing the complexity of Bach’s compositions and the facility to detect badly-sounding chords even for non musicians

https://get.google.com/albumarchive/103519895695795326054/album/AF1QipNUUZb3u3UiAooXMsmsdK7eYrWO0dXbU8w481Bm/AF1QipP77XiLpowsOsiSjtuzMjl5QiSFZKv10wRNv3YL?hl=ja&authKey=CIzrnZD98-idZg








盗作分析では生成されたメロディーがトレーニングに使ったメロディーと一致するその最大長を計測。
盗作の傾向はみられなかった。

0 件のコメント:

コメントを投稿

Relation Netowrksの概要

いきなりまとめ Relation Netowrksとは関係性の推論を行えるニューラルネット。 画像や音声の単純な認識ではなく、複雑な思考が可能。 例えば、 グレーの物体から最も離れている物体の形は何か? ボールは今何処にあるか? ランダムに動くボール群のどれが...