音楽のジャンル分類の論文解説（１）標本化と量子化

音声データや画像データなどといった連続データを扱うためには、コンピュータが認識できる離散データに落とす必要がありますね。

どういうことかというと、「ド」と「レ」の間には、中間の音なんかがいくらでもあるわけです。

C4=261.63Hz,

D4=293.66Hz

だそうなので、無茶なことをいうと、 $262+\sqrt{2}^e$ Hzなんて、世の中に存在するわけなんです。

しかし、このぐらいの波長だと、C4の音に非常に近いため、きっと人間はこれをC4の「ド」として認識するはずです。

このように、入力値に「目盛」をつけるのが量子化です。

そして標本化。

要するに、連続データを標本で区切ることです。

音楽だったら、例えば再生時間4分の音楽だと、 $\pi$ 分の瞬間だって当然あるわけですが…
こんなこと考えないで、0秒から0.01秒、0.01秒から0.02秒…

みたいに区切っていくわけです。

イメージでいうとこんな感じです。

f:id:kyosuu1:20160907200454g:plain

まあ、こういう内容は、いろんなところに説明されているものです。

こちらとか参考にしてください。

そしてそして、本題に入ります。

私が見ているこの論文では、周波数を513分割、時間を100分割し、そのスペクトラムを画像処理で用いられるようなconvolutional neural networkで分析しています。

サンプリングの手法としてはSTFT(Short Term Fourier Transform)を使っていますが、ここのところがまだ理解しきれてないので、まだまだじっくり調べています。

そして、論文を読み進めていきますと、convolutional networkの最も浅いhidden layerのfilter sizeを400×4（周波数側が400）にし、ハーモニーの違いから音楽の特徴を捉えていきたいという話が出てきます。

しかし、私は、ハーモニーではなく、むしろ時系列に注目したいので、周波数側の目盛を荒くし、時系列側の目盛を細かくしていかないといけないのではないかと思っています。

クラシックとロックは、使われるコード（chord）が違います。なので、その違いから攻めていくことは妥当だと思います。

しかし、TobasとSan Juanitoの場合は、そういった違いはあまり見られないため、そもそもサンプリングの方法を変える必要があるかもしれません。

そして、時系列で特徴をとるために、ネットワーク側もちょっといじる必要が出てきます。

周波数側はもっと狭くし、時間側の幅ははもっと広くするとよいかな、と思います。

なので、サンプリングについてまたじっくり勉強してからもう一回実験をしてみようと思います。

またうちのCPUが苦労するでしょうが。

CPUちゃん、ご苦労様;_;

渋谷で働くSEのブログ