音楽のジャンル分類の論文解説（２）ちょっと自分の理解に間違いがあったようです

自分の理解にちょっと間違いがあったようです。

時系列そのものを一つの塊にするとか、100分割するとかではなく、

時系列の方も分割しておいて、それを一つずつ見ていくか、それとも100個ずつ見ていくか、という問題でした。

例の論文で使われた手法だと、時系列の1分割の長さは約46msです。

周波数軸には、513分割しています。

あとは、学習するとき513×1行列を流していくか、あるいは513×100行列を流していくかという問題となります。

今のところ考えていることは、

513×100ではなく、513×200行列を流していき、

一番浅いconvolution層のフィルタを400×4ではなく、16×100ぐらいにしてみることを考えています。

なぜ時間の方を100にするかというと、ちょうど100になるとdurationが4.6秒になるからです。

ちなみにSan Juanitoの1かたまりのdurationがだいたい5秒です。（ざっくりですが）

STFTそのものをすごいきちんと理解しているわけではありませんが、

論文読みながらなんとなく間違いに気づいたので、ちょっと一言だけ書きたかったです。

STFTについてはこちらを参照してください。

ではでは。

渋谷で働くSEのブログ