渋谷で働くSEのブログ

渋谷で働くSEのお粗末なブログです

音楽のジャンル分類の論文解説(2)ちょっと自分の理解に間違いがあったようです

自分の理解にちょっと間違いがあったようです。

時系列そのものを一つの塊にするとか、100分割するとかではなく、

時系列の方も分割しておいて、それを一つずつ見ていくか、それとも100個ずつ見ていくか、という問題でした。

例の論文で使われた手法だと、時系列の1分割の長さは約46msです。

周波数軸には、513分割しています。


あとは、学習するとき513×1行列を流していくか、あるいは513×100行列を流していくかという問題となります。


今のところ考えていることは、

513×100ではなく、513×200行列を流していき、

一番浅いconvolution層のフィルタを400×4ではなく、16×100ぐらいにしてみることを考えています。

なぜ時間の方を100にするかというと、ちょうど100になるとdurationが4.6秒になるからです。

ちなみにSan Juanitoの1かたまりのdurationがだいたい5秒です。(ざっくりですが)


STFTそのものをすごいきちんと理解しているわけではありませんが、

論文読みながらなんとなく間違いに気づいたので、ちょっと一言だけ書きたかったです。


STFTについてはこちらを参照してください。


ではでは。