音楽のジャンル分類の論文解説(2)ちょっと自分の理解に間違いがあったようです
自分の理解にちょっと間違いがあったようです。
時系列そのものを一つの塊にするとか、100分割するとかではなく、
時系列の方も分割しておいて、それを一つずつ見ていくか、それとも100個ずつ見ていくか、という問題でした。
例の論文で使われた手法だと、時系列の1分割の長さは約46msです。
周波数軸には、513分割しています。
あとは、学習するとき513×1行列を流していくか、あるいは513×100行列を流していくかという問題となります。
今のところ考えていることは、
513×100ではなく、513×200行列を流していき、
一番浅いconvolution層のフィルタを400×4ではなく、16×100ぐらいにしてみることを考えています。
なぜ時間の方を100にするかというと、ちょうど100になるとdurationが4.6秒になるからです。
ちなみにSan Juanitoの1かたまりのdurationがだいたい5秒です。(ざっくりですが)
STFTそのものをすごいきちんと理解しているわけではありませんが、
論文読みながらなんとなく間違いに気づいたので、ちょっと一言だけ書きたかったです。
STFTについてはこちらを参照してください。
ではでは。