音声信号をSTFT、MS、MFCC、CQTで可視化してみる

広田研・廣瀬研にいたときに視触覚のクロスモダリティをテーマに研究をしていた。 GANの応用について調べていたら、同じクロスモダリティを扱った論文を見つけた。

Deep Cross-Modal Audio-Visual Generation https://arxiv.org/abs/1704.08292

この中で音声信号を画像に変換する事前処理があるが、いくつかの種類が試されている。 それらを順にlibrosaを使って試してみた。

LMT Haptic Texture Databaseの音声信号(.wav)に対して適用してみる。 http://www.lmt.ei.tum.de/downloads/texture/

hamming windowを使い、サイズは50ms分となるように設定

STFT

log scaleで可視化 f:id:yusuke_ujitoko:20171003234835p:plain

Mel-spectrum

f:id:yusuke_ujitoko:20171003234945p:plain

MFCC

f:id:yusuke_ujitoko:20171003235313p:plain

CQT

f:id:yusuke_ujitoko:20171003235330p:plain