結論としては今のところ上手くいっていないように見える.
今後の進展にとても期待.
- Audio texture synthesis and style transfer
https://dmitryulyanov.github.io/audio-texture-synthesis-and-style-transfer/- 初出はなんとブログ。
- Gatysらの一番最初のneural style transferの手法をそのままaudioに応用
- 変換音を聞いてみると微妙.単に2つの音源をミックスしたように聞こえる。
- Audio style transfer
https://arxiv.org/abs/1710.11385- Gatysらの手法というよりも高速化されたJohnsonらのstyle transferの手法に近く,
コンテンツ画像を初期値としてスタイル変換する. - audioではcontentとstyleが定義されていないんですという話がイントロに載っている
- In audio, the notions of style and content are even harder to define and would depend more on the context. For speech for instance, content may refer to the linguistic information like phonemes and words while style may relate to the particularities of the speaker such as speaker’s identity, intonation, accent, and/or emotion.
- For music, on the other hand, content could be some global musical structure (including, e.g., the score played and rhythm) while style may refer to the timbres of musical instruments and musical genre
- 微妙
- Gatysらの手法というよりも高速化されたJohnsonらのstyle transferの手法に近く,
- Time Domain Neural Audio Style Transfer
https://arxiv.org/abs/1711.11160- 上の二つの研究はスペクトログラムを画像として扱って,もとのneural style transferの手法を適用していたが,
それだと変換後のスペクトログラムをGriffin-Limアルゴリズムで位相復元する必要があった.
- Griffin-Limを使うと次のような欠点が生まれる
- 結局,位相情報のtransferができていない
- 位相復元が収束するまで反復する必要があるので実時間性を確保できない
- Griffin-Limを使うと次のような欠点が生まれる
- そこでこの研究では,生のaudioに対してneural style transferの手法を適用した
- 学習済みwavenetのdecoderとNSynth encoderを使って,Gatysらの手法を適用.
wavenetとNSynthは次のようなもの
- 上の二つの研究はスペクトログラムを画像として扱って,もとのneural style transferの手法を適用していたが,
それだと変換後のスペクトログラムをGriffin-Limアルゴリズムで位相復元する必要があった.
- Neural Style Transfer for Audio Spectrograms
https://arxiv.org/pdf/1801.01589.pdf- 一番最近でたarXiv記事だが、新規性は見当たらなかったように思う