Neural Style Transferを音に応用した研究たち

結論としては今のところ上手くいっていないように見える.
今後の進展にとても期待.

  • Audio style transfer
    https://arxiv.org/abs/1710.11385
    • Gatysらの手法というよりも高速化されたJohnsonらのstyle transferの手法に近く,
      コンテンツ画像を初期値としてスタイル変換する.
    • audioではcontentとstyleが定義されていないんですという話がイントロに載っている
      • In audio, the notions of style and content are even harder to define and would depend more on the context. For speech for instance, content may refer to the linguistic information like phonemes and words while style may relate to the particularities of the speaker such as speaker’s identity, intonation, accent, and/or emotion.
      • For music, on the other hand, content could be some global musical structure (including, e.g., the score played and rhythm) while style may refer to the timbres of musical instruments and musical genre
    • 微妙

  • Time Domain Neural Audio Style Transfer
    https://arxiv.org/abs/1711.11160
    • 上の二つの研究はスペクトログラムを画像として扱って,もとのneural style transferの手法を適用していたが, それだと変換後のスペクトログラムをGriffin-Limアルゴリズムで位相復元する必要があった.
      • Griffin-Limを使うと次のような欠点が生まれる
        • 結局,位相情報のtransferができていない
        • 位相復元が収束するまで反復する必要があるので実時間性を確保できない
    • そこでこの研究では,生のaudioに対してneural style transferの手法を適用した
    • 学習済みwavenetのdecoderとNSynth encoderを使って,Gatysらの手法を適用.
      wavenetとNSynthは次のようなもの f:id:yusuke_ujitoko:20180127003558p:plain