深層学習を用いた歌声自動採譜における歌唱者の影響

The influence of singers on automatic singing transcription using deep learning.

☆田﨑晃基, 小坂哲夫 (山形大院・理工学研)

Tasaki Koki, Kosaka Tetsuo (Yamagata Univ.)

2025年9月10日

日本音響学会第154回(2025年秋季)研究発表会


◇ Abstract

  • 歌声は, 歌唱者によって声質や歌唱表現が異なるため, すべての歌唱者に対応した自動歌声採譜モデルの作成は難しいと考えられる.
  • しかし, 多くの自動歌声採譜の研究では, 学習に用いた歌唱者と用いていない歌唱者にどういった関係性があるのか調査されていない.
  • 本研究では, 自動採譜モデルの学習に用いた歌唱者(クローズ)と, 用いられていない歌唱者(オープン)にデータを分けることで, 歌唱者の違いが採譜精度にどういった影響を与えるのか調査する.
  • 自動採譜の入力には,バンド音源から音源分離を経て抽出した歌声音源を使用する.
  • 結果として, 自動採譜モデル学習に評価と同じ歌唱者を用いることで, 採譜精度が向上することを確認した.

  • ◇ Results

    - 音源分離評価指標 -

    SDR(Signal-to-Distortion Ratio)

  • 分離された音源が目標音源にどの程度近いのかを数値で示したものであり,数値が高いほど分離精度が高いことを示している.
  • 次式で定義される. ここで,\(s\)は目標音響信号,\(\hat{s}\)は分離音源の音響信号. $$ \mathrm{SDR} = 10 \log_{10} \frac{\| s \|^2}{\| s - \hat{s} \|^2} $$
  • - 自動採譜評価指標 -

    自動採譜の結果は以下の3つの評価基準を用いたF値を算出

  • Frame : 10msに分割したフレームごとに正解楽譜と予測楽譜の音程を比較
  • Note : 音符ごとに正解楽譜と予測楽譜の音程と発音時刻を比較
  • Note w/offset : 音符ごとに正解楽譜と予測楽譜の音程と発音時刻と消音時刻を比較
  • - 結果 -

    評価結果は各歌唱者ごとに3曲用意したテスト楽曲に対する平均値である


    評価歌唱者

    状態

    SDR[dB] (↑)

    Frame[%] (↑)

    Note[%] (↑)

    Note w/offset[%] (↑)

    A

    close

    21.73

    79.59

    78.87

    56.49

    open

    67.16

    56.19

    31.40

    B

    close

    22.37

    85.30

    84.76

    53.16

    open

    76.34

    71.31

    41.93

    C

    close

    18.47

    79.91

    71.22

    56.64

    open

    75.32

    55.99

    31.55

    D

    close

    18.61

    63.36

    40.89

    23.60

    open

    65.08

    45.50

    22.02

    E

    close

    24.41

    92.14

    89.84

    78.40

    open

    91.18

    84.31

    71.18

    F

    close

    18.98

    91.91

    85.13

    73.36

    open

    85.24

    68.87

    54.48

    ◇ Audio Samples

    テスト用楽曲の中から各歌唱者1曲ずつ採譜例を掲載,左から順に以下のようになっている.

  • 歌声音源 : 採譜対象である歌声のみが収録されている音源
  • 混合音源 : 歌声音源に伴奏音源を重畳し作成された伴奏つき歌声音源,ここで歌声と伴奏の楽曲は一致しないことに注意
  • 分離歌声音源 : 混合音源を音源分離モデルに入力することで得られた出力結果,これを自動採譜モデルの評価に使用
  • クローズ採譜結果 : 歌唱者が学習されている自動採譜モデルでの採譜結果
  • オープン採譜結果 : 歌唱者が学習されていない自動採譜モデルでの採譜結果
  • 歌唱者A


    歌声音源

    混合音源

    分離歌声音源

    クローズ採譜結果

    オープン採譜結果

    歌唱者B


    歌声音源

    混合音源

    分離歌声音源

    クローズ採譜結果

    オープン採譜結果

    歌唱者C


    歌声音源

    混合音源

    分離歌声音源

    クローズ採譜結果

    オープン採譜結果

    歌唱者D


    歌声音源

    混合音源

    分離歌声音源

    クローズ採譜結果

    オープン採譜結果

    歌唱者E


    歌声音源

    混合音源

    分離歌声音源

    クローズ採譜結果

    オープン採譜結果

    歌唱者F


    歌声音源

    混合音源

    分離歌声音源

    クローズ採譜結果

    オープン採譜結果