◇ Abstract

歌声は, 歌唱者によって声質や歌唱表現が異なるため, すべての歌唱者に対応した自動歌声採譜モデルの作成は難しいと考えられる.

しかし, 多くの自動歌声採譜の研究では, 学習に用いた歌唱者と用いていない歌唱者にどういった関係性があるのか調査されていない.

本研究では, 自動採譜モデルの学習に用いた歌唱者(クローズ)と, 用いられていない歌唱者(オープン)にデータを分けることで, 歌唱者の違いが採譜精度にどういった影響を与えるのか調査する.

自動採譜の入力には,バンド音源から音源分離を経て抽出した歌声音源を使用する.

結果として, 自動採譜モデル学習に評価と同じ歌唱者を用いることで, 採譜精度が向上することを確認した.

◇ Results

分離された音源が目標音源にどの程度近いのかを数値で示したものであり,数値が高いほど分離精度が高いことを示している.

次式で定義される. ここで,$s$は目標音響信号,$\hat{s}$は分離音源の音響信号. $$ \mathrm{SDR} = 10 \log_{10} \frac{\| s \|^2}{\| s - \hat{s} \|^2} $$

Frame : 10msに分割したフレームごとに正解楽譜と予測楽譜の音程を比較

Note : 音符ごとに正解楽譜と予測楽譜の音程と発音時刻を比較

Note w/offset : 音符ごとに正解楽譜と予測楽譜の音程と発音時刻と消音時刻を比較

評価歌唱者	状態	SDR[dB] (↑)	Frame[%] (↑)	Note[%] (↑)	Note w/offset[%] (↑)
A	close	21.73	79.59	78.87	56.49
A	open	21.73	67.16	56.19	31.40
B	close	22.37	85.30	84.76	53.16
B	open	22.37	76.34	71.31	41.93
C	close	18.47	79.91	71.22	56.64
C	open	18.47	75.32	55.99	31.55
D	close	18.61	63.36	40.89	23.60
D	open	18.61	65.08	45.50	22.02
E	close	24.41	92.14	89.84	78.40
E	open	24.41	91.18	84.31	71.18
F	close	18.98	91.91	85.13	73.36
F	open	18.98	85.24	68.87	54.48