Nao_uの日記

2008-05-17

■ 音声データからピッチ情報を抽出して歌わせてみるテスト

前回の続き。今回は歌のデータから取り出してみた。歌声のみのデータから抽出できれば、それなりに聞けるものにはなる。今回は作業手順も固まり、コツもつかめてきたので、前回ほどは時間がかからなかった。

あと、VOCAROID2エディタの使いにくさを解消してくれるプラグインをみつけたので、歌詞のタイミングを合わせる作業がずいぶん楽になったのも大きい。

便利すぐる初音ミク専用プラグイン！「はちゅねのないしょ」
- http://vocaloid.blog120.fc2.com/blog-entry-118.html

とりあえず今回やってみたわかったこと：

元が初音ミクの歌声であれば、ピッチのみでもそれなりに再現できる。もう少しノイズを減らしてDYNも適用すれば、うまくいけば聞き比べないと区別が付かないくらいのものができるかもしれない。

あいかわらず音符の高さは一定でピッチベンドのみで声の高さを変えているので、曲にあわせて基準音を変える必要がある。上下１オクターブくらいの範囲を超えると声が変わってしまっておかしくなる。

伴奏つきのデータからボーカル抽出をしたものを変換しても、わずかに残る伴奏のせいか微妙にピッチの狂ったデータになったり、時々１オクターブずれた音を拾ったりしてうまくいかない。綺麗に歌わせたいなら、加工されてない純粋に声のみのデータが必要になりそう。

都合よく使えそうな女声のボーカルのみのデータが手元になくて困ってる。「ぼかりす」が歌ってる「PROLOGUE」という曲はRWCという研究用のデータベースに登録されてるものらしいので、これを使えないかと調べてみると、配布実費金額として9000円かかるうえに、カラオケと歌のみを個別収録したものは存在しないらしい。残念。

「ぼかりす」は、歌声合成のパラメータを自動推定してるらしい。それぞれのパラメータをオリジナルと似た波形になるようにGAみたいなやり方で収束させたりしてるんだろうか？もうすぐ公開されるので、どうやってるのか楽しみ。

「ぼかんないんです」のデータをみていると、ピッチベンドは音の位置にあわせて何種類かの波形を使い分けたものを音符の高さが変わる場所で高さ分ずらしてあるようなデータに見える。波形を計算で作れるようなMIDI シーケンサがあれば、同じようなことができるかもしれない。

■ 初音ミクの10倍高い機械に「俺ら東京さ行ぐだ」を替歌わせでみだ

http://www.nicovideo.jp/watch/sm3333568