今のVOCALOIDにはウィスパー・ボイスが足りない!
というわけで、Twitterでは少し前からちょくちょく語っておりますが、歌声やしゃべり声など音声を入力すると、ささやき声っぽく加工してくれるツールを構想中です。
いろいろ技術論文とか当たってみたところ、無声音声(声帯振動がほとんどゼロのささやき声)から有声音声を合成する技術はあるみたいですが、逆はなかなか見つかりません。
ということで素人考え開始。
通常の有声音声は、声帯が振動し、口腔や鼻腔に共鳴して発せられます。この口腔や鼻腔の形を変えて共鳴具合を変えることで言葉を発しているわけですね。んで、無声音声の場合は声帯は振動しないので、息が吹き抜ける「ハー」という音が声帯の代わりとなります。
シンセサイザーに例えれば、声帯がジェネレータで口腔・鼻腔がフィルタやイコライザに相当します。
ささやき声にするには、50音を形作るフィルタの周波数特性(これをフォルマントと言います)はそのままに、ジェネレータを吐息音に交換してあげればよいわけです。
で、フォルマントを抽出して別の音に当てはめる、という装置はすでにあります。エレクトロやテクノ好きならおなじみのヴォイス・コーダー、略してヴォコーダーですね。
ということで、ヴォコーダーとブレスノイズっぽいジェネレーターをプログラムとして作成しよう、というところをひとまず目標としています。
今の進捗はというと、取りあえず動くけどまともに鳴ってないね、という状況。
www.noisyspot.jp/hoge/dame_voco.zip
src.wav が元の声(MEIKOさんに実験台になってもらいました)、dest.wavが変換後の声です。
まったくダメダメです。たぶん、ジェネレータで出してるのが単なるホワイトノイズ(22khzまでの周波数成分がまんべんなく含まれている)で、ブレスノイズの音とは全くかけ離れていることと、フォルマントフィルタの適用部分で何かバグがあるようです。
まあ、形になるのはいつになるか判りませんが、ちまちまと進めていこうかなと。