2007/12/01 (土) 08:14:39        [qwerty]
音声合成で難しいのは、通常の会話文に自然な抑揚をつけることである。
これはほんとに難しい。たとえば数字の「3」を考えてみよう。

これは、現在の東京弁では「さん」というふうに平板な発音で読まれる。
最初の「さ」を強調して「さん」にすると、 Sun Microsystems のことを指しているように
聞こえてしまう。

ところが、これに「分」をつけて「3分」というときは、「さ」を強調して
「さんぷん」と言わねばならないのだ。「さんぷん」を平坦に発音しても、
「散粉? 産糞?」というふうにしか思われない。

ところが、ところが! さらにここに「間」を追加して「3分間」というと、
平坦な「さんぷんかん」なのだ。「さんぷんかん」ではオカシイのである。

ここからわかるように、同じ単語でも抑揚がぜんぜん決定できない。