音声合成で難しいのは、通常の会話文に自然な抑揚をつけることである。 これはほんとに難しい。たとえば数字の「3」を考えてみよう。 これは、現在の東京弁では「さん」というふうに平板な発音で読まれる。 最初の「さ」を強調して「さん」にすると、 Sun Microsystems のことを指しているように 聞こえてしまう。 ところが、これに「分」をつけて「3分」というときは、「さ」を強調して 「さんぷん」と言わねばならないのだ。「さんぷん」を平坦に発音しても、 「散粉? 産糞?」というふうにしか思われない。 ところが、ところが! さらにここに「間」を追加して「3分間」というと、 平坦な「さんぷんかん」なのだ。「さんぷんかん」ではオカシイのである。 ここからわかるように、同じ単語でも抑揚がぜんぜん決定できない。