Блин, написал большой мэссэдж, глюкануло и мэссэдж пропал... Ограничусь выводами:
Перспективнее разбивать слова на фонемы по международному фонетическому алфавиту(МФА). Для синтеза слова на любом языке (на начальном уровне) потребуется около 2000 вавок (если все-таки в вавки писать). Для качественного синтеза около 30к-50к вавок. Для слогов и полуслогов - значительно больше, но это упростит фонетический словарь. ИМХО, перспективнее иметь огромный фонетический словарь и маленькую БД звуков, разбивая слова на фонемы, поскольку синтез получиться более гибкий и качественный. Подправив пару параметров и не записывая никаких новых вавок можно будет даже акценты делать... (Но тут DSP надо ставить)
Еще перспективней моделировать звукосинтезирующий тракт человека (или попугая какого-нить
)... Тут, надеюсь, всё понятно... Но это, ИМХО, пока очень трудноосуществимо. Микроконтроллер такое не потянет... Тут нужен мощный кластер.
Так что для микроконтроллеров скорее всего вавки + фонемы по МФА.