TTS Qwen TTS Engine es el módulo de síntesis de voz del ecosistema SAS Inference Engine, basado en el modelo Qwen3-TTS de Alibaba. Proporciona capacidades avanzadas de texto a voz con soporte para múltiples modos de generación de voz y una arquitectura flexible que puede ejecutarse tanto en desarrollo como en producción.

Modos de Síntesis de Voz

Voz personalizada (customvoice:<speaker>): Voces predefinidas entrenadas como Aiden, Serena y otras.
Diseño de voz (voicedesign:default): Genera una voz a partir de una descripción textual de las características deseadas.
Clonación de voz (voiceclone:default): Clona cualquier voz a partir de un audio de referencia.

API del Servidor Local

POST /v1/presets/list          # Listar presets disponibles
POST /v1/render                # Síntesis TTS síncrona
POST /v1/render/async          # Síntesis TTS asíncrona
GET  /v1/render/jobs/{id}      # Estado del trabajo
GET  /v1/render/jobs/{id}/audio # Descargar audio

Configuración del Servidor

cd services/qwen_tts_server
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# Iniciar servidor
QWEN_TTS_ATTN="sdpa" QWEN_TTS_DEVICE="cuda:0" uvicorn app:APP --host 127.0.0.1 --port 8012

Arquitectura

El motor TTS se integra dentro del SAS Inference Engine mediante:

Worker Python embebido: Runtime Python aislado para modelos basados en safetensors.
IPC con Memoria Compartida (SHM): Transferencias sin copia para máximo rendimiento.
Aislamiento de procesos: Modo IPC opcional para contención de fallos.