TTS Qwen TTS Engine es el módulo de síntesis de voz del ecosistema SAS Inference Engine, basado en el modelo Qwen3-TTS de Alibaba. Proporciona capacidades avanzadas de texto a voz con soporte para múltiples modos de generación de voz y una arquitectura flexible que puede ejecutarse tanto en desarrollo como en producción.
Modos de Síntesis de Voz
- Voz personalizada (
customvoice:<speaker>): Voces predefinidas entrenadas como Aiden, Serena y otras. - Diseño de voz (
voicedesign:default): Genera una voz a partir de una descripción textual de las características deseadas. - Clonación de voz (
voiceclone:default): Clona cualquier voz a partir de un audio de referencia.
API del Servidor Local
POST /v1/presets/list # Listar presets disponibles
POST /v1/render # Síntesis TTS síncrona
POST /v1/render/async # Síntesis TTS asíncrona
GET /v1/render/jobs/{id} # Estado del trabajo
GET /v1/render/jobs/{id}/audio # Descargar audio
Configuración del Servidor
cd services/qwen_tts_server
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# Iniciar servidor
QWEN_TTS_ATTN="sdpa" QWEN_TTS_DEVICE="cuda:0" uvicorn app:APP --host 127.0.0.1 --port 8012
Arquitectura
El motor TTS se integra dentro del SAS Inference Engine mediante:
- Worker Python embebido: Runtime Python aislado para modelos basados en safetensors.
- IPC con Memoria Compartida (SHM): Transferencias sin copia para máximo rendimiento.
- Aislamiento de procesos: Modo IPC opcional para contención de fallos.
Variables de Entorno del Worker
SAS_PYTHON_HOME: Raíz del runtime Python embebido.SAS_PYTHON_EXE: Ruta completa al ejecutable Python.SAS_PYTHONPATH: Incluyeservices/python_worker.SAS_PYTHON_MODULE: Por defectosas_py_worker.