TTS Qwen Engine

C++ Multimedia Privado

Lenguaje

C++

Categoria

Multimedia

Estado

Privado

TTS Qwen TTS Engine es el módulo de síntesis de voz del ecosistema SAS Inference Engine, basado en el modelo Qwen3-TTS de Alibaba. Proporciona capacidades avanzadas de texto a voz con soporte para múltiples modos de generación de voz y una arquitectura flexible que puede ejecutarse tanto en desarrollo como en producción.

Modos de Síntesis de Voz

  • Voz personalizada (customvoice:<speaker>): Voces predefinidas entrenadas como Aiden, Serena y otras.
  • Diseño de voz (voicedesign:default): Genera una voz a partir de una descripción textual de las características deseadas.
  • Clonación de voz (voiceclone:default): Clona cualquier voz a partir de un audio de referencia.

API del Servidor Local

POST /v1/presets/list          # Listar presets disponibles
POST /v1/render                # Síntesis TTS síncrona
POST /v1/render/async          # Síntesis TTS asíncrona
GET  /v1/render/jobs/{id}      # Estado del trabajo
GET  /v1/render/jobs/{id}/audio # Descargar audio

Configuración del Servidor

cd services/qwen_tts_server
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# Iniciar servidor
QWEN_TTS_ATTN="sdpa" QWEN_TTS_DEVICE="cuda:0" uvicorn app:APP --host 127.0.0.1 --port 8012

Arquitectura

El motor TTS se integra dentro del SAS Inference Engine mediante:

  • Worker Python embebido: Runtime Python aislado para modelos basados en safetensors.
  • IPC con Memoria Compartida (SHM): Transferencias sin copia para máximo rendimiento.
  • Aislamiento de procesos: Modo IPC opcional para contención de fallos.

Variables de Entorno del Worker

  • SAS_PYTHON_HOME: Raíz del runtime Python embebido.
  • SAS_PYTHON_EXE: Ruta completa al ejecutable Python.
  • SAS_PYTHONPATH: Incluye services/python_worker.
  • SAS_PYTHON_MODULE: Por defecto sas_py_worker.

Compartir