Open Voice Studio (OVS) es una plataforma completa de inteligencia artificial para audio que permite realizar traducción profesional, doblaje multi-hablante y clonación de voz con modelos 100% de código abierto. Todo el procesamiento ocurre en tu propio hardware, garantizando privacidad absoluta sin dependencias en la nube.
Capacidades Principales
- Clonación de voz: Clona cualquier voz con apenas 3-10 segundos de audio de referencia.
- Traducción preservando timbre: Traduce el habla manteniendo el timbre y emoción del hablante original.
- Doblaje multi-hablante: Detección automática de hablantes con mapeo individual de voces.
- Remixado de canciones: Separa voces e instrumentos y transforma música con IA.
- Generación de guiones con IA: Genera guiones de locución con GPT-4o, Claude o Llama.
- Conversión de voz en tiempo real: Latencia inferior a 100ms para llamadas en directo y gaming.
- Colaboración en tiempo real: Edición colaborativa estilo Google Docs con Yjs CRDT.
- Apps móviles: iOS y Android con IA en el dispositivo (sherpa-onnx).
Modelos de IA Soportados
- ASR (reconocimiento de voz): Whisper, Faster-Whisper, WhisperX con timestamps a nivel de palabra.
- Traducción: NLLB-200, M2M100, Marian.
- TTS y clonación: XTTS v2, CosyVoice2, OpenVoice, F5-TTS (clonación con 3 segundos).
- Diarización: PyAnnote + Silero VAD para detección de hablantes.
Stack Técnico
- Backend en Python 3.10+ con soporte GPU NVIDIA/CUDA
- Frontend en Next.js 14 con Tailwind CSS y shadcn/ui
- Base de datos PostgreSQL 15+
- Editor de audio estilo DAW con múltiples pistas y efectos
Inicio Rápido
# Con Docker Compose (recomendado)
docker compose --profile dev up -d
# Accede en http://localhost:3000/en
# Instalación local
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
Presets de Calidad
- default: ASR → MT → TTS básico para pruebas rápidas.
- balanced: Incluye diarización para contenido multi-hablante.
- hq: Estiramiento temporal y normalización LUFS para calidad profesional.
- pro: Alineación WhisperX para máxima precisión.