Deepfakes en 2026: cuando tu voz, tu rostro y tu identidad dejan de pertenecerte
A finales de enero de 2024, un empleado del departamento financiero de Arup —la firma británica de ingeniería responsable de obras como la Ópera de Sídney y el Nido de Pájaro de Pekín— recibió lo que parecía un mensaje rutinario de su director financiero. El CFO le pedía que se conectara a una videoconferencia urgente para discutir una serie de transferencias confidenciales. El empleado obedeció. Cuando entró en la llamada, vio a su director financiero en pantalla. Reconoció su rostro, su voz, sus gestos habituales. También vio a otros colegas sénior que conocía bien, cada uno en su propio recuadro de vídeo, como en cualquier reunión de Zoom posterior a la pandemia. Durante la videollamada, el falso CFO instruyó al empleado para que realizara quince transferencias bancarias a cinco cuentas distintas en Hong Kong. El empleado cumplió las instrucciones al pie de la letra. Cuando terminó la reunión y colgó la llamada, la empresa había perdido 200 millones de dólares hongkoneses —aproximadamente 25,6 millones de dólares estadounidenses—.
Ningún sistema informático fue hackeado. Ningún firewall fue vulnerado. Ninguna contraseña fue robada. El empleado no hizo clic en ningún enlace malicioso ni descargó ningún archivo sospechoso. Lo que ocurrió fue algo mucho más perturbador: cada persona que apareció en aquella videoconferencia era una recreación sintética generada por inteligencia artificial. El rostro del CFO, su voz, sus expresiones faciales, sus movimientos de cabeza —todo era falso—. Los criminales habían utilizado vídeos públicos de los ejecutivos de Arup para entrenar modelos de deepfake capaces de reproducir su apariencia y su voz en tiempo real. El empleado estaba hablando con fantasmas digitales, y no tenía forma de saberlo.
El caso Arup conmocionó al mundo de la ciberseguridad, pero no sorprendió a quienes llevaban años siguiendo la evolución de la inteligencia artificial generativa. Porque el verdadero horror del incidente no residía en lo que salió mal, sino en lo que salió bien —bien para los criminales, se entiende—. La tecnología funcionó a la perfección. El engaño fue indistinguible de la realidad. Y desde enero de 2024, esa tecnología no ha dejado de mejorar.
En diciembre de 2025, Fortune publicó un reportaje que condensaba la situación en una frase demoledora: la clonación de voz ha cruzado el «umbral de lo indistinguible». El profesor Siwei Lyu, director del Center for Information Integrity and Intelligence de la Universidad de Buffalo y una de las máximas autoridades mundiales en detección de deepfakes, lo expresó con una claridad heladora: las voces clonadas por IA son ya tan fieles al original que ni los expertos forenses pueden diferenciarlas del habla humana real en condiciones controladas. Lo que durante años fue una demostración de laboratorio, un truco de salón impresionante pero imperfecto, se ha convertido en 2026 en una herramienta de fraude, extorsión, manipulación política y violencia sexual a escala industrial.
Este artículo cartografía el estado completo de los deepfakes en 2026. La tecnología que los hace posibles. Los crímenes que están multiplicando. Las leyes que intentan contenerlos. Las herramientas que luchan por detectarlos. Y la pregunta filosófica que subyace a todo lo demás: en un mundo donde cualquier voz puede ser clonada en tres segundos y cualquier rostro puede ser superpuesto en tiempo real, ¿qué significa que algo sea verdad?
La tecnología del engaño perfecto: cómo funcionan los deepfakes
Redes generativas antagónicas: el falsificador y el crítico de arte
La historia técnica de los deepfakes comienza en 2014, cuando Ian Goodfellow, entonces investigador en la Universidad de Montreal, propuso una arquitectura de red neuronal que cambiaría para siempre la relación entre lo real y lo sintético: las Redes Generativas Antagónicas, conocidas como GANs por sus siglas en inglés (Generative Adversarial Networks). La idea de Goodfellow era tan elegante como subversiva: ¿y si en lugar de entrenar una sola red neuronal para generar imágenes realistas, entrenáramos dos redes que compitieran entre sí?
La analogía más clara es la de un falsificador de arte y un crítico de museo. Imagina un falsificador que intenta pintar un Vermeer lo suficientemente bueno como para engañar a un experto. El falsificador presenta su obra; el crítico la examina y señala los defectos: «La textura del óleo es demasiado uniforme, la distribución de la luz no es natural, los tonos del fondo no corresponden a la paleta habitual de Vermeer». El falsificador toma nota, vuelve a su taller y produce una versión mejorada. El crítico la examina de nuevo: «Mejor, pero las pupilas tienen un reflejo que no existía en la óptica del siglo XVII». El falsificador corrige. Y así, iteración tras iteración, en un ciclo de miles o millones de intentos, el falsificador mejora porque el crítico es bueno, y el crítico mejora porque el falsificador es bueno. Al final del proceso, el falsificador produce obras que son virtualmente indistinguibles de las auténticas —y el crítico se ha convertido en el detector más sofisticado posible—.
En una GAN, el falsificador se llama generador y el crítico se llama discriminador. El generador toma ruido aleatorio como entrada —un vector de números sin significado aparente— y lo transforma en una imagen sintética. El discriminador recibe imágenes, algunas reales y algunas del generador, e intenta clasificar cada una como «real» o «falsa». Ambas redes se entrenan simultáneamente: el generador intenta minimizar la probabilidad de que el discriminador detecte sus creaciones, y el discriminador intenta maximizar su precisión. Matemáticamente, se trata de un juego de suma cero descrito por una función minimax. El punto de equilibrio teórico —el equilibrio de Nash de este juego— se alcanza cuando el generador produce imágenes tan perfectas que el discriminador no puede hacer mejor que lanzar una moneda al aire: 50% de probabilidad de acertar, es decir, el azar puro.
El salto desde las GANs genéricas hasta los deepfakes faciales llegó con arquitecturas especializadas. StyleGAN, desarrollado por NVIDIA en 2019 y actualizado hasta StyleGAN3, introdujo el concepto de espacios latentes estilísticos: la red aprendía a separar distintos «niveles» de una cara —la estructura ósea general, la forma de los ojos, la textura de la piel, los detalles finos del vello facial— y podía manipular cada nivel de forma independiente. El resultado eran rostros humanos generados desde cero que no correspondían a ninguna persona real pero que eran fotográficamente perfectos. El sitio web ThisPersonDoesNotExist.com, que mostraba un rostro sintético diferente cada vez que se recargaba la página, se convirtió en una demostración viral de lo que StyleGAN podía hacer —y de lo difícil que era para el ojo humano distinguir un rostro real de uno fabricado—.
Autoencoders: el truco del intercambio de caras
Si las GANs son el falsificador que crea retratos desde cero, los autoencoders son los cirujanos plásticos del mundo digital. Esta arquitectura es la que hizo posible el primer boom de deepfakes virales en 2017-2018, cuando un usuario anónimo de Reddit empezó a publicar vídeos en los que intercambiaba los rostros de actrices famosas en escenas pornográficas —un acto de violencia digital que daría nombre a todo el fenómeno—.
Un autoencoder es una red neuronal que aprende a comprimir datos. Funciona en dos partes: un codificador (encoder) que toma una imagen de alta resolución y la comprime en una representación interna mucho más pequeña —un vector de números que captura la «esencia» de la imagen—, y un decodificador (decoder) que toma esa representación comprimida y la expande de vuelta a una imagen de tamaño completo. Entrenar un autoencoder es como enseñar a un pintor a hacer retratos de memoria: el pintor observa un rostro (codificador), lo memoriza como una impresión abstracta (representación latente), y luego lo reconstruye en el lienzo (decodificador). Si el retrato resultante es fiel al original, el entrenamiento ha funcionado.
El truco para el intercambio de caras reside en una modificación ingeniosa. Se entrena un solo codificador compartido con rostros de dos personas distintas —llamémoslas persona A y persona B—, pero se entrenan dos decodificadores separados: uno especializado en reconstruir la cara de A y otro en reconstruir la cara de B. El codificador compartido aprende a extraer características faciales universales: la dirección de la mirada, la apertura de la boca, la inclinación de la cabeza, la iluminación del entorno. Los decodificadores aprenden a renderizar esas características universales como la cara específica de cada persona.
Una vez entrenado el sistema, el intercambio es trivial: se toma un fotograma de un vídeo de la persona A, se pasa por el codificador compartido (que extrae la expresión, la pose y la iluminación), y luego se pasa la representación resultante por el decodificador de la persona B. El resultado es un rostro con la identidad de B pero la expresión, la pose y la iluminación de A. Aplicado fotograma a fotograma sobre un vídeo, la persona A parece haberse transformado en la persona B, manteniendo todos sus movimientos faciales naturales. Es como si la persona B hubiera estado físicamente presente durante la grabación, diciendo exactamente lo que dijo A con exactamente sus mismos gestos.
Modelos de difusión: restaurar una pintura cubierta de polvo
En 2020, un artículo de Jonathan Ho, Ajay Jain y Pieter Abbeel de la Universidad de Berkeley marcó el inicio de una nueva era. Los modelos de difusión (diffusion models) desbancaron a las GANs como el paradigma dominante en generación de imágenes, y hoy son la tecnología detrás de sistemas como DALL-E 3, Midjourney, Stable Diffusion y los generadores de vídeo más avanzados de 2026.
La analogía más intuitiva es la de restaurar una pintura que ha sido gradualmente cubierta de polvo. El proceso de difusión tiene dos fases. En la fase directa (forward process), se toma una imagen real y se le añade ruido gaussiano progresivamente —como si cada día se depositara una capa de polvo fino sobre un cuadro—. Después de suficientes pasos, la imagen queda completamente irreconocible: se ha convertido en ruido puro, una nube de estática sin estructura visible. Es el cuadro sepultado bajo siglos de polvo.
En la fase inversa (reverse process), la red neuronal aprende a revertir la degradación. Dado un nivel de ruido determinado, la red predice cuánto ruido hay que eliminar para recuperar un paso anterior, ligeramente más limpio. Es el restaurador que, armado con brochas microscópicas y solventes calibrados, retira capa por capa el polvo acumulado, revelando progresivamente la pintura original. Pero aquí viene el giro crucial: si en lugar de empezar con una imagen real degradada, empezamos con ruido completamente aleatorio y aplicamos el proceso inverso, la red no restaura una pintura existente —crea una nueva—. El ruido aleatorio actúa como una semilla que, al ser «limpiada» iterativamente por la red, se cristaliza en una imagen coherente que parece fotografía.
¿Por qué los modelos de difusión son superiores a las GANs? Primero, porque el entrenamiento es más estable. Las GANs son notoriamente difíciles de entrenar: el equilibrio entre generador y discriminador es frágil, y pequeñas perturbaciones pueden hacer que el entrenamiento colapse (un fenómeno llamado mode collapse, donde el generador produce siempre la misma imagen). Los modelos de difusión no tienen este problema: el entrenamiento es una simple regresión —predecir el ruido añadido—, conceptualmente mucho más sencillo. Segundo, porque la calidad de las imágenes es superior. La eliminación gradual del ruido permite a la red refinar detalles en múltiples escalas: primero establece las estructuras globales (composición, formas principales), luego añade detalles intermedios (texturas, sombras), y finalmente pinta los detalles finos (poros de la piel, reflejos en los ojos, fibras del cabello). Es un proceso que imita la forma en que trabajan los pintores hiperrealistas: del boceto general al detalle microscópico.
En 2026, los modelos de difusión combinados con arquitecturas transformer —los llamados Diffusion Transformers o DiT— son capaces de generar vídeo fotorrealista de alta resolución a partir de descripciones de texto. Sora 2 de OpenAI, Veo 3 de Google y Kling 1.6 de Kuaishou utilizan variantes de esta arquitectura para producir clips de vídeo que desafían la capacidad humana de distinguir lo real de lo sintético.
Modelos de códec neuronal para voz: cuando el sonido se convierte en idioma
La clonación de voz ha seguido un camino técnico distinto pero igualmente fascinante. El avance clave llegó con los modelos de códec neuronal, una familia de técnicas que tratan el audio no como una onda sonora, sino como un lenguaje que puede ser leído, comprendido y hablado por una inteligencia artificial.
El representante más influyente de esta familia es EnCodec, desarrollado por Meta AI en 2022. EnCodec toma una señal de audio —voz humana, por ejemplo— y la comprime en una secuencia de tokens discretos: números enteros que representan fragmentos acústicos de la misma forma que las palabras de un texto representan ideas. La tasa de compresión es asombrosa: EnCodec puede reducir el audio hasta 320 veces su tamaño original manteniendo una calidad perceptivamente idéntica al original.
El mecanismo interno se llama Cuantización Vectorial Residual (Residual Vector Quantization, RVQ). Funciona como un sistema de capas superpuestas. La primera capa de cuantización captura las características más gruesas del audio: el tono fundamental, el timbre general de la voz, la identidad del hablante. Es como el boceto a carboncillo de un retrato: reconoces a la persona aunque falten los detalles. La segunda capa captura lo que la primera dejó escapar: las inflexiones de la entonación, las variaciones sutiles de ritmo. La tercera añade más resolución: las consonantes fricativas, las pausas entre sílabas, los matices de la sibilancia. Y así sucesivamente, con cada capa refinando los residuos de la anterior, como un pintor que aplica veladuras progresivas sobre el boceto inicial hasta lograr el realismo fotográfico.
Lo verdaderamente revolucionario es lo que ocurre cuando esta representación en tokens se combina con modelos de lenguaje de gran tamaño (LLMs). Si el audio es un «idioma» compuesto por tokens discretos, entonces un LLM puede aprender a «hablar» ese idioma exactamente como aprende a generar texto: prediciendo el siguiente token en la secuencia. Esto es precisamente lo que hacen modelos como VALL-E de Microsoft y Qwen3-TTS de Alibaba: toman un fragmento breve de la voz de una persona —apenas tres a diez segundos—, extraen los tokens de códec que definen su identidad vocal, y luego utilizan un modelo de lenguaje para generar nuevos tokens de audio que mantienen esa identidad mientras dicen cualquier texto que se les indique. Es como si, tras escuchar a alguien pronunciar una sola frase, la IA pudiera escribir libros enteros «con la voz» de esa persona, imitando no solo su timbre sino su forma de respirar, sus pausas características, su manera de enfatizar ciertas sílabas.
Clonación de voz: tres segundos para robar tu identidad sonora
El umbral de lo indistinguible
Durante años, los investigadores en síntesis de voz hablaban de un horizonte que parecía siempre receder: el momento en que una voz clonada por IA sería perceptivamente indistinguible de la voz humana original. No solo similar. No solo «bastante convincente». Idéntica hasta el punto de que ni el propio dueño de la voz pudiera asegurar si una grabación era suya o de una máquina.
Ese horizonte, según el reportaje publicado por Fortune en diciembre de 2025, ya ha sido alcanzado. El profesor Siwei Lyu, cuyo laboratorio lleva una década desarrollando técnicas de detección de contenido sintético, describió la situación con una franqueza poco habitual en el mundo académico: las herramientas de clonación de voz actuales no solo replican el timbre —la «huella dactilar» acústica que hace que cada voz sea única—, sino que capturan la entonación (la melodía natural del habla), el ritmo (la cadencia entre sílabas y palabras), el énfasis (qué palabras se acentúan en cada frase), las emociones (la diferencia entre decir algo con alegría, con tristeza o con miedo), las pausas (los silencios deliberados que dan peso a una frase) e incluso la respiración (las inspiraciones entre oraciones, un detalle que el cerebro humano procesa inconscientemente como señal de autenticidad).
Lo que hace especialmente peligroso este umbral es su accesibilidad. No estamos hablando de tecnología militar clasificada ni de herramientas que requieran un doctorado en procesamiento de señales. Estamos hablando de aplicaciones que cualquier persona puede descargar, instalar y utilizar en su ordenador personal en cuestión de minutos. El coste es cero. La barrera técnica es prácticamente inexistente. Y el material necesario para clonar una voz se ha reducido de horas de audio a tres segundos.
El ecosistema de modelos: una carrera sin frenos
El panorama de herramientas de clonación de voz en 2026 es tan extenso como alarmante. Cada pocos meses aparece un nuevo modelo que supera al anterior en calidad, velocidad o facilidad de uso —y a menudo en los tres parámetros simultáneamente—.
ElevenLabs Eleven v3 es probablemente el servicio comercial más conocido. Su función de Instant Voice Clone permite clonar una voz a partir de tan solo diez segundos de audio. La versión 3 de su modelo introduce síntesis emocional inferida por contexto: si el texto que se le pide pronunciar contiene una broma, la voz clonada sonreirá al hablar; si describe una tragedia, adoptará un tono solemne. El modelo es capaz de producir suspiros, susurros, risas y otros elementos paralingüísticos que hacen que el audio sintético suene visceralmente humano. Soporta más de setenta idiomas con la misma calidad, lo que significa que una voz clonada en español puede hablar en mandarín manteniendo la identidad vocal del original —algo que ni el propio hablante humano podría hacer—.
VALL-E 2, desarrollado por Microsoft Research, es quizás el ejemplo más puro de lo que los investigadores llaman «paridad humana» en síntesis de voz. Publicado como artículo científico pero nunca lanzado públicamente —Microsoft consideró que era demasiado peligroso—, VALL-E 2 demostró que tres segundos de audio eran suficientes para crear un clon vocal que superaba consistentemente el umbral de paridad humana en pruebas ciegas. Los evaluadores humanos no podían distinguir las muestras sintéticas de las reales con una precisión superior al azar. Microsoft tomó la decisión, extraordinariamente inusual para una empresa tecnológica, de no liberar ni el modelo ni el código, citando los «potenciales riesgos de uso indebido».
Qwen3-TTS, lanzado por Alibaba en enero de 2026, rompió el equilibrio que Microsoft había intentado mantener. Este modelo de código abierto iguala o supera el rendimiento de VALL-E 2 y ElevenLabs en la mayoría de los benchmarks públicos, y lo hace con una innovación fascinante: la capacidad de diseñar voces mediante lenguaje natural. En lugar de proporcionar una muestra de audio para clonar, el usuario puede simplemente describir la voz que desea: «una mujer joven con acento andaluz, tono cálido y ritmo pausado», y el modelo generará una voz completamente nueva que se ajusta a esa descripción. Para la clonación tradicional, Qwen3-TTS necesita solo tres segundos de audio de referencia y produce resultados que, en evaluaciones independientes, los oyentes perciben como más naturales que los de ElevenLabs.
Fish Speech, un proyecto de código abierto, opera con entre diez y treinta segundos de audio de referencia y destaca por su latencia ultrabaja: menos de 150 milisegundos desde que recibe el texto hasta que empieza a emitir audio. Esta velocidad lo hace viable para conversaciones telefónicas en tiempo real, donde un retraso perceptible delataría al sistema sintético. F5-TTS, basado en técnicas de flow matching combinadas con Diffusion Transformers, representa la vanguardia técnica del campo y produce una calidad de audio que algunos evaluadores describen como «inquietantemente perfecta». Y RVC (Retrieval-based Voice Conversion), un sistema de conversión de voz en tiempo real, permite a un usuario hablar por un micrófono y que su voz salga transformada en la de otra persona con una latencia de apenas 90 milisegundos —lo suficientemente rápido para mantener una conversación telefónica sin que el interlocutor note artificio alguno—.
Transferencia de emoción y prosodia: el último bastión que ha caído
Durante un tiempo, la emoción fue el talón de Aquiles de la voz sintética. Los primeros sistemas de clonación producían voces que sonaban «correctas» pero «muertas» —como un lector de noticias que leyera el texto de un funeral con la misma cadencia con la que leería los resultados deportivos—. Los lingüistas llaman prosodia al conjunto de características suprasegmentales del habla —entonación, ritmo, acento, pausas— que transmiten la carga emocional y la intención comunicativa. La prosodia es lo que distingue «¿Vienes?» (pregunta neutra) de «¿Vienes?» (sorpresa) de «¿Vienes...?» (duda). Es también lo que hace que la voz de un padre llamando a su hijo para cenar suene completamente distinta de la de un padre llamando a su hijo porque ha habido un accidente.
Los modelos más recientes han resuelto este problema mediante una técnica llamada desacoplamiento hablante-emoción (speaker-emotion disentanglement). La idea es separar, dentro de la representación interna del audio, dos componentes independientes: la identidad del hablante (quién habla) y el estado emocional (cómo habla). Modelos como IndexTTS-2 utilizan codificadores separados para el timbre y para la emoción, combinados mediante mecanismos de atención cruzada (cross-attention) que permiten al sistema decir: «Habla con la voz de esta persona, pero con la emoción de este otro fragmento de audio». El resultado es una capacidad de control que antes era inimaginable: se puede clonar la voz de una persona serena y hacer que suene aterrorizada, o tomar la voz de alguien enfadado y hacer que suene conciliadora, manteniendo en ambos casos la identidad vocal intacta.
Esta capacidad tiene implicaciones directas para el fraude. Las estafas de «secuestro virtual» —donde un criminal llama a una familia asegurando haber secuestrado a un ser querido y exigiendo un rescate— dependen crucialmente de la emoción. No basta con que la voz suene como la de la víctima; necesita sonar como la de la víctima llorando, suplicando, aterrorizada. Los sistemas de transferencia de emoción hacen posible exactamente esto.
La siguiente tabla sintetiza las capacidades de los principales modelos de clonación de voz disponibles en 2026:
| Modelo | Audio mínimo | Latencia | Soporte emocional | Código abierto |
|---|---|---|---|---|
| ElevenLabs Eleven v3 | 10 segundos | ~300 ms | Sí (contextual) | No |
| Microsoft VALL-E 2 | 3 segundos | ~500 ms | Sí | No (no liberado) |
| Qwen3-TTS (Alibaba) | 3 segundos | ~200 ms | Sí (+ diseño por texto) | Sí |
| Fish Speech | 10-30 segundos | <150 ms | Limitado | Sí |
| F5-TTS | 5-15 segundos | ~250 ms | Sí | Sí |
| RVC | 10-30 segundos | ~90 ms | Preserva la del hablante | Sí |
El dato que debería inquietar a cualquier persona que lea esta tabla es la columna de «código abierto». Cuatro de los seis modelos más avanzados del mundo son completamente gratuitos y accesibles para cualquiera. No hace falta ser ingeniero de Google para clonar una voz. Basta un ordenador modesto, tres segundos de audio —extraíbles de cualquier vídeo de redes sociales, mensaje de WhatsApp o vídeo corporativo— y unos minutos de configuración.
Deepfakes de vídeo: del intercambio de caras al vídeo generado desde cero
Herramientas de face swap: la democracia del engaño
El intercambio de caras en vídeo —face swap— es la técnica de deepfake más antigua y más extendida. Según estimaciones de investigadores en seguridad, una sola herramienta —DeepFaceLab— es responsable de aproximadamente el 95% de todos los deepfakes de vídeo en circulación. DeepFaceLab es un proyecto de código abierto que ofrece una interfaz guiada para todo el proceso: extracción de rostros del vídeo fuente, entrenamiento del modelo de intercambio, generación del vídeo manipulado y postprocesado para suavizar artefactos. Su curva de aprendizaje, que en 2020 requería días de experimentación, se ha aplanado hasta el punto de que existen tutoriales en YouTube de quince minutos que llevan al usuario desde la instalación hasta el primer deepfake funcional.
FaceFusion, otro proyecto de código abierto, se presenta como un sucesor más moderno de DeepFaceLab, con mejor rendimiento en hardware limitado y una interfaz web más accesible. Pero la herramienta que ha democratizado el deepfake hasta límites preocupantes es Deep Live Cam. Lanzada originalmente como demostración técnica, Deep Live Cam permite hacer un intercambio de caras en tiempo real utilizando una sola imagen estática como referencia. El usuario sube una foto de la persona que quiere suplantar —descargada de LinkedIn, de Instagram, de cualquier sitio web corporativo—, activa su webcam, y su rostro se transforma instantáneamente en el de la otra persona. No hay entrenamiento. No hay espera. No hay configuración. Un clic.
Las implicaciones para las videollamadas corporativas son devastadoras. Si la estafa de Arup se ejecutó en enero de 2024, cuando la tecnología era considerablemente más tosca que la actual, resulta razonable preguntarse cuántas estafas similares se están ejecutando ahora que basta una foto de LinkedIn para activar un deepfake en tiempo real durante una reunión de Zoom. Y no se trata solo de grandes corporaciones: cualquier pequeña empresa donde un contable obedece instrucciones verbales de su jefe por videollamada es un objetivo potencial. La democratización de la herramienta ha democratizado también a las víctimas.
Conviene subrayar un detalle que a menudo se pasa por alto: estas herramientas no requieren potencia de cálculo extraordinaria. Deep Live Cam funciona en un ordenador portátil de gama media con una tarjeta gráfica de consumo. No estamos hablando de centros de datos ni de supercomputadores: estamos hablando de un equipo que cualquier estudiante universitario tiene en su escritorio. La barrera económica ha desaparecido junto con la barrera técnica.
Lip sync: que los labios digan lo que tú quieras
El intercambio de caras resuelve el problema de la identidad visual, pero hay situaciones en las que no se necesita cambiar el rostro completo —solo los labios—. Las herramientas de sincronización labial (lip sync) toman un vídeo existente de una persona y modifican el movimiento de sus labios para que se corresponda con un audio diferente. El resultado es un vídeo donde la persona parece decir algo que nunca dijo, con un realismo que el ojo humano raramente detecta.
Wav2Lip fue el pionero: dado un vídeo de una persona y un archivo de audio, genera un nuevo vídeo donde los labios de la persona se mueven en sincronía perfecta con el audio proporcionado. SadTalker llevó la técnica más lejos, generando no solo movimiento labial sino movimiento completo de la cabeza a partir del audio: si la persona habla con entusiasmo, la cabeza se inclina y gesticula; si habla con tristeza, los movimientos son contenidos y lentos. MuseTalk, basado en difusión latente, opera a más de 30 fotogramas por segundo en tiempo real, lo que permite su integración en videollamadas en directo.
Generación de vídeo completo: el mundo inventado desde cero
Pero el salto verdaderamente cualitativo de 2025-2026 no está en la manipulación de vídeo existente, sino en la generación de vídeo completamente nuevo desde cero. Los modelos de vídeo generativo actuales no necesitan un vídeo original para manipular: crean personas, escenarios, movimientos y diálogos a partir de una descripción de texto, una imagen de referencia o una combinación de ambos.
Sora 2 de OpenAI, la evolución del modelo que sorprendió al mundo en febrero de 2024, genera clips de vídeo de hasta varios minutos con una coherencia temporal y un realismo fotográfico que hace dos años habría parecido ciencia ficción. Google Veo 3 añade una capa adicional de inquietud: genera vídeo con audio nativo sincronizado, incluyendo voces, efectos de sonido y música ambiente. La sincronización labial es inferior a 120 milisegundos, lo que significa que las personas que aparecen en los vídeos de Veo 3 parecen estar hablando de verdad. La revista Time expresó preocupación explícita por las capacidades de deepfake que esto habilita. Runway Gen-4 y Kling 1.6 de Kuaishou completan el panorama de herramientas que permiten crear vídeos de personas que nunca existieron haciendo cosas que nunca ocurrieron en lugares que nunca fueron filmados.
Deepfakes en tiempo real: la videollamada como campo de batalla
La confluencia de estas tecnologías —intercambio de caras, sincronización labial, clonación de voz— ha creado un nuevo vector de ataque que los expertos en ciberseguridad llaman deepfake en tiempo real. El proceso, que hace tres años requería horas de preparación y hardware especializado, se ha reducido a un pipeline relativamente sencillo: el atacante recopila material audiovisual del objetivo (vídeos corporativos, intervenciones en conferencias, entrevistas de prensa), entrena un modelo de intercambio de caras y un clon de voz, y durante la videollamada superpone su rostro con el del objetivo mientras habla a través del clon vocal. Herramientas como Deep Live Cam y DeepFaceLive gestionan la superposición facial en tiempo real; sistemas como RVC o Fish Speech procesan la voz con latencia imperceptible.
La evolución temporal de la accesibilidad es tal vez lo más escalofriante. En 2017, cuando aparecieron los primeros deepfakes públicos, crear un vídeo manipulado convincente requería semanas de trabajo, hardware de gama alta y conocimientos avanzados de redes neuronales. En 2022, el proceso se había reducido a días. En 2024, a minutos. En 2026, con herramientas como Deep Live Cam, se ha reducido a segundos. Y el usuario no necesita ningún conocimiento técnico. El proceso se ha simplificado hasta el punto de que la barrera de entrada es, literalmente, saber usar un navegador web.
El escándalo de Grok: cuando la inteligencia artificial desnuda sin consentimiento
Si los deepfakes aplicados al fraude financiero representan una amenaza económica, y los deepfakes políticos representan una amenaza democrática, hay una categoría de deepfakes que representa algo más visceral: una violencia sexual a escala industrial. Y en los primeros meses de 2026, el caso que ha cristalizado con más fuerza la indignación pública —y la acción regulatoria— ha sido el de Grok, el chatbot de inteligencia artificial de xAI, la empresa de Elon Musk.
La cronología es precisa y reveladora.
El 29 de diciembre de 2025, xAI lanzó la capacidad de generación de imágenes de Grok, integrada directamente en la plataforma X (antes Twitter). La función incluía un modo denominado «Spicy Mode» —«modo picante»— que relajaba significativamente los filtros de seguridad, permitiendo la generación de imágenes con contenido sexual o violento que otros generadores de imágenes (DALL-E, Midjourney, Stable Diffusion online) bloqueaban sistemáticamente.
El 31 de diciembre de 2025, Elon Musk interactuó públicamente en X con imágenes generadas por Grok de mujeres en bikini, publicando la palabra «Perfecto» como comentario. Su participación visible animó a otros usuarios a explorar los límites del sistema.
El 2 de enero de 2026, Musk se rió públicamente de imágenes generadas por Grok que representaban a figuras públicas en situaciones comprometedoras.
Los días 5 y 6 de enero, reguladores de la Unión Europea, India y Malasia abrieron investigaciones preliminares sobre el contenido generado por Grok.
El 8 de enero, once días después del lanzamiento, xAI restringió la generación de imágenes a usuarios de pago. Pero el daño ya estaba hecho.
El 12 de enero, Malasia e Indonesia bloquearon el acceso a Grok en sus territorios.
El 16 de enero, el fiscal general de California, Rob Bonta, envió una carta de cease and desist (cese y desista) a xAI, constituyendo la primera acción de cumplimiento bajo la ley AB 621 de California, que prohíbe la generación de imágenes sexuales no consentidas mediante inteligencia artificial.
El 26 de enero, la Comisión Europea abrió un procedimiento formal contra X bajo la Ley de Servicios Digitales (DSA), investigando si la plataforma había incumplido sus obligaciones como Plataforma en Línea de Muy Gran Tamaño (VLOP) al permitir la difusión masiva de contenido ilícito generado por IA.
Y el 16 de marzo de 2026, un grupo de adolescentes de Tennessee presentó una demanda colectiva contra xAI. La denuncia alegaba que Grok había utilizado fotografías escolares de las demandantes —fotos de menores de edad, publicadas en redes sociales por sus familias o colegios— para generar imágenes sexualmente explícitas. En otras palabras: la inteligencia artificial de Musk había convertido fotos de niñas en material de abuso sexual infantil (CSAM, por sus siglas en inglés).
Los datos recopilados por el Center for Countering Digital Hate (CCDH) durante los once días en que Grok estuvo abierto al público general son estremecedores. En ese período de menos de dos semanas, Grok generó aproximadamente 3 millones de imágenes sexualizadas —unas 190 por minuto, las 24 horas del día—. De esas imágenes, al menos 23.000 aparentaban representar a menores de edad. Cuando los investigadores del CCDH intentaron deliberadamente eludir los filtros de seguridad de Grok, lo consiguieron en 45 de 55 intentos —una tasa de fallo del 82%—.
La respuesta de Musk ante las críticas fue una combinación de burla, negación y apelación a la libertad de expresión. Un patrón que los analistas de gobernanza tecnológica ya habían observado en controversias anteriores de X, pero que en este caso chocaba frontalmente con el hecho de que la tecnología de su empresa estaba generando imágenes sexuales de menores de edad a escala industrial.
La epidemia del fraude: estafas, secuestros virtuales y extorsiones con inteligencia artificial
Las cifras de una catástrofe
Si hay un ámbito donde el impacto de los deepfakes puede medirse con precisión, es el fraude financiero. Y las cifras de 2025-2026 dibujan un panorama que los expertos en ciberseguridad describen sin hipérbole como una «pandemia de fraude».
Según datos recopilados por Keepnet Labs, uno de cada cuatro estadounidenses ha sido objetivo de una estafa con voz clonada por IA. El fraude basado en voz sintética ha crecido un 680% interanual. Las pérdidas directas por estafas con deepfake en Estados Unidos alcanzaron los 1.100 millones de dólares en 2025, y las proyecciones de la industria de ciberseguridad sitúan la cifra en 40.000 millones de dólares para 2027. La Cumbre Global sobre Fraude, celebrada en Viena los días 16 y 17 de marzo de 2026 bajo el auspicio conjunto de la UNODC (Oficina de las Naciones Unidas contra la Droga y el Delito) e INTERPOL, reveló que las pérdidas globales por fraude ascienden a 442.000 millones de dólares, que las estafas potenciadas por IA son 4,5 veces más rentables que las tradicionales, y que una proporción creciente de estas operaciones están organizadas por redes criminales que utilizan trabajadores forzados —víctimas de trata de personas— en centros de estafas del sudeste asiático, particularmente en Myanmar, Camboya y Laos.
El caso Arup, diseccionado
Volvamos al caso que abrió este artículo para analizar su mecánica con mayor detalle. Los criminales que estafaron a Arup no improvisaron. Estudiaron la estructura corporativa de la empresa. Identificaron al director financiero y a otros ejecutivos clave. Recopilaron material audiovisual público —entrevistas, conferencias, vídeos corporativos— de cada uno de ellos. Entrenaron modelos de deepfake facial y clones vocales para cada ejecutivo. Y orquestaron una videoconferencia donde múltiples avatares sintéticos interactuaron de forma coordinada, respondiendo preguntas y dando instrucciones que resultaban coherentes con los roles y responsabilidades de las personas que suplantaban.
El empleado no era negligente ni ingenuo. Seguía un protocolo que, hasta ese momento, se consideraba razonablemente seguro: verificar la identidad de los interlocutores mediante reconocimiento visual y auditivo en una videollamada. El problema es que ese protocolo asumía que ver y oír a una persona en vídeo era prueba suficiente de que esa persona era real. Una asunción que en 2026 es tan anticuada como confiar en un sello de lacre para autenticar un documento.
El precedente del CEO británico
El caso Arup no fue el primero de su tipo. Ya en 2019, los directivos de una empresa energética británica filial de un grupo alemán recibieron una llamada telefónica de lo que parecía ser el CEO de la matriz. La voz tenía lo que el empleado que atendió describió como «el acento alemán y la melodía» característicos de su superior. El falso CEO ordenó una transferencia urgente de 220.000 euros (aproximadamente 243.000 dólares) a un proveedor húngaro. El empleado obedeció. El dinero desapareció a través de una cadena de cuentas en Hungría, México y otros destinos. Aquel caso, cubierto por el Wall Street Journal, fue uno de los primeros en los que se documentó el uso de clonación de voz por IA en un fraude corporativo real. Lo que entonces era un incidente aislado es ahora una industria.
Secuestros virtuales y estafas familiares
Pero el fraude corporativo, por espectacular que sea en sus cifras, no es la aplicación más cruel de la clonación de voz. Ese dudoso honor corresponde a las estafas de secuestro virtual, que explotan el vínculo emocional más poderoso que existe: el amor de un padre o una madre por sus hijos.
El esquema es devastadoramente simple. El criminal obtiene una muestra de la voz de una persona joven —un mensaje de voz de WhatsApp, un vídeo de TikTok, un story de Instagram—. Clona la voz con una de las herramientas gratuitas disponibles. Y llama al padre o la madre de esa persona. Al otro lado de la línea, el progenitor escucha la voz de su hijo o hija llorando, suplicando, gritando que le están haciendo daño. Los nuevos sistemas de transferencia de emoción hacen que el llanto suene genuino, que la voz tiemble con terror real, que las súplicas se entrecorten con sollozos que activan el pánico más primario del cerebro humano. Después del audio, otro interlocutor toma la línea e indica que han secuestrado al hijo/a y exigen una transferencia inmediata. En un estado de terror, sin tiempo para pensar, sin capacidad de verificar —porque el criminal mantiene la línea ocupada precisamente para impedir que el padre llame al supuesto secuestrado—, muchas víctimas transfieren miles o decenas de miles de euros antes de descubrir que su hijo nunca estuvo en peligro.
Estos casos se cuentan ya por miles. En Estados Unidos, familias han reportado pérdidas de hasta 15.000 dólares en una sola llamada de este tipo. La efectividad de la estafa se ha disparado desde que las herramientas de clonación incorporaron transferencia emocional: no es lo mismo escuchar una voz monótona que dice «mamá, me han secuestrado» que escuchar la voz exacta de tu hija adolescente quebrándose en sollozos incontrolables.
Fraude al por mayor: mil llamadas al día
A nivel sectorial, las cifras son igualmente alarmantes. Las empresas del sector minorista y de servicios financieros reportan más de 1.000 llamadas de estafa generadas por IA al día. Según análisis de la industria, 3 de cada 10 intentos de fraude en sectores como banca y telecomunicaciones ya incorporan algún componente generado por inteligencia artificial, ya sea voz clonada, texto automatizado o identidades visuales sintéticas.
La industrialización del fraude con IA tiene una dimensión geopolítica que la Cumbre Global de Viena puso sobre la mesa con crudeza. En el sudeste asiático, particularmente en zonas fronterizas de Myanmar, Camboya y Laos, operan complejos industriales de estafas donde miles de personas —muchas de ellas víctimas de trata, reclutadas con falsas ofertas de empleo y retenidas contra su voluntad— realizan llamadas de fraude las 24 horas del día. Estos centros, que antes dependían de operadores humanos que debían hablar el idioma de la víctima, ahora utilizan herramientas de clonación de voz y traducción automática para operar en cualquier idioma del mundo. Un trabajador que habla mandarín puede estafar a una víctima en español: la IA traduce el guión, clona una voz hispanohablante, y la llamada suena completamente nativa. El resultado es que las estafas potenciadas por IA son 4,5 veces más rentables que las tradicionales, según los datos de la UNODC presentados en la cumbre, porque la IA elimina las barreras lingüísticas, reduce el coste por operación y permite escalar las operaciones fraudulentas a un nivel antes inimaginable.
La siguiente tabla resume los principales fraudes documentados con deepfakes:
| Caso | Fecha | Método | Pérdida |
|---|---|---|---|
| Arup (Hong Kong) | Enero 2024 | Deepfake de vídeo en videoconferencia | 25,6 M USD |
| CEO empresa energética (UK) | 2019 | Clonación de voz por teléfono | 243.000 USD |
| Secuestros virtuales (miles de casos, EE.UU.) | 2024-2026 | Voz clonada con transferencia emocional | Hasta 15.000 USD por caso |
| Fraude bancario minorista (acumulado) | 2025 | Llamadas con voz sintética | 1.100 M USD (EE.UU.) |
| Estimación global (UNODC/INTERPOL) | 2025-2026 | Todos los métodos con IA | 442.000 M USD |
Deepfakes en la política: la desinformación electoral del siglo XXI
James Talarico y el anuncio electoral hiperrealista
El 13 de marzo de 2026, CNN reveló un caso que encendió todas las alarmas sobre el uso de deepfakes en las elecciones intermedias de Estados Unidos. El National Republican Senatorial Committee (NRSC) publicó un anuncio de vídeo de 85 segundos de duración contra James Talarico, representante estatal demócrata de Texas y candidato a una nominación federal. El vídeo mostraba a Talarico diciendo cosas que nunca dijo, con una apariencia y una voz que parecían auténticas. Técnicamente, el anuncio incluía una etiqueta «AI GENERATED» —generado por IA—, pero Hany Farid, profesor de la Universidad de California en Berkeley y uno de los principales expertos mundiales en análisis forense digital, señaló que la etiqueta era «apenas visible» y que el deepfake presentaba solo «una ligera desalineación» detectable únicamente por un especialista examinando el vídeo fotograma a fotograma.
El caso Talarico puso de manifiesto un vacío legal alarmante. La ley de Texas que regula los deepfakes electorales solo prohíbe su uso durante los 30 días anteriores a la elección. El anuncio se publicó fuera de esa ventana temporal. Lo que significa que un partido político puede utilizar inteligencia artificial para poner palabras en la boca de su oponente, de forma hiperrealista y ante millones de votantes, siempre que lo haga más de un mes antes de las urnas. La ley, diseñada para un mundo donde la manipulación era costosa y lenta, resulta grotescamente inadecuada para una era donde crear un deepfake político lleva minutos.
La carrera de deepfakes en las midterms de 2026
El anuncio contra Talarico no fue un caso aislado. Las elecciones intermedias de 2026 en Estados Unidos se están desarrollando bajo lo que los analistas han denominado la primera «campaña de deepfakes» de la historia. El fiscal general de Texas, Ken Paxton, difundió un vídeo manipulado por IA que mostraba al senador John Cornyn bailando de forma ridícula, en un intento de desacreditarle ante los votantes republicanos durante las primarias. Cornyn respondió con su propia arma sintética: un deepfake del congresista Wesley Hunt, diseñado para ridiculizar a un aliado de su rival. La escalada fue inmediata y simétrica: ambos bandos recurrieron a la misma tecnología, y ninguno pagó un precio político significativo por hacerlo.
Lo que resulta especialmente preocupante es la normalización. En ciclos electorales anteriores, la manipulación de imágenes o vídeos era un escándalo en sí mismo: el acto de fabricar una prueba visual se percibía como una línea roja que deslegitimaba a quien la cruzara. En 2026, esa línea ha desaparecido. Los deepfakes electorales se tratan como una «táctica más» del arsenal de campaña, al nivel de los anuncios negativos o la publicidad micro-segmentada. Los equipos de comunicación de los partidos ya no debaten si usar deepfakes, sino cómo usarlos de la forma más efectiva posible sin incurrir en responsabilidad legal. La política estadounidense ha entrado en una era donde la realidad del oponente es opcional y donde la fabricación de pruebas visuales se ha convertido en una herramienta normalizada que amenaza los cimientos del debate democrático informado.
El precedente de la robocall de Biden: impunidad
Para comprender por qué los deepfakes políticos proliferan sin freno, resulta instructivo analizar un caso anterior: el de la robocall deepfake de Joe Biden durante las primarias de New Hampshire en enero de 2024.
Un operador político llamado Steve Kramer contrató a un ilusionista llamado Paul Carpenter para crear una grabación que imitara la voz de Biden. El coste del software fue de un dólar. La grabación tardó veinte minutos en producirse. Kramer utilizó un servicio automatizado para enviarla a más de 5.000 votantes de New Hampshire. En la grabación, el falso Biden instaba a los demócratas a no votar en las primarias, un mensaje diseñado para suprimir la participación electoral.
La FCC (Comisión Federal de Comunicaciones) propuso una multa de 6 millones de dólares. Kramer fue imputado con 13 cargos de delito grave (felony) por supresión del voto y fraude electoral. El caso parecía destinado a sentar un precedente disuasorio. Pero en junio de 2025, un jurado de New Hampshire absolvió a Kramer de todos los cargos. La noticia cayó como un jarro de agua fría sobre quienes esperaban que el sistema judicial pudiera contener el uso de deepfakes en campaña. Si un caso con un acusado identificado, una grabación documentada, un método explícito y 5.000 víctimas no resultaba en condena, ¿qué caso lo haría?
La estadística oscura: pornografía no consentida
Mientras los deepfakes políticos capturan titulares, la estadística más reveladora sobre el uso real de esta tecnología permanece en un segundo plano incómodo. Según múltiples investigaciones, entre el 96% y el 98% de todos los deepfakes en circulación son pornografía no consentida. Y entre el 99% y el 100% de las víctimas son mujeres. Los deepfakes no son, en su uso mayoritario, una herramienta de fraude financiero ni de manipulación política. Son, abrumadoramente, una herramienta de violencia sexual digital.
Deepfakes en las escuelas: la pesadilla de una generación
La intersección más perturbadora de estas tendencias se produce cuando la víctima no es un político o un CEO, sino un adolescente. Encuestas recientes indican que el 15% de los estudiantes en centros educativos de Estados Unidos y Europa conocen casos de imágenes sexuales generadas por IA de compañeros de clase. El Centro Nacional para Menores Desaparecidos y Explotados (NCMEC) de Estados Unidos ha documentado un crecimiento exponencial en las denuncias de material de abuso sexual infantil generado por IA: 4.700 reportes en 2023, 67.000 en 2024, y 440.000 en los primeros seis meses de 2026.
En España, el caso de Almendralejo sacudió a la opinión pública en septiembre de 2023. Un grupo de menores de entre 13 y 15 años utilizó la aplicación ClothOff —una herramienta de IA que genera imágenes de desnudos a partir de fotografías de personas vestidas— para crear y difundir imágenes sexuales falsas de 20 compañeras de clase, todas ellas también menores de edad. El caso llegó a los tribunales y 15 menores fueron condenados, pero las penas fueron necesariamente leves debido a la edad de los autores. El daño psicológico para las víctimas, según las familias, fue devastador y duradero. Almendralejo no fue un caso aislado: fue la punta visible de un iceberg que las autoridades españolas empiezan a reconocer como una crisis de salud pública y de convivencia escolar.
Deepfakes en la guerra: el enemigo sintético
La manipulación política mediante deepfakes tiene también su expresión en el ámbito militar. El caso más conocido es el vídeo de rendición falsa de Volodímir Zelenski, publicado en marzo de 2022 poco después del inicio de la invasión rusa de Ucrania. En aquel vídeo, un Zelenski sintético instaba a los soldados ucranianos a deponer las armas. La calidad era mediocre —la cabeza era demasiado grande para el cuerpo, los movimientos eran rígidos— y el vídeo fue rápidamente identificado como falso.
Pero en agosto de 2025, una versión mucho más sofisticada —conocida como Geroy-3— circuló por canales de Telegram ucranianos. Esta versión incorporaba mejoras sustanciales en la sincronización labial, el movimiento corporal y la calidad de la voz clonada. Aunque también fue detectada y desmentida, la diferencia de calidad entre la versión de 2022 y la de 2025 ilustra la velocidad a la que evoluciona la tecnología: lo que en 2022 era un montaje burdo detectable por cualquier espectador atento se había convertido en 2025 en una simulación que requería análisis forense para ser descartada con certeza.
Los deepfakes militares plantean un escenario particularmente peligroso porque operan en contextos donde la verificación es difícil o imposible. Un soldado en el frente que recibe un mensaje de vídeo aparentemente grabado por su comandante en jefe ordenando la rendición no dispone, en el fragor del combate, de las herramientas ni del tiempo necesarios para verificar la autenticidad del mensaje. Si esta trayectoria continúa, los expertos advierten que en pocos años será técnicamente posible fabricar discursos presidenciales completos, indistinguibles de los reales, que podrían ser difundidos en momentos de crisis para sembrar confusión entre tropas y población civil. La doctrina militar de la OTAN ya ha comenzado a incorporar protocolos de autenticación de comunicaciones diseñados específicamente para resistir ataques de deepfake, incluyendo sistemas de verificación criptográfica que van más allá del reconocimiento visual o auditivo.
El marco legal: de la TAKE IT DOWN Act al Reglamento Europeo de Inteligencia Artificial
Estados Unidos: un mosaico legislativo fragmentado
La respuesta legislativa de Estados Unidos a los deepfakes refleja tanto la urgencia del problema como las limitaciones estructurales de un sistema federal donde la competencia sobre contenidos digitales se reparte entre el gobierno federal y cincuenta estados con legislaciones independientes.
A nivel federal, el hito más significativo ha sido la TAKE IT DOWN Act (Ley «Retíralo»), firmada por el presidente en mayo de 2025. La ley establece que las plataformas digitales deben retirar imágenes íntimas no consentidas generadas por IA en un plazo de 48 horas desde que la víctima presente una denuncia. La publicación de este tipo de contenido se castiga con penas de hasta tres años de prisión. La ley fue impulsada con apoyo bipartidista después de que el escándalo de las imágenes deepfake de Taylor Swift —que se difundieron masivamente en enero de 2024, alcanzando decenas de millones de visualizaciones antes de ser retiradas— demostrara que las plataformas no actuaban con la rapidez necesaria cuando las víctimas no eran celebridades con recursos legales.
En enero de 2026, el Senado presentó la DEFIANCE Act (Ley de Desafío), que complementa la TAKE IT DOWN Act añadiendo un derecho de acción civil para las víctimas: cualquier persona cuya imagen haya sido utilizada para crear un deepfake sexual podrá demandar al creador y al distribuidor por daños de entre 150.000 y 250.000 dólares. La NO FAKES Act, aún en tramitación, busca proteger la voz y la imagen de las personas como derechos de propiedad intelectual, extendiendo la protección más allá de las celebridades a cualquier ciudadano.
A nivel estatal, la actividad legislativa ha sido frenética. A fecha de marzo de 2026, 48 de los 50 estados han aprobado algún tipo de legislación relacionada con deepfakes. Desde 2022, se han promulgado 169 leyes estatales sobre la materia, de las cuales 64 se aprobaron solo en 2025. California lidera en alcance y severidad: la ley AB 602 permite demandas civiles contra creadores de deepfakes sexuales; la AB 730 prohíbe la distribución de deepfakes electorales en los 60 días previos a una elección; y la AB 621, la ley bajo la cual el fiscal general actuó contra Grok, prohíbe la creación de imágenes sexuales no consentidas mediante IA. Texas promulgó la ley TRIAGA, que criminaliza los deepfakes sexuales con penas de prisión. Y Colorado aprobó una ley integral de IA que entrará en vigor en junio de 2026 y que incluye obligaciones de etiquetado, transparencia y responsabilidad para los sistemas de generación de contenido sintético.
El desafío pendiente es la Sección 230 de la Communications Decency Act, que históricamente ha protegido a las plataformas de responsabilidad por el contenido publicado por sus usuarios. Los críticos argumentan que esta protección se concibió para un internet donde las plataformas eran meras intermediarias pasivas, y que resulta inadecuada cuando las propias plataformas proporcionan las herramientas de IA que generan el contenido dañino. La TAKE IT DOWN Act limita parcialmente la Sección 230 al imponer obligaciones activas de retirada, pero el debate sobre una reforma más profunda sigue abierto.
La Unión Europea: el Reglamento de IA y la Ley de Servicios Digitales
Europa ha adoptado un enfoque estructuralmente diferente. En lugar de legislar reactivamente caso por caso, la UE ha integrado la regulación de los deepfakes dentro de dos marcos normativos amplios: el Reglamento Europeo de Inteligencia Artificial (AI Act) y la Ley de Servicios Digitales (DSA).
El artículo 50 del Reglamento de IA establece una obligación de transparencia que entrará en pleno vigor el 2 de agosto de 2026: todo contenido generado o manipulado por inteligencia artificial —incluyendo imágenes, vídeos y audio— debe ser etiquetado de forma legible por máquina. No basta con una etiqueta visible que el usuario pueda ver o ignorar; el etiquetado debe estar embebido en los metadatos del archivo de forma que los sistemas automatizados puedan detectar y señalar el contenido sintético. Las sanciones por incumplimiento pueden alcanzar los 35 millones de euros o el 7% de la facturación anual global de la empresa infractora, la cifra que sea mayor. La Comisión Europea está desarrollando un Código de Prácticas sobre Transparencia que se espera sea publicado entre mayo y junio de 2026, estableciendo las especificaciones técnicas del etiquetado.
El artículo 35 de la DSA complementa esta obligación exigiendo a las Plataformas en Línea de Muy Gran Tamaño (VLOPs, por sus siglas en inglés —aquellas con más de 45 millones de usuarios activos mensuales en la UE—) que identifiquen y marquen proactivamente el contenido deepfake. No es suficiente que la plataforma espere a que un usuario denuncie: la plataforma debe implementar sistemas de detección automática. Es bajo esta disposición de la DSA que la Comisión Europea abrió el procedimiento contra X por el escándalo de Grok.
España: derecho a la imagen, código penal y la AEPD
En España, el marco legal que se aplica a los deepfakes es un mosaico de normas preexistentes que los juristas están adaptando, con mayor o menor éxito, a una tecnología que nadie previó cuando se redactaron. A diferencia de Estados Unidos, donde la legislación ha surgido como respuesta reactiva a escándalos específicos, y a diferencia de la UE, donde el enfoque ha sido sistémico y preventivo, España se encuentra en una posición intermedia: cuenta con un cuerpo normativo robusto en materia de protección de la imagen y la intimidad, pero carece todavía de legislación específica para contenidos generados por inteligencia artificial.
La Ley Orgánica 1/1982, de protección civil del derecho al honor, a la intimidad personal y familiar y a la propia imagen, es la norma fundamental que protege la imagen de las personas. Se está discutiendo una reforma específica para incluir las manipulaciones mediante IA como una intromisión ilegítima en el derecho a la propia imagen. El Código Penal ofrece protección a través del artículo 173 (delitos contra la integridad moral, que incluye la humillación y el trato degradante) y del artículo 172 ter (acoso, que puede abarcar la difusión reiterada de deepfakes como forma de hostigamiento). La Ley Orgánica 10/2022, de garantía integral de la libertad sexual —conocida como ley del «Solo sí es sí»— incluye disposiciones sobre violencia sexual digital que pueden aplicarse a la creación y difusión de deepfakes sexuales no consentidos.
La Agencia Española de Protección de Datos (AEPD) ha asumido un papel activo en la lucha contra los deepfakes. El 17 de marzo de 2026, la AEPD lanzó la campaña «Los deepfakes no son una broma», dirigida especialmente a adolescentes y centros educativos, con materiales informativos y una guía práctica para víctimas. En noviembre de 2025, la AEPD dictó la que se considera la primera sanción administrativa por IA en España, derivada precisamente del caso de Almendralejo: una multa de 2.000 euros a uno de los menores implicados (actuando contra los padres como responsables legales). La cuantía, deliberadamente moderada por tratarse de menores, fue criticada por algunos colectivos como insuficiente, pero la AEPD subrayó que el valor del caso residía en el precedente jurídico: la confirmación de que la creación de deepfakes sexuales constituye un tratamiento ilícito de datos personales sancionable bajo el RGPD.
La siguiente tabla sintetiza el panorama legislativo por jurisdicción:
| Jurisdicción | Legislación clave | Estado | Sanciones máximas |
|---|---|---|---|
| EE.UU. (federal) | TAKE IT DOWN Act | En vigor (mayo 2025) | 3 años de prisión |
| EE.UU. (federal) | DEFIANCE Act | En tramitación (Senado, enero 2026) | 150.000-250.000 USD civil |
| California | AB 602, AB 730, AB 621 | En vigor | Daños civiles + responsabilidad penal |
| Texas | TRIAGA | En vigor | Prisión + multas |
| UE | AI Act (art. 50) | Plena aplicación: 2 agosto 2026 | 35 M EUR o 7% facturación global |
| UE | DSA (art. 35) | En vigor para VLOPs | 6% facturación global |
| España | LO 1/1982, CP arts. 173/172ter, LO 10/2022 | En vigor (reforma en discusión) | Variable según tipo penal |
| Corea del Sur | Ley contra deepfakes sexuales (2024) | En vigor | 5 años de prisión |
Detección y contramedidas: la carrera armamentística digital
C2PA y Content Credentials: la firma digital de la realidad
Si los deepfakes atacan la confianza en lo que vemos y oímos, la defensa más prometedora opera en el nivel contrario: en lugar de intentar detectar lo falso, certificar lo auténtico. Esta es la filosofía detrás de la Coalition for Content Provenance and Authenticity (C2PA), una alianza industrial que incluye a Google, Microsoft, Adobe, Intel, la BBC, Leica, Nikon, Sony y decenas de otras empresas y organizaciones.
C2PA funciona como un notario digital. Cuando una cámara certificada (como las últimas Leica o Nikon) toma una fotografía, el dispositivo firma criptográficamente la imagen en el momento de la captura, registrando metadatos como la fecha, la hora, la ubicación GPS y el hash del archivo original. Esa firma se almacena como una Content Credential —una credencial de contenido— que viaja adherida a la imagen como una marca de agua invisible pero verificable. Si alguien modifica la imagen posteriormente, la firma deja de coincidir con el contenido, y cualquier sistema C2PA detecta la discrepancia.
La tecnología se extiende también al contenido generado por IA. Cuando un sistema como DALL-E o Midjourney crea una imagen, puede incluir automáticamente una Content Credential que declare: «Este contenido fue generado por inteligencia artificial en tal fecha por tal sistema». La credencial está criptográficamente protegida y no puede ser eliminada sin dejar rastro. Es, en esencia, una cadena de custodia digital que permite a cualquier persona verificar el origen y la historia de modificaciones de un contenido multimedia.
La adopción de C2PA se está acelerando. Google ha anunciado la integración en Chrome y en YouTube; Adobe lo incorpora en toda su suite Creative Cloud; los principales fabricantes de cámaras ya incluyen chips C2PA en sus modelos de gama alta. El artículo 50 del Reglamento Europeo de IA, cuando entre en plena aplicación en agosto de 2026, convertirá de facto el etiquetado C2PA (u otro equivalente) en una obligación legal para todo contenido generado por IA que circule en la Unión Europea.
Sin embargo, C2PA tiene una limitación fundamental: solo funciona si toda la cadena de distribución lo respeta. Si un usuario descarga una imagen certificada, le hace una captura de pantalla y sube la captura a otra plataforma, la Content Credential se pierde. El contenido queda «desnudo» de metadatos, indistinguible de cualquier otra imagen. Este problema —conocido como el «problema de la captura de pantalla»— es el talón de Aquiles de la certificación de origen, y es la razón por la que C2PA necesita complementarse con marcas de agua embebidas en el propio contenido, que sobreviven a las transformaciones.
Marcas de agua digitales: SynthID, AudioSeal y Meta Seal
Mientras C2PA certifica el origen del contenido, las marcas de agua digitales (digital watermarking) actúan desde dentro del propio contenido. Una marca de agua digital es una señal imperceptible embebida en una imagen, un vídeo o un archivo de audio que identifica al contenido como generado por IA, de forma que pueda ser detectada automáticamente incluso si el contenido es capturado como screenshot, comprimido, recortado o redistribuido a través de múltiples plataformas.
SynthID, desarrollado por Google DeepMind, es actualmente el sistema de marcas de agua más extendido. Google ha marcado con SynthID más de 10.000 millones de piezas de contenido generado por sus modelos de IA. La marca de agua se integra en la señal a nivel de píxeles (para imágenes) o de muestras de audio (para sonido), de forma que es imperceptible para el oído y el ojo humanos pero detectable por algoritmos específicos.
AudioSeal, desarrollado por Meta AI, es un sistema de marcas de agua específicamente diseñado para audio. A diferencia de los sistemas genéricos de watermarking, AudioSeal fue entrenado para resistir las transformaciones más comunes que sufre el audio en el mundo real: compresión, transcodificación, adición de ruido de fondo, recorte temporal. Su precisión de detección oscila entre el 90% y el 100% según las condiciones, una cifra notable para un problema tan difícil.
Meta Seal, anunciado por Meta en marzo de 2026 y liberado como código abierto bajo licencia MIT, representa un salto cualitativo. Meta Seal combina marcas de agua y Content Credentials en un solo sistema, y su naturaleza de código abierto significa que cualquier desarrollador, empresa u organización puede integrarlo en sus productos sin coste ni restricciones. La decisión de Meta de liberar esta tecnología como software libre refleja un reconocimiento pragmático: la lucha contra los deepfakes no puede ganarse con herramientas propietarias que solo usan unos pocos. Necesita ser una infraestructura pública, accesible para todos.
Detección por aprendizaje automático: la inteligencia artificial contra sí misma
Junto a la certificación de origen y las marcas de agua, existe una tercera línea de defensa: los sistemas de detección automatizada que utilizan aprendizaje automático para analizar contenido multimedia e identificar señales de manipulación.
Sensity AI, una de las empresas líderes en este campo, reporta tasas de detección del 98% en condiciones de laboratorio. Su sistema analiza centenares de características visuales imperceptibles para el ojo humano: inconsistencias en la iluminación, patrones de ruido que difieren entre la cara y el fondo, artefactos en los bordes donde el rostro sintético se integra con el cuerpo real, frecuencias espectrales anómalas.
Intel FakeCatcher utiliza un enfoque particularmente ingenioso: analiza la señal fotopletismográfica (PPG), es decir, los cambios sutiles de color en la piel causados por el flujo sanguíneo. Cuando el corazón late, las arterias se dilatan ligeramente y la piel del rostro cambia imperceptiblemente de color —un fenómeno invisible a simple vista pero detectable por algoritmos que analizan la variación de píxeles a lo largo del tiempo—. Un rostro humano real muestra esta señal PPG; un rostro sintético, por perfecto que sea visualmente, no tiene corazón que lata y por lo tanto no muestra el patrón. FakeCatcher reporta una precisión del 96%. Microsoft Video Authenticator combina múltiples técnicas de análisis para ofrecer una puntuación de confianza sobre la autenticidad de un vídeo.
La cruda realidad: la carrera la está ganando la creación
Las cifras de precisión en laboratorio son impresionantes. Pero la realidad del campo de batalla es considerablemente menos alentadora. Cuando los sistemas de detección se enfrentan a contenido «en libertad» —deepfakes difundidos por redes sociales, comprimidos, capturados como screenshots, procesados por múltiples plataformas—, la precisión cae entre un 45% y un 50%. Es decir, el sistema no acierta más que si lanzara una moneda al aire.
Hay una asimetría estructural que favorece a los creadores de deepfakes. La tecnología de creación está creciendo a un ritmo del 900% anual, impulsada por miles de investigadores y empresas que compiten por crear modelos más realistas, más rápidos y más accesibles. La tecnología de detección crece entre un 28% y un 42% anual, con una fracción del presupuesto y la mano de obra. Es como una carrera donde un corredor va en motocicleta y el otro a pie.
Y luego está el factor humano. Los estudios sobre la capacidad de las personas para detectar deepfakes a simple vista arrojan resultados descorazonadores: el ser humano medio identifica correctamente un deepfake entre el 55% y el 60% de las veces. Para ponerlo en contexto, si alguien lanzara una moneda al aire para decidir si un vídeo es real o falso, acertaría el 50% de las veces. La capacidad humana de detección supera apenas el azar. Y esto antes de considerar factores agravantes como la prisa, la distracción, el sesgo de confirmación o el estado emocional —factores todos ellos presentes precisamente en los contextos donde los deepfakes causan más daño: videollamadas corporativas urgentes, llamadas telefónicas que anuncian una emergencia, vídeos virales que confirman lo que el espectador ya quería creer—.
Qué puede hacer el ciudadano: guía práctica de supervivencia en la era del deepfake
Protección personal y familiar
Ante un panorama tecnológico donde la defensa institucional avanza más lentamente que la amenaza, la primera línea de protección recae inevitablemente sobre el ciudadano individual. Las siguientes medidas no son infalibles —ninguna lo es cuando la tecnología de engaño es tan sofisticada—, pero reducen significativamente el riesgo.
Establece una palabra clave familiar. La defensa más efectiva contra las estafas de secuestro virtual es la más sencilla: acuerda con tu familia una palabra o frase secreta que solo los miembros del núcleo familiar conozcan. Si alguien llama diciendo que ha secuestrado a tu hijo y la voz suena exactamente como la de tu hijo, pide que diga la palabra clave. Ningún sistema de clonación de voz puede pronunciar una palabra que no conoce. Esta medida, casi primitiva en su simplicidad, es probablemente la más efectiva de todas las enumeradas en este artículo.
Minimiza tu huella vocal en internet. Cada vídeo que publicas en redes sociales, cada nota de voz que envías, cada participación en un podcast, es material potencial para clonar tu voz. No se trata de desaparecer de internet —algo poco realista en 2026—, sino de ser consciente de que tu voz es ahora un dato biométrico que puede ser copiado y utilizado en tu contra. Revisa la configuración de privacidad de tus redes sociales. Limita el acceso público a tus vídeos y mensajes de voz.
Verifica antes de actuar. Si recibes una llamada urgente que te pide dinero o información sensible, cuelga y llama tú al número conocido de la persona que supuestamente te está llamando. Los criminales que usan deepfakes dependen de la urgencia: necesitan que actúes antes de que pienses. Romper esa dinámica —tomarse sesenta segundos para verificar— desarma la mayoría de las estafas.
Desconfía de las videollamadas inesperadas con instrucciones financieras. El caso Arup demuestra que incluso una videollamada con el «director financiero» puede ser falsa. Si alguien solicita transferencias durante una videollamada, verifica la instrucción a través de un canal independiente: un mensaje de texto al número personal del ejecutivo, un correo electrónico a una dirección verificada, una confirmación en persona si es posible.
Protección para empresas
Implementa autenticación multifactor para instrucciones financieras. Ninguna transferencia significativa debería ejecutarse basándose exclusivamente en una instrucción verbal o visual, por videoconferencia o por teléfono. Las empresas deben exigir confirmación por al menos dos canales independientes: si la instrucción llega por videollamada, la confirmación debe llegar por correo electrónico firmado digitalmente, o viceversa. Los protocolos de autorización financiera diseñados antes de 2023 deben revisarse asumiendo que la voz y la imagen ya no son prueba de identidad.
Forma a tus empleados. La ingeniería social funciona porque las personas no están preparadas para desconfiar de lo que ven y oyen. Los programas de formación en ciberseguridad deben incluir ahora módulos específicos sobre deepfakes, con ejemplos reales, simulaciones prácticas y protocolos de verificación claros.
Adopta estándares C2PA. Las empresas que producen o distribuyen contenido multimedia —medios de comunicación, agencias de publicidad, productoras, departamentos de marketing— deberían integrar Content Credentials en sus flujos de trabajo. Certificar el contenido en el momento de la creación es infinitamente más fácil que intentar demostrar su autenticidad después.
Hacia dónde vamos
El panorama que dibuja este artículo no invita al optimismo fácil, pero tampoco al fatalismo. La historia de la tecnología está llena de momentos en los que una nueva capacidad destructiva pareció incontrolable —desde la imprenta hasta la pólvora, desde la energía nuclear hasta internet— y en los que la sociedad, con retraso y con imperfecciones, terminó desarrollando marcos institucionales, legales y tecnológicos para gestionar los riesgos. Los deepfakes no serán la excepción. Pero el intervalo entre la aparición de la amenaza y la consolidación de las defensas es un período peligroso, y estamos en medio de él.
Para las empresas españolas, el mensaje es inequívoco: los protocolos de ciberseguridad que no contemplen la amenaza de deepfakes están obsoletos. Cualquier organización que autorice transferencias financieras basándose exclusivamente en la identidad visual o auditiva de una persona en una videollamada está operando con una vulnerabilidad estructural equivalente a dejar la puerta del servidor sin contraseña. La autenticación multifactor, las palabras clave, los canales de verificación independientes y la formación específica del personal no son lujos: son el mínimo imprescindible para operar con seguridad razonable en 2026.
Para los ciudadanos, la prevención empieza por la conciencia. Saber que tu voz puede ser clonada en tres segundos cambia la forma en que deberías gestionar tu presencia digital. Saber que un deepfake puede imitar el llanto de tu hijo cambia la forma en que deberías responder a una llamada de emergencia. Saber que el vídeo de un político diciendo algo escandaloso puede haber sido fabricado en minutos cambia la forma en que deberías procesar las noticias que consumes.
El Reglamento Europeo de IA, cuando entre en plena aplicación en agosto de 2026, establecerá por primera vez una obligación legal de transparencia para el contenido sintético a escala continental. Los estándares C2PA, cuando alcancen masa crítica de adopción, crearán una infraestructura de autenticación que hará más fácil distinguir lo real de lo fabricado. Las marcas de agua como SynthID y Meta Seal, desplegadas a escala en los principales modelos generativos, añadirán una capa adicional de trazabilidad.
Pero nada de esto resolverá el problema subyacente. Porque el problema no es solo tecnológico. Es epistemológico. Los deepfakes no solo amenazan la seguridad financiera o la integridad electoral: amenazan la premisa básica sobre la que funciona la comunicación humana, la premisa de que lo que vemos y oímos es, generalmente, lo que existe. Cuando esa premisa se erosiona —cuando un padre no puede confiar en que la voz que llora al teléfono sea la de su hijo, cuando un votante no puede confiar en que el vídeo de un candidato sea real, cuando un empleado no puede confiar en que las personas que ve en una videollamada existan—, lo que está en juego no es solo dinero ni votos. Es la confianza misma como fundamento de la vida social.
El filósofo político italiano Norberto Bobbio escribió que la democracia es «el gobierno del poder público en público»: un sistema donde las decisiones se toman a la vista de todos y donde los ciudadanos pueden verificar lo que sus representantes dicen y hacen. Los deepfakes subvierten esta premisa. Si cualquier declaración pública puede ser fabricada y cualquier desmentido puede ser también fabricado, el espacio público se convierte en un territorio donde todo es potencialmente cierto y potencialmente falso al mismo tiempo —una condición que beneficia sistemáticamente a quien miente, porque para el mentiroso basta con sembrar duda, mientras que quien dice la verdad necesita certeza—.
Volvamos, para terminar, al empleado de Arup. Ese hombre no era crédulo ni incompetente. Hizo lo que cualquier profesional habría hecho: confiar en sus sentidos. Vio a sus colegas, oyó sus voces, interpretó sus gestos. Su error no fue de juicio; fue de epistemología. Asumió que ver era creer. Y esa asunción, que durante toda la historia de la humanidad fue razonable, ha dejado de serlo.
En 2026, ver ya no es creer. Oír ya no es creer. La realidad necesita ahora lo que nunca antes había necesitado: prueba.
Referencias
[1] «2026 Deepfakes outlook forecast: AI-generated fake content to become indistinguishable.» Fortune, 27 de diciembre de 2025. https://fortune.com/2025/12/27/2026-deepfakes-outlook-forecast/
[2] «James Talarico AI deepfake: Republicans use hyper-realistic AI-generated ad in Texas midterm race.» CNN, 13 de marzo de 2026. https://www.cnn.com/2026/03/13/politics/james-talarico-ai-deepfake-republicans-midterms
[3] «UN Global Fraud Summit: AI-enhanced fraud losses reach $442 billion.» UN News, 17 de marzo de 2026. https://news.un.org/en/story/2026/03/1167144
[4] «Attorney General Bonta sends cease and desist letter to xAI, demands it halt illegal generation of non-consensual intimate imagery.» California Office of the Attorney General, 16 de enero de 2026. https://oag.ca.gov/news/press-releases/attorney-general-bonta-sends-cease-and-desist-letter-xai-demands-it-halt-illegal
[5] TAKE IT DOWN Act, S.146, 119th Congress. https://www.congress.gov/bill/119th-congress/senate-bill/146/text
[6] «Reglamento de Inteligencia Artificial de la UE, Artículo 50: Obligaciones de transparencia para proveedores y usuarios de determinados sistemas de IA.» https://artificialintelligenceact.eu/article/50/
[7] «La AEPD lanza 'Los deepfakes no son una broma', una iniciativa que llama a actuar con prudencia en internet.» Infobae/EFE, 17 de marzo de 2026. https://www.infobae.com/america/agencias/2026/03/17/la-aepd-lanza-los-deepfakes-no-son-una-broma-una-iniciativa-que-llama-a-actuar-con-prudencia-en-internet/
[8] «Spain court punishes schoolboys for spreading AI deepfakes of girls.» Scottish Legal News. https://www.scottishlegal.com/articles/spain-court-punishes-schoolboys-for-spreading-ai-deepfakes-of-girls
[9] «Arup lost $25 million in a deepfake scam in Hong Kong.» CNN, 16 de mayo de 2024. https://www.cnn.com/2024/05/16/tech/arup-deepfake-scam-loss-hong-kong-intl-hnk
[10] «Deepfake statistics and trends 2025.» Keepnet Labs. https://keepnetlabs.com/blog/deepfake-statistics-and-trends
[11] «Taylor Swift deepfake pornography controversy.» Wikipedia. https://en.wikipedia.org/wiki/Taylor_Swift_deepfake_pornography_controversy
[12] «Grok floods X with sexualized images.» Center for Countering Digital Hate (CCDH). https://counterhate.com/research/grok-floods-x-with-sexualized-images/
[13] «Political operative behind fake Biden robocalls in NH primary found not guilty.» New Hampshire Public Radio, 13 de junio de 2025. https://www.nhpr.org/nh-news/2025-06-13/political-operative-fake-biden-robocalls-nh-primary-found-not-guilty
[14] «South Korea passes deepfake porn ban.» CBS News. https://www.cbsnews.com/news/south-korea-deepfake-porn-law-ban-sexually-explicit-video-images/
[15] «SynthID: AI-generated content watermarking.» Google DeepMind. https://deepmind.google/models/synthid/
[16] «How Content Credentials work.» Content Authenticity Initiative. https://contentauthenticity.org/how-it-works
[17] «Deepfake statistics 2025.» DeepStrike. https://deepstrike.io/blog/deepfake-statistics-2025
[18] «Spain issues fine for AI-generated sexual images in landmark sanction.» The Irish Times, 7 de noviembre de 2025. https://www.irishtimes.com/world/europe/2025/11/07/spain-issues-fine-for-ai-generated-sexual-images-in-landmark-sanction/
[19] «Grok sexual deepfake scandal.» Wikipedia. https://en.wikipedia.org/wiki/Grok_sexual_deepfake_scandal
[20] «Teens sue Musk, xAI over Grok-generated explicit images.» The Washington Post, 16 de marzo de 2026. https://www.washingtonpost.com/technology/2026/03/16/teens-sue-musk-xai-grok/
[21] Goodfellow, I. et al. «Generative Adversarial Nets.» Advances in Neural Information Processing Systems, 2014.
[22] Ho, J., Jain, A. y Abbeel, P. «Denoising Diffusion Probabilistic Models.» Advances in Neural Information Processing Systems, 2020.
[23] Défossez, A. et al. «High Fidelity Neural Audio Compression.» Meta AI Research, 2022.
[24] Wang, C. et al. «VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers.» Microsoft Research, 2024.
[25] «Qwen3-TTS: Voice cloning and synthesis with 3-second audio reference.» Alibaba Cloud / Qwen Team, enero de 2026.
Comentarios
Artículos relacionados
Buscar
Contacto
Tel: 971.31.13.31