En un movimiento estratégico que marca un nuevo capítulo en la evolución del entrenamiento de inteligencia artificial, Nvidia ha adquirido la startup Gretel, especializada en generación de datos sintéticos. La operación supera los 320 millones de dólares y posiciona a la empresa como líder en soluciones escalables para el desarrollo de modelos de IA en sectores críticos como la salud, la banca y la industria automotriz.
Tabla de contenidos

¿Por qué Nvidia invierte en datos sintéticos?
En un contexto donde el acceso a datos reales está cada vez más restringido por normativas de privacidad y derechos de autor, los datos sintéticos emergen como una alternativa poderosa. Nvidia lleva años desarrollando herramientas como Omniverse Replicator y modelos generadores como Nemotron-4 340B, diseñados para crear datos artificiales con alta precisión física y semántica.
Con la compra de Gretel —una startup con más de 80 empleados y una sólida base tecnológica en privacidad diferencial— Nvidia no solo incorpora talento, sino también una plataforma de APIs que permite a los desarrolladores crear datasets artificiales sin necesidad de comprometer datos personales reales.
Beneficios de los datos sintéticos en comparación con los datos reales
Aspecto | Datos Reales | Datos Sintéticos |
Disponibilidad | Limitada por restricciones legales y de privacidad. | Generación ilimitada sin restricciones legales. |
Coste de adquisición | Alto, debido a la recopilación y etiquetado manual. | Más económico, ya que se generan artificialmente. |
Privacidad | Riesgo de exponer información sensible de individuos. | Protege la privacidad al no basarse en datos personales reales. |
Sesgos | Puede contener sesgos inherentes de la sociedad. | Posibilidad de controlar y minimizar sesgos durante su generación. |
Escalabilidad | Difícil de escalar debido a limitaciones en la recopilación de datos. | Altamente escalable según las necesidades del modelo de IA. |
Diversidad de escenarios | Limitada a situaciones registradas en el mundo real. | Capacidad de simular escenarios raros o peligrosos para un entrenamiento robusto. |
Esta tabla destaca cómo los datos sintéticos ofrecen ventajas significativas en términos de privacidad, escalabilidad y control de sesgos, aspectos que Nvidia busca potenciar con la adquisición de Gretel.
¿Qué es Gretel y por qué es importante para NVIDIA?
Fundada en 2019 por Alex Watson, John Myers y Ali Golshan (actual CEO), Gretel no crea modelos fundacionales, sino que ajusta modelos open source añadiendo mecanismos de privacidad avanzados. Antes de la adquisición, había recaudado más de 67 millones en capital de riesgo, según PitchBook.
Gretel permite a organizaciones sin acceso a grandes datasets —como hospitales o entidades financieras— generar datos seguros, balanceados y listos para entrenar IA, sin depender de información sensible o costosa.
“Con Gretel podemos escalar datos sintéticos con un enfoque centrado en la privacidad desde el diseño”, comentó Jensen Huang, CEO de Nvidia, durante su keynote en el CES 2025.
Características principales de Gretel
Característica | Descripción |
Fundación | 2019 por Alex Watson, John Myers y Ali Golshan. |
Especialización | Generación de datos sintéticos con énfasis en privacidad diferencial y seguridad. |
Productos y servicios | Plataforma de APIs que permite a desarrolladores crear datasets sintéticos personalizados sin comprometer datos reales. |
Aplicaciones | Sectores como salud, finanzas y gobierno, donde la privacidad y la seguridad de los datos son críticas. |
Equipo | Aproximadamente 80 empleados especializados en IA y privacidad de datos. |
Financiación previa | Más de 67 millones de dólares en capital de riesgo antes de la adquisición por Nvidia. |
Esta tabla proporciona una visión general de Gretel, resaltando su experiencia en datos sintéticos y su relevancia estratégica para Nvidia.
Usos estratégicos de los datos sintéticos
Ana-Maria Cretu, investigadora postdoctoral en EPFL Suiza, destaca dos formas de uso clave:
Datos tabulares (como registros médicos o demográficos) que permiten balancear, anonimizar y expandir pequeños conjuntos reales.
Datos generados para LLMs, como GPT o Claude, donde la síntesis ayuda a superar la dependencia del contenido web, cada vez más limitado por restricciones legales.
Ejemplo real:
Un hospital con solo 1.000 muestras de pacientes puede usar datos sintéticos para ampliar su dataset, corregir sesgos y proteger la privacidad sin comprometer la utilidad clínica.
¿Pueden los datos sintéticos reemplazar a los reales?
No del todo. Aunque prometen escalabilidad, expertos como Alexandr Wang (Scale AI) y Gary Marcus advierten sobre los riesgos del "model collapse": un fenómeno donde los modelos, entrenados repetidamente con datos generados por IA, comienzan a degradarse.
“No hay almuerzo gratis con los datos sintéticos”, escribió Wang en X. “El futuro está en enfoques híbridos inteligentes, no en reemplazos puros.”
Un estudio publicado en Nature en julio de 2024 alertó que los modelos de lenguaje afinados solo con datos sintéticos pueden perder precisión y volverse inconsistentes.
Esto llevó a líderes de la industria como Sam Altman (OpenAI) y Dario Amodei (Anthropic) a proponer estrategias híbridas que mezclan datos humanos y sintéticos en proporciones dinámicas.
Riesgos y desafíos de utilizar datos sintéticos en el entrenamiento de IA
Riesgo/Desafío | Descripción |
Degradación del modelo | Entrenar modelos exclusivamente con datos sintéticos puede llevar a una disminución en la precisión y eficacia del modelo. |
Falta de representatividad | Los datos sintéticos mal diseñados pueden no capturar completamente la complejidad y variabilidad del mundo real, afectando la capacidad del modelo para generalizar. |
Dependencia excesiva | Confiar únicamente en datos sintéticos sin validación con datos reales puede resultar en modelos que no se desempeñen bien en situaciones reales. |
Sesgos inadvertidos | Si los datos sintéticos se generan a partir de datos reales sesgados, pueden perpetuar o incluso amplificar esos sesgos en el modelo entrenado. |
Complejidad en la generación | La creación de datos sintéticos de alta calidad requiere conocimientos técnicos avanzados y puede ser un proceso complejo y costoso. |
Esta tabla alerta sobre los posibles inconvenientes de depender exclusivamente de datos sintéticos, enfatizando la necesidad de enfoques híbridos que combinen datos reales y sintéticos para un entrenamiento de IA más robusto.
El enfoque de Nvidia: escala, eficiencia y control
Durante la GTC 2025, Huang presentó una visión clara con tres pilares:
Solucionar el problema de los datos: mediante plataformas como Gretel, Nemotron y Omniverse Replicator.
Diseño arquitectónico de modelos más eficientes.
Leyes de escalado que permitan entrenar con menor costo y más velocidad.
Además de su aplicación en modelos de lenguaje, Nvidia está incorporando datos sintéticos en robótica, automoción y sistemas de visión artificial. Gretel será clave para acelerar este roadmap en verticales como salud, manufactura y logística.
Big Tech también apuesta por lo sintético
Nvidia no está sola. Meta entrenó Llama 3 con datos sintéticos generados por Llama 2. Microsoft usó datos sintéticos para afinar Phi-3. Amazon Bedrock permite usar Claude de Anthropic para generar entrenamiento personalizado. Y DeepMind de Google desarrolla pipelines para preservar la privacidad incluso en entornos generativos.
Alex Bestall, CEO de Rightsify, afirma: “En nuestros acuerdos para IA musical, a menudo se exige que el dataset tenga al menos un 60% de datos humanos. El 40% restante puede ser sintético.”
Implementaciones de datos sintéticos por empresas tecnológicas líderes
Empresa | Aplicación de datos sintéticos |
Meta | Entrenamiento de Llama 3 utilizando datos sintéticos generados por Llama 2. |
Microsoft | Uso de datos sintéticos para afinar el modelo Phi-3, mejorando su rendimiento en tareas específicas. |
Amazon | Plataforma Bedrock que permite a desarrolladores utilizar modelos como Claude de Anthropic para generar datos sintéticos personalizados. |
Google DeepMind | Desarrollo de pipelines para preservar la privacidad en entornos generativos mediante el uso de datos sintéticos. |
Las principales empresas tecnológicas están incorporando datos sintéticos en sus procesos de desarrollo de IA, subrayando una tendencia industrial hacia la adopción de estas técnicas.
¿Qué sigue para el futuro del entrenamiento en IA?
La tendencia apunta hacia motores de generación de datos "infinitos", con inyecciones controladas de datos reales para mantener la diversidad y evitar la degradación. En paralelo, se están desarrollando nuevos marcos de evaluación ética, métricas de privacidad y validación de sesgos que aseguren la calidad del entrenamiento.
La adquisición de Gretel coloca a Nvidia a la vanguardia de esta transición. Más allá de chips, la compañía se perfila como la columna vertebral del entrenamiento seguro, escalable y responsable de los modelos del futuro.
¿Qué opinás sobre el uso de datos sintéticos en IA?
¿Creés que reemplazarán los datos humanos o solo los complementarán? Dejá tu opinión en los comentarios y sigue leyendo sobre inteligencia artificial, tecnología y futuro digital en nuestro blog.
¡Gracias por tu tiempo y lectura! Sin duda Nvidia esta avanzado de una manera rápida solida y efectiva.