top of page
HRS Blog.png

Mantente informado con nuestro boletín semanal

Recibe las últimas publicaciones de nuestro blog, consejos exclusivos diseñados para potenciar tu presencia online y las novedades más relevantes del mundo del SEO y el marketing digital, todo directamente en tu bandeja de entrada. Mantente actualizado y no te pierdas ninguna oportunidad para optimizar tus proyectos. ¡Es fácil, rápido y gratuito!

Recibe nuestro mejor contenido

Nvidia apuesta por datos sintéticos y adquiere Gretel reforzando su ecosistema IA

Foto del escritor: Kevin AndersonKevin Anderson

En un movimiento estratégico que marca un nuevo capítulo en la evolución del entrenamiento de inteligencia artificial, Nvidia ha adquirido la startup Gretel, especializada en generación de datos sintéticos. La operación supera los 320 millones de dólares y posiciona a la empresa como líder en soluciones escalables para el desarrollo de modelos de IA en sectores críticos como la salud, la banca y la industria automotriz.


Tabla de contenidos


Nvidia apuesta por datos sintéticos y adquiere Gretel reforzando su ecosistema IA
Nvidia apuesta por datos sintéticos y adquiere Gretel reforzando su ecosistema IA

¿Por qué Nvidia invierte en datos sintéticos?

En un contexto donde el acceso a datos reales está cada vez más restringido por normativas de privacidad y derechos de autor, los datos sintéticos emergen como una alternativa poderosa. Nvidia lleva años desarrollando herramientas como Omniverse Replicator y modelos generadores como Nemotron-4 340B, diseñados para crear datos artificiales con alta precisión física y semántica.


Con la compra de Gretel —una startup con más de 80 empleados y una sólida base tecnológica en privacidad diferencial— Nvidia no solo incorpora talento, sino también una plataforma de APIs que permite a los desarrolladores crear datasets artificiales sin necesidad de comprometer datos personales reales.


Beneficios de los datos sintéticos en comparación con los datos reales

Aspecto

Datos Reales

Datos Sintéticos

Disponibilidad

Limitada por restricciones legales y de privacidad.

Generación ilimitada sin restricciones legales.

Coste de adquisición

Alto, debido a la recopilación y etiquetado manual.

Más económico, ya que se generan artificialmente.

Privacidad

Riesgo de exponer información sensible de individuos.

Protege la privacidad al no basarse en datos personales reales.

Sesgos

Puede contener sesgos inherentes de la sociedad.

Posibilidad de controlar y minimizar sesgos durante su generación.

Escalabilidad

Difícil de escalar debido a limitaciones en la recopilación de datos.

Altamente escalable según las necesidades del modelo de IA.

Diversidad de escenarios

Limitada a situaciones registradas en el mundo real.

Capacidad de simular escenarios raros o peligrosos para un entrenamiento robusto.


​Esta tabla destaca cómo los datos sintéticos ofrecen ventajas significativas en términos de privacidad, escalabilidad y control de sesgos, aspectos que Nvidia busca potenciar con la adquisición de Gretel.


¿Qué es Gretel y por qué es importante para NVIDIA?

Fundada en 2019 por Alex Watson, John Myers y Ali Golshan (actual CEO), Gretel no crea modelos fundacionales, sino que ajusta modelos open source añadiendo mecanismos de privacidad avanzados. Antes de la adquisición, había recaudado más de 67 millones en capital de riesgo, según PitchBook.


Gretel permite a organizaciones sin acceso a grandes datasets —como hospitales o entidades financieras— generar datos seguros, balanceados y listos para entrenar IA, sin depender de información sensible o costosa.


“Con Gretel podemos escalar datos sintéticos con un enfoque centrado en la privacidad desde el diseño”, comentó Jensen Huang, CEO de Nvidia, durante su keynote en el CES 2025.

Jensen Huang, CEO de Nvidia, keynote CES 2025.


Características principales de Gretel

Característica

Descripción

Fundación

2019 por Alex Watson, John Myers y Ali Golshan.

Especialización

Generación de datos sintéticos con énfasis en privacidad diferencial y seguridad.

Productos y servicios

Plataforma de APIs que permite a desarrolladores crear datasets sintéticos personalizados sin comprometer datos reales.

Aplicaciones

Sectores como salud, finanzas y gobierno, donde la privacidad y la seguridad de los datos son críticas.

Equipo

Aproximadamente 80 empleados especializados en IA y privacidad de datos.

Financiación previa

Más de 67 millones de dólares en capital de riesgo antes de la adquisición por Nvidia.


​Esta tabla proporciona una visión general de Gretel, resaltando su experiencia en datos sintéticos y su relevancia estratégica para Nvidia.


Usos estratégicos de los datos sintéticos

Ana-Maria Cretu, investigadora postdoctoral en EPFL Suiza, destaca dos formas de uso clave:


  • Datos tabulares (como registros médicos o demográficos) que permiten balancear, anonimizar y expandir pequeños conjuntos reales.

  • Datos generados para LLMs, como GPT o Claude, donde la síntesis ayuda a superar la dependencia del contenido web, cada vez más limitado por restricciones legales.


Ejemplo real:

Un hospital con solo 1.000 muestras de pacientes puede usar datos sintéticos para ampliar su dataset, corregir sesgos y proteger la privacidad sin comprometer la utilidad clínica.


¿Pueden los datos sintéticos reemplazar a los reales?

No del todo. Aunque prometen escalabilidad, expertos como Alexandr Wang (Scale AI) y Gary Marcus advierten sobre los riesgos del "model collapse": un fenómeno donde los modelos, entrenados repetidamente con datos generados por IA, comienzan a degradarse.



“No hay almuerzo gratis con los datos sintéticos”, escribió Wang en X. “El futuro está en enfoques híbridos inteligentes, no en reemplazos puros.”

Un estudio publicado en Nature en julio de 2024 alertó que los modelos de lenguaje afinados solo con datos sintéticos pueden perder precisión y volverse inconsistentes.


Esto llevó a líderes de la industria como Sam Altman (OpenAI) y Dario Amodei (Anthropic) a proponer estrategias híbridas que mezclan datos humanos y sintéticos en proporciones dinámicas.



Riesgos y desafíos de utilizar datos sintéticos en el entrenamiento de IA

Riesgo/Desafío

Descripción

Degradación del modelo

Entrenar modelos exclusivamente con datos sintéticos puede llevar a una disminución en la precisión y eficacia del modelo.

Falta de representatividad

Los datos sintéticos mal diseñados pueden no capturar completamente la complejidad y variabilidad del mundo real, afectando la capacidad del modelo para generalizar.

Dependencia excesiva

Confiar únicamente en datos sintéticos sin validación con datos reales puede resultar en modelos que no se desempeñen bien en situaciones reales.

Sesgos inadvertidos

Si los datos sintéticos se generan a partir de datos reales sesgados, pueden perpetuar o incluso amplificar esos sesgos en el modelo entrenado.

Complejidad en la generación

La creación de datos sintéticos de alta calidad requiere conocimientos técnicos avanzados y puede ser un proceso complejo y costoso.


​Esta tabla alerta sobre los posibles inconvenientes de depender exclusivamente de datos sintéticos, enfatizando la necesidad de enfoques híbridos que combinen datos reales y sintéticos para un entrenamiento de IA más robusto.​



El enfoque de Nvidia: escala, eficiencia y control

Durante la GTC 2025, Huang presentó una visión clara con tres pilares:


  • Solucionar el problema de los datos: mediante plataformas como Gretel, Nemotron y Omniverse Replicator.

  • Diseño arquitectónico de modelos más eficientes.

  • Leyes de escalado que permitan entrenar con menor costo y más velocidad.



Nvidia - GTC 2025 - Jensen Huang

Además de su aplicación en modelos de lenguaje, Nvidia está incorporando datos sintéticos en robótica, automoción y sistemas de visión artificial. Gretel será clave para acelerar este roadmap en verticales como salud, manufactura y logística.


Big Tech también apuesta por lo sintético

Nvidia no está sola. Meta entrenó Llama 3 con datos sintéticos generados por Llama 2. Microsoft usó datos sintéticos para afinar Phi-3. Amazon Bedrock permite usar Claude de Anthropic para generar entrenamiento personalizado. Y DeepMind de Google desarrolla pipelines para preservar la privacidad incluso en entornos generativos.


Alex Bestall, CEO de Rightsify, afirma: “En nuestros acuerdos para IA musical, a menudo se exige que el dataset tenga al menos un 60% de datos humanos. El 40% restante puede ser sintético.”

Implementaciones de datos sintéticos por empresas tecnológicas líderes

Empresa

Aplicación de datos sintéticos

Meta

Entrenamiento de Llama 3 utilizando datos sintéticos generados por Llama 2.

Microsoft

Uso de datos sintéticos para afinar el modelo Phi-3, mejorando su rendimiento en tareas específicas.

Amazon

Plataforma Bedrock que permite a desarrolladores utilizar modelos como Claude de Anthropic para generar datos sintéticos personalizados.

Google DeepMind

Desarrollo de pipelines para preservar la privacidad en entornos generativos mediante el uso de datos sintéticos.

Las principales empresas tecnológicas están incorporando datos sintéticos en sus procesos de desarrollo de IA, subrayando una tendencia industrial hacia la adopción de estas técnicas.


¿Qué sigue para el futuro del entrenamiento en IA?

La tendencia apunta hacia motores de generación de datos "infinitos", con inyecciones controladas de datos reales para mantener la diversidad y evitar la degradación. En paralelo, se están desarrollando nuevos marcos de evaluación ética, métricas de privacidad y validación de sesgos que aseguren la calidad del entrenamiento.


La adquisición de Gretel coloca a Nvidia a la vanguardia de esta transición. Más allá de chips, la compañía se perfila como la columna vertebral del entrenamiento seguro, escalable y responsable de los modelos del futuro.



Envíanos tu opinión
Envíanos tu opinión

¿Qué opinás sobre el uso de datos sintéticos en IA?

¿Creés que reemplazarán los datos humanos o solo los complementarán? Dejá tu opinión en los comentarios y sigue leyendo sobre inteligencia artificial, tecnología y futuro digital en nuestro blog.

1 Comment

Rated 0 out of 5 stars.
No ratings yet

Add a rating
Rated 5 out of 5 stars.

¡Gracias por tu tiempo y lectura! Sin duda Nvidia esta avanzado de una manera rápida solida y efectiva.

Like
bottom of page