Por qué DeepSeek no debería haber sido una sorpresa
por Prithwiraj (Raj) Choudhury, Natarajan Balasubramanian, Mingtao Xu

La empresa china de IA DeepSeek sorprendió a mucha gente este mes. Es un nuevo modelo, lanzado el 20 de enero, compite con modelos de las principales compañías estadounidenses de IA, como OpenAI y Meta, a pesar de ser más pequeño, más eficiente y mucho, mucho más barato tanto para entrenar como para correr.
Sin embargo, es probable que el éxito de la empresa china lo hubiera predicho la teoría de la gestión, específicamente, la teoría de la innovación disruptiva. Al fin y al cabo, la innovación disruptiva tiene que ver con alternativas de bajo coste que no son vanguardistas, pero que funcionan adecuadamente para muchos usuarios. Al parecer, así es exactamente como DeepSeek ha creado la onda de choque que ha puesto en duda algunas de las suposiciones de la industria estadounidense de la IA y hizo caer las acciones de tecnología y energía como resultado.
Si la teoría de la gestión puede ayudar a explicar lo que acaba de suceder, también ofrece una idea de hacia dónde podemos ir a partir de ahora. Basándonos en las teorías del cambio tecnológico, destacamos las implicaciones de lo que esta disrupción significa para las empresas globales, ya que sus líderes se esfuerzan por licenciar modelos lingüísticos grandes (LLM) chinos o estadounidenses o mantener sus opciones abiertas.
Las diferencias entre los LLM chinos y estadounidenses
Es importante señalar primero que los LLM chinos se diferencian de sus homólogos estadounidenses en dos aspectos importantes: 1) A menudo utilizan hardware más barato y aprovechan una arquitectura abierta (y por lo tanto más barata) para reducir los costes, y 2) muchos LLM chinos están personalizados para específico de un dominio aplicaciones (más limitadas) y no tareas genéricas. Sin embargo, modelos como DeepSeek-R1 están surgiendo como modelos de razonamiento más de uso general.
Los modelos estadounidenses de LLM suelen formarse en clústeres de GPU de última generación que incluyen decenas de miles de los chips más avanzados de NVIDIA y requieren una enorme inversión de capital e infraestructura de nube. Por el contrario, al menos en parte debido a los controles de exportación de chips avanzados, la mayoría de los LLM chinos se basan en entrenamiento distribuido en varias GPU menos potentes. Sin embargo, logran un rendimiento competitivo, aunque no necesariamente de vanguardia, a través de arquitectura más eficiente. Por ejemplo, La arquitectura de atención latente (MLA) y mezcla de expertos (MOE) de DeepSeek están diseñados para reducir el uso de la memoria y permitir un uso más eficiente de los recursos informáticos.
La adopción de las bases de código abierto también desempeña un papel crucial en el desarrollo de la LLM en China. DeepSeek-v3, el modelo básico que impulsa su último sistema de razonamiento, y DeepSeek-R1 se han publicado con el Licencia de código abierto del MIT . Esta licencia permisiva fomenta la adopción generalizada al permitir a los usuarios utilizar, modificar y distribuir el software libremente, incluso con fines comerciales, con restricciones mínimas. La ventaja de esta arquitectura eficiente y este enfoque de código abierto es más evidente al comparar los costes de formación: según informa DeepSeek 5,6 millones de dólares (para la V3) en comparación con la Entre 40 y 200 millones de dólares Empresas estadounidenses de IA, como OpenAI y Alphabet, han informado de que gastan en sus LLM.
Además, si bien los modelos estadounidenses priorizan las consultas de uso general basadas en vastos conjuntos de datos de origen mundial, muchos LLM chinos también están diseñados para precisión específica del dominio. Los gigantes tecnológicos chinos, como Alibaba, Tencent, Baidu y ByteDance, así como las empresas emergentes como DeepSeek, ofrecen aplicaciones específicas del sector impulsados por sus LLM que están profundamente integradas en los ecosistemas digitales de China.
En resumen, los LLM chinos se basan en un hardware menos avanzado e inicialmente se centran en aplicaciones de gama baja (más específicas y menos de uso general) que requieren menos potencia de cálculo. Esto también significa que muchos LLM chinos tienen un precio de la parte inferior. Por ejemplo, Alibaba Qwen plus y de ByteDance Doubao 1.5 pro cuesta menos 0,30 dólares por millón de fichas de producción, en comparación con más de 60 dólares de Abrir AIO1 y de Anthropic Claude 3.5 Opus.
Esto es clásico teoría de la disrupción en juego. Es una repetición de cómo las minifábricas interrumpieron las acerías integradas hace décadas. La teoría de la disrupción predice que una tecnología inferior en sus inicios (como el horno de arco eléctrico) personalizada para tareas específicas de gama baja (como la producción de acero para barras de refuerzo de menor calidad) se convierte en una amenaza para los productores de gama alta (como las plantas siderúrgicas integradas), cuyo único objetivo son los clientes de gama alta que ofrecen mayores márgenes (como los clientes de láminas de acero de alta gama). De forma lenta y constante, el disruptor mejora la calidad de su oferta y el operador tradicional cede cuota de mercado segmento tras segmento al disruptor.
La teoría de la disrupción predice el surgimiento y la evolución de DeepSeek y los de su calaña. De hecho, no sería sorprendente que surgieran otros disruptores en los próximos meses. En particular, los modelos lingüísticos pequeños (SLM), que utilizan menos datos y menos recursos y producen contenido de menor calidad, podrían ser otra tecnología que desafíe a los LLM estadounidenses y chinos en los próximos meses.
¿A dónde vamos desde aquí?
La aparición de DeepSeek plantea una pregunta a las salas de juntas de todo el mundo: ¿Deberían las empresas invertir en conceder licencias de LLM estadounidenses o chinas? ¿O las dos cosas? También en este caso son útiles los conocimientos previos de la dirección, especialmente en torno a la diversificación tecnológica.
Una ventaja de tener varios modelos de LLM implementados en una organización es la diversificación del riesgo. Con los LLM, esto se traduce en mitigar los efectos del tiempo de inactividad por parte del proveedor. Por ejemplo, si el servicio OpenAI se viera afectado por algún motivo, la empresa podría seguir funcionando con el modelo de otro proveedor.
Otra ventaja de utilizar varios modelos son las ventajas de la agregación. Los diferentes modelos utilizan diferentes algoritmos y, por lo tanto, dan diferentes respuestas a la misma pregunta. Los estudios han descubierto que la agregación en varios modelos y varias fuentes de predicciones, un enfoque que los investigadores denominan «ensamblar» — a menudo produce resultados de mejor calidad, especialmente con tareas complejas y ambiguas. De hecho, plataformas como Openrouter, un agregador de modelos de IA con sede en EE. UU., recientemente fundado, ya ofrecen una interfaz integrada que permite a los usuarios comparar el rendimiento y el coste de más de 180 modelos en tiempo real por un módico precio.
Por otro lado, una de las ventajas de trabajar con un solo proveedor es la reducción de los costes administrativos y una mejor comprensión de las capacidades de ambas partes de la asociación. El uso de varios modelos aumenta los riesgos de privacidad y seguridad de los datos, ya que es posible que los datos tengan que compartirse con varios proveedores. Aunque muchos de estos preocupa impregnar todos los LLM, incluidos los de EE. UU., el acceso y el uso de los datos en todos los países —por ejemplo, entre EE. UU. y China—, cada uno con su propio marco regulador, añadirá otro nivel de complejidad. Esto puede resultar particularmente problemático, especialmente en aplicaciones delicadas como la atención médica.
Las teorías gerenciales anteriores sobre el cambio tecnológico y la diversificación también sugieren una tercera posibilidad más allá del abastecimiento único o múltiple: gobierno plural. La gobernanza plural implica el uso de una combinación de proveedores externos y desarrolladores internos para aprovechar una tecnología emergente. De hecho, investigaciones anteriores en economía han sostenido durante mucho tiempo que las empresas que se desarrollan internamente capital humano específico para la época lo más probable es que se beneficien de la aparición de nuevas tecnologías. En el caso de los modelos lingüísticos, esto podría implicar utilizar los LLM estadounidenses para tareas de uso general (como desarrollar un bot que ayude a investigar a los consultores o abogados de una firma de servicios profesionales) y aprovechar los LLM chinos para tareas específicas de la empresa (como un robot de formación de recursos humanos que ayude a incorporar a nuevos trabajadores).
Yendo más allá, un modelo de LLM de código abierto y de bajo coste con requisitos de datos de formación más pequeños, incluso uno con menos capacidades que uno de código cerrado, permitirá a las empresas desarrollar modelos específicos de la empresa que se adapten a su contexto. Sin embargo, con el tiempo, estos modelos de menor coste y menor calidad probablemente generarán disrupción en los modelos de mayor coste, al igual que las minifábricas interrumpieron las plantas siderúrgicas integradas en todos los segmentos del mercado.
Incluso con problemas de privacidad y seguridad de los datos, y a pesar de el reciente episodio de TikTok — Los LLM estadounidenses ignorarán la amenaza china de interrumpir el LLM por su cuenta y riesgo. Si nada más, deberían temer la aparición de disruptores estadounidenses que utilizan los SLM, entre otros enfoques. Las grandes empresas estadounidenses de IA también podrían intentar generar disrupción (por ejemplo, GE desarrolló su propio aparato de ecografía portátil para interrumpir el negocio más caro de la ecografía), aunque las investigaciones sugieren que autodisrupción es increíblemente duro. En particular, la falacia del coste irrecuperable relacionada con las inversiones anteriores en chips, hardware y datos de entrenamiento caros (que en este momento son costes hundidos en parte) y los incentivos para vender soluciones con márgenes altos podrían vincular a la mayoría de las empresas estadounidenses de IA a sus LLM de alta gama en lugar de invertir en LLM más baratas pero «suficientemente buenas».
Para las empresas globales que utilizan las LLM, la disrupción en el ámbito de la LLM abre las puertas a la inversión en habilidades internas y al desarrollo de modelos específicos de la empresa que podrían conducir a casos de uso más específicos, a reducir los costes y a aumentar el ROI.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.