Cómo una empresa utilizó la IA para gestionar la avalancha de documentos
por Peter Cappelli, Valery Yakubovich, Braj Thakur, Ashok Shenoy

En la década de 1930, los ejecutivos del sistema Bell se dieron cuenta de que el creciente uso de teléfonos pronto crearía desafíos de red tan complicados que superaría la capacidad de los conmutadores mecánicos de mantenerse al día. Así que lanzaron una campaña para crear transistores como una alternativa más rápida y mucho más barata.
A partir de la década de 1960, con la idea de la «oficina sin papel», se ha puesto en marcha algo así para abordar los desafíos relacionados con el flujo masivo de documentos en las organizaciones. Las imágenes electrónicas mejoraron considerablemente nuestra capacidad de gestionar el flujo cada vez mayor de documentos, pero todavía hay una gran cantidad de papel circulando entre las organizaciones y dentro de ellas, y los documentos electrónicos siguen siendo producidos, editados y procesados en gran medida por personas. La promesa de la IA, especialmente de los grandes modelos lingüísticos (LLM), es que pueden hacerse cargo de esas tareas.
Para entender cómo podría suceder esto realmente, dos de nosotros (Peter Cappelli y Valery Yakubovich) estudiamos un esfuerzo en una gran compañía de seguros de salud estadounidense que introdujo la IA para procesar la organización de los documentos y extraer la información de los mismos como primer paso del proceso de reembolso en otoño de 2024. A diferencia de UnitedHealthcare, que se ha enfrentado a una reacción pública tras el asesinato del líder de su negocio de seguros, esta empresa no utilizó la IA para tomar decisiones sobre si aprobar o denegar las reclamaciones. Para obtener el permiso, tuvimos que ponernos de acuerdo en no identificar a la aseguradora. El verdadero trabajo de procesamiento de documentos lo estaba realizando in situ un proveedor, Ricoh, una empresa de servicios digitales que desempeñó el papel principal en el esfuerzo de la IA. Dos de nosotros (Braj Thakur y Ashok Shenoy) estuvimos muy involucrados en ese proyecto.
Las tareas que implica este proceso son similares a prácticamente todos los intercambios de información entre usuarios y proveedores. Aplicar la IA a estas tareas resultó requerir mucho tiempo y esfuerzo, y los costes iniciales fueron enormes. Esperábamos que la aplicación de la IA fuera similar a la de otros proyectos de implementación de TI, pero resultó ser mucho más compleja. Las cuestiones de la tecnología resultaron ser más sencillas que entender el contexto empresarial. Al final, el esfuerzo dio sus frutos en forma de mejora de la productividad, aunque, como describiremos, la IA por sí sola no era la respuesta. En última instancia, el nuevo sistema permitió procesar muchos más documentos con aproximadamente el mismo número de empleados.
Las soluciones que encontró el equipo no fueron el resultado de una simple aplicación de las herramientas de IA ni de un pensamiento de arriba hacia abajo. Fueron el resultado de ejercicios de prueba y error exclusivos de este contexto. Pero sí sugieren lecciones generales aplicables en otros lugares, que analizaremos en este artículo. Sin embargo, la lección principal es que la IA generativa puede ampliar el procesamiento de la información, pero para que eso suceda se necesita el conocimiento humano. Aun así, quedan tareas que se cumplen mejor con la gente.
El contexto del procesamiento del papel
Los seguros de salud estadounidenses son un sector de 1,5 billones de dólares (medido por las primas emitidas) que emplea a aproximadamente 3 millones de personas. Su modelo de negocio consiste en aceptar las primas y pagar las reclamaciones. La organización analizada en este artículo administra el proceso para las aseguradoras del gobierno. Gestionar los documentos que van y vienen de los proveedores es una tarea central, y el trabajo en sí no es diferente al de otras formas de seguro, de hecho al trabajo de oficina en todas partes.
Pero hay varias diferencias. Una es que hay muchas transacciones: cada visita y procedimiento al médico o proveedor da inicio a una reclamación, a menudo se necesita más información para procesarla (en muchos casos, porque faltaban los datos solicitados), hay apelaciones contra las decisiones de los proveedores y las personas presentan reclamaciones de queja. Otra es que los formularios de estos documentos no están estandarizados. Una tercera es que la mayoría de estos documentos siguen basándose en formularios en papel, algunos de ellos manuscritos.
Se podría pensar que un simple comienzo para automatizar las reclamaciones del seguro médico sería simplemente exigir que todos los documentos pertinentes se presenten electrónicamente. Pero como veremos, tal medida no ahorraría tanto dinero ni tiempo. El verdadero beneficio sería si la aseguradora pudiera exigir que todos los documentos presentados figuraran en los propios formularios de la empresa que utilizan sus definiciones. La razón por la que no ha sido posible es doble.
En primer lugar, hay muchos proveedores que presentan formularios, no solo pequeños consultorios médicos, sino también pacientes individuales que gestionan su propio proceso de seguro. Los proveedores más grandes, como un hospital, pueden tratar con cientos de compañías de seguros diferentes; si cada aseguradora exigiera que las solicitudes tuvieran que utilizar su propio formulario único, el trabajo en los hospitales se paralizaría. Una segunda complicación de la tramitación de los documentos de salud son las normas gubernamentales que protegen la seguridad del historial de los pacientes y su privacidad. Los empleados que procesen aspectos importantes de esos datos deben seguir las normas exclusivas de su estado y tienen que estar certificados para realizar ese trabajo. Por lo tanto, es difícil subcontratar las tareas de procesamiento del papel e imposible que se deslocalicen, aunque algunas de las tareas de procesamiento pueden «contratarse», es decir, gestionarlas un proveedor in situ.
La compañía de seguros médicos que aparece en el centro de este artículo comenzó a ahogarse en solicitudes y documentos durante la pandemia de la COVID-19, no solo por el número de solicitudes, sino también por las dificultades de personal asociadas con la rotación de empleados. Tras intentar sin éxito abordar el problema de otras formas, la empresa «subcontrató» la obra a Ricoh.
El procesamiento de los documentos comienza con la llegada de sobres llenos de formularios en papel y otros que se envían por fax directamente a la empresa. (Los documentos relacionados con la salud no se pueden enviar por correo electrónico debido a las normas de privacidad del gobierno). El formulario enviado por correo y por fax se escanea y se convierte en archivos electrónicos, lo que lleva muy poco tiempo.
El siguiente paso lo llevan a cabo los empleados llamados «indexadores», que identifican el tipo de documento (es decir, una apelación o una queja), extraen información específica y, básicamente, leen el documento en la pantalla de un ordenador e introducen los datos necesarios en documentos tipo hoja de cálculo en otro. Es una tarea aburrida y repetitiva. A partir de ahí, los datos introducidos van a los empleados para su procesamiento.
Al principio, cuando realizamos nuestro estudio, había 45 indexadores que realizaban este trabajo. Si bien los mejores procesaban hasta 250 documentos al día, el volumen total diario procesado oscilaba entre 4 000 y 7 000 documentos. Los atrasos eran comunes. En un momento dado, la tramitación de las reclamaciones se retrasó aproximadamente medio año. La principal dificultad era la enorme cantidad de tiempo que se necesitaba para leer un documento de varias páginas y capturar e interpretar con precisión la información requerida. Antes de la intervención de la IA, los indexadores clasificaban correctamente menos del 10% de los documentos sin ningún error. Por lo tanto, la mayoría de los documentos tuvieron que volver a leerse y gestionarse por segunda vez.
Esto parece ser de una calidad asombrosamente mala. La explicación aparente, que se aplica a las líneas de montaje en la fabricación y a casi todas las tareas repetitivas, es que el trabajo es tan aburrido (escribir datos de un formulario a otro) que es extremadamente difícil para los trabajadores mantener la atención. Otros dos problemas relacionados fueron que las imágenes producidas por los escaneos no siempre eran legibles y la escritura a mano de las personas que rellenaban los formularios era difícil de leer para los indexadores. Cualquier error en alguna parte del documento significaba que había que devolverlo para volver a trabajar.
Los problemas llegaron a un punto crítico durante la pandemia, en gran parte por problemas de personal. Algunos empleados se mostraron reacios a ir a la oficina, la rotación era alta y, comprensiblemente, los empleados estaban distraídos por la pandemia. Los atrasos se dispararon y, con ellos, los costes de procesamiento.
Buscando una solución de IA
La IA dio a la empresa la oportunidad de pensar en cómo realizar estas tareas de procesamiento de manera diferente. Un enfoque sería crear un modelo de aprendizaje automático que pudiera distinguir diferentes tipos de formularios. Implicaría entrenar al modelo examinando, por ejemplo, el aspecto de un documento que presenta pruebas en todas sus variantes y, luego, hacer lo mismo con otros tipos de documentos para poder diferenciarlos. Es prácticamente de la misma manera en que las herramientas de IA aprendieron a diferenciar imágenes de gatos de perros. Entrenar modelos de aprendizaje automático para hacer estas clasificaciones requiere un enorme número de imágenes y lleva bastante tiempo.
Pero estos modelos discriminatorios de aprendizaje automático no pueden gestionar la tarea de extracción de datos, que implica identificar si faltan datos de una sección determinada del formulario y, si están ahí, transcribirlos con precisión en el propio formulario de la empresa. Solo funciona para la fase de clasificación. Como se ha indicado anteriormente, la naturaleza desestructurada de los formularios que se presentaban dificultaba la creación de un modelo sencillo. Por ejemplo, ¿la palabra «California» forma parte del nombre de un proveedor? ¿O es el nombre de una calle de una dirección o del estado?
Esos desafíos apuntaban a utilizar un enfoque diferente, uno que utilizara herramientas de IA generativa y, en particular, los grandes modelos lingüísticos, como ChatGPT. La gran ventaja de estos modelos es que ya están fabricados, aunque todavía hay que «entrenarlos después» con las imágenes de los formularios para identificar cuál es cuál. También pueden leer todo el formulario y, por lo tanto, entender el contexto para extraer los datos correctos e interpretarlos correctamente (por ejemplo, pueden determinar si la palabra «California» es un nombre o una dirección).
El equipo creado para crear este modelo incluía a tres científicos de datos, tres analistas de datos para trabajar con los datos, dos expertos que tenían trabajos de oficina automatizados en otros contextos y 500 000$ en honorarios para la empresa de IA que proporcionaba las herramientas de IA generativa. Fue un gran compromiso financiero y tres meses de intenso trabajo seguidos de continuos ajustes.
Estas son las lecciones generalizables que aprendimos de este esfuerzo.
1. El objetivo no debe ser la automatización, sino realizar el trabajo de forma rentable.
Ahora hay una gran variedad de herramientas basadas en LLM disponibles que ofrecen diferentes funciones, algunas de las cuales son muy sofisticadas. El equipo de desarrollo descubrió que una de las herramientas más sofisticadas podía hacer un buen trabajo de extracción y clasificación. Sin embargo, resultó que usar esa herramienta era tan caro que hacía que la solución fuera prohibitiva.
Los que no son expertos en IA asumen que todos los modelos de LLM capaces de gestionar el trabajo en cuestión son baratos o gratuitos, como la suscripción mensual o la versión gratuita de ChatGPT. La realidad es que estas versiones no pueden gestionar trabajos de gran volumen. En cambio, hay que utilizar una versión de plataforma en la que cada palabra de entrada y salida pueda costar una pequeña fracción de centavo, pero el coste total puede aumentar muy rápido porque se procesan muchas palabras, en este caso, miles de documentos cada día.
Para reducir estos costes, el equipo decidió utilizar el LLM Claude de Anthropic, pero los cargos de Amazon Web Services (AWS), el proveedor de servicios en la nube que ofrecía las herramientas necesarias, resultaron prohibitivamente altos debido a los costes de almacenamiento y potencia de cálculo. En resumen, ni siquiera un LLM eficiente va a funcionar a menos que sea más barato de lo que sustituye.
En consecuencia, los miembros del equipo dieron un respaldo y empezaron de nuevo, centrándose en la rentabilidad y en encontrar una solución que fuera lo suficientemente buena dadas las restricciones de costes. Lo hicieron creando un proceso de tres pasos. El primer paso fue utilizar un más barato lógica difusa herramienta: básicamente un lector óptico de caracteres con tecnología de IA para escanear el texto en busca de palabras específicas. Era considerablemente mejor que los indexadores humanos a la hora de clasificar los formularios entrantes y extraer datos de ellos. El tiempo medio que cada indexador tenía que dedicar a cada documento ahora se ha reducido a la mitad y su producción diaria prácticamente se ha duplicado.
Pero aún no estaba lo suficientemente cerca de la portería.
El siguiente intento fue enviar los documentos que no estaban clasificados con precisión o cuyos datos no se habían extraído con precisión al modelo de IA generativa en lugar de devolverlos a los empleados. Un descubrimiento importante fue una herramienta que capturaba campos de varias páginas de un documento y los procesaba en una sola imagen, lo que reducía sustancialmente los costes calculados por imagen. Los documentos que no se procesaron con precisión se enviaron por última vez a la herramienta de IA más cara.
Por último, algunos documentos aún tenían que ir a los indexadores para ser reelaborados, un 2,7% en comparación con casi el 90% anterior a cualquiera de las intervenciones, un enfoque de «persona al tanto». Sin embargo, para identificar este pequeño número de errores, los indexadores tuvieron que revisar el 27% de los documentos que el modelo de IA generativa tenía menos del 97% de confianza en que había clasificado correctamente. (Esto puede ocurrir porque la modelo no está segura de haber extraído la información correctamente o porque está sucediendo algo diferente, por ejemplo, se utilizó un tipo de formulario inusual o la calidad de la parte del documento que proporciona la información necesaria para clasificarlo es mala).
La productividad general se multiplicó por tres y el volumen máximo diario pasó de 10 000 a 30 000 documentos. El tiempo medio por documento para un indexador ahora era solo el 10% del nivel previo al tratamiento y el total de documentos gestionados por día se triplicó.
Este proceso de tres pasos ilustró el valor de empezar con las soluciones más baratas y, después, añadir las más caras a los casos restantes, un enfoque de ingeniería clásico: hacer lo que podamos con las soluciones baratas (es decir, la lógica difusa) antes de pasar a las costosas herramientas (IA).
Un resultado sorprendente fue que la resistencia al cambio que uno suele esperar fue inferior a la prevista, una vez que los empleados y la organización vieron lo que haría la IA, lo sencillo que sería el trabajo y lo mucho más gratificante que es el trabajo de los indexadores a la hora de resolver casos especiales.
2. Una aplicación exitosa de la IA puede no significar una reducción del empleo.
Como resultado del proceso asistido por la IA, el número de indexadores solo cayó alrededor de un 20%. Ahora que la función tramita un volumen mucho mayor de apelaciones y quejas, su plantilla es aproximadamente la misma que antes del cambio. Esto va en contra de la suposición de los entusiastas de la automatización del trabajo de que los ahorros derivados de la adopción de la IA provendrán de reducir la plantilla o incluso de eliminarla por completo.
El objetivo debe ser el resultado final (calidad, coste, etc.), no reducir la plantilla en sí. Resultó que los empleados seguían siendo necesarios en la función de reclamaciones, aunque no para la repetitiva tarea de introducir los datos iniciales. Eran necesarios para solucionar los problemas que ni siquiera las sofisticadas herramientas de IA podían gestionar, como la falta de datos o entradas ilegibles, nuevos formularios que eran lo suficientemente diferentes como para que el software de lógica difusa y las herramientas de IA generativa no pudieran procesarlos y otras idiosincrasias.
Este nuevo proceso basado en la IA también creó una nueva tarea humana: el control de calidad para tomar muestras y comprobar los resultados del sistema. Esto es especialmente necesario porque el formato en el que llegan los datos cambia continuamente según la amplia gama de proveedores y clientes que envían datos, lo que plantea desafíos de ejecución y calidad.
3. La IA puede permitir a los empleados centrarse en trabajos de mayor valor.
Las mejoras en la calidad de los datos a medida que los documentos pasaban de su gestión y entrada iniciales a las etapas más importantes del procesamiento de las reclamaciones de seguros ahorraron una enorme cantidad de tiempo y esfuerzo en el futuro. El trabajo de los indexadores pasó de las tareas repetitivas de entrada de datos que eran tan aburridas a la tarea más atractiva de perseguir los errores y encontrarles soluciones. Este turno redujo la rotación de los empleados y mejoró la satisfacción laboral. Aquí la empresa descubrió que cuanta más experiencia tenían los indexadores, mejor eran a la hora de encontrar y corregir estos errores.
4. Los ahorros provienen de los aumentos de escala que son posibles gracias al aumento de la productividad y la calidad.
Los costes iniciales de puesta en marcha eran considerables y tuvieron que amortizarse con el tiempo mediante la reducción de los costes de procesamiento por formulario. Otros costes operativos también aumentaron, ya que los pagos por el uso de las distintas herramientas de IA generativa sumaron un total de unos 200 000 dólares al mes. La nueva disposición exigía crear un proceso de evaluación de la calidad para garantizar que los componentes de la IA seguían ofreciendo calidad. Cualquier cambio en los requisitos, como la necesidad de datos adicionales en los formularios, implicaba reconstruir al menos una parte del sistema.
Los ahorros provienen de dos cosas. Una es el aumento de escala: el sistema ahora procesa aproximadamente tres veces más documentos por indexador. La otra es la calidad: menos errores en la tramitación de las reclamaciones, lo que reduce los costes operativos en otras áreas. El número de apelaciones, quejas y demandas de seguimiento sigue aumentando, pero no el número de personas, por lo que el ahorro de costes proviene de distribuir los costes operativos entre más documentos procesados.
Estimar los costes por adelantado y, a continuación, calcular los costes operativos y los ahorros netos (preguntas tradicionales de contabilidad interna) resultó ser difícil y llevó mucho tiempo. Nuestros cálculos indican que las reducciones de costes totales se acercaron al 15% y que el proyecto alcanzó el punto de equilibrio, dados los costes iniciales y operativos nuevos, en algún momento después de 10 meses. Una reducción del 15% no es la drástica reducción de los gastos operativos que los proponentes sugieren que provendrá de la IA, pero en este contexto, la verdadera ventaja era que las medidas anteriores no parecían sostenibles. Los atrasos crecían, contratar y luego retener a los indexadores resultaba cada vez más difícil, y los verdaderos costes de los problemas de calidad, aunque difíciles de medir, eran considerables. Este rediseño era necesario para que la operación siguiera adelante.
5. Involucrar a los empleados que han estado desempeñando la función en el proyecto de IA es esencial.
La integración exitosa de la IA en el proceso de trabajo parece requerir la ayuda de expertos que ya lo han hecho, pero trabajar con los empleados sobre el terreno también es esencial. Incluso con la participación de ocho científicos de datos, analistas de datos y expertos en automatización con experiencia, la implementación descrita en este artículo estaba lejos de ser «lista para usar». Entrenar la lógica difusa y las herramientas de inteligencia artificial requería coordinarse con lo que los indexadores veían realmente en los documentos que llegaban. Fueron necesarias dos iteraciones a lo largo de tres meses de trabajo para hacerlo bien.
La lección perdurable de las innovaciones de TI, incluida la IA generativa, es que las promesas iniciales de ahorro de costes y eliminación de puestos de trabajo suelen superar con creces la realidad. El éxito de la IA generativa no radica en transformar la gestión o reducir la plantilla, sino en mejorar las tareas de forma rentable. Automatizar el trabajo administrativo de poco valor resulta particularmente difícil porque debe hacerse de forma económica y se requieren habilidades gerenciales para reunir herramientas y empleados de forma eficaz. El objetivo de la adopción de la IA debería ser lograr mejores resultados de una manera rentable, la razón de ser de la dirección.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.