La Inteligencia Artificial Generativa sigue avanzando a ritmo vertiginoso. Desde nuestro último café virtual hace menos de 12 meses, hemos visto, vivido y probado enormes innovaciones en el campo de la Inteligencia Artificial Generativa de texto, código, imágenes, vídeo, voz o audio, algunas de las cuales entran de lleno y haciendo mucho ruido en industrias creativas masivas.
En este artículo vamos a dar una pincelada del estado del arte de estas tecnologías y vamos a reflexionar sobre dónde queda la creatividad humana en estos tiempos de revolución vertiginosa de la Inteligencia Artificial Generativa.
Ahora ChatGPT puede oír, hablar, ver… y pintar de forma natural
En septiembre de 2023, OpenAI anunció GPT-4V, esto es, toda una línea de investigación y desarrollo dentro de la Inteligencia Artificial como es la capacidad de visión por computador, ahora integrado en el modelo de lenguaje más potente hasta la fecha de la empresa creadora de ChatGPT (y, por supuesto, integrado en esta aplicación para sus usuarios, en este caso, de pago). Con GPT-4V bajo ChatGPT, sus usuarios pueden realizar tareas como reconocimiento, comparación o búsqueda visual en imágenes.
No solo eso, sino que, en la misma fecha, las capacidades de reconocimiento de voz y texto a voz (TTS o text-to-speech) que la compañía tenía a través de Whisper fueron también integradas dentro de ChatGPT. Menos de un mes después, en octubre de 2023, OpenAI anunció Dall-e 3, su modelo de generación de imágenes más avanzado hasta la fecha y lo integró en ChatGPT Plus (la versión de pago, de nuevo).
Estas capacidades combinadas e integradas dentro de un producto como ChatGPT, de uso fácil e intuitivo a través de lenguaje natural, escrito o hablado, ya suponían entonces un avance gigante en la democratización de la creatividad.
Pero es que en mayo de 2024, OpenAI anunció GPT-4o (o, de omni), su último modelo, más potente y realmente multimodal que unifica todas esas capacidades de visión, reconocimiento de voz y habla con una latencia mínima y de forma natural, disponible además para todos los usuarios (de pago y gratuitos) de ChatGPT.
Estamos frente a la irrupción de los verdaderos asistentes de Inteligencia Artificial y veremos mucho sobre esto en los próximos meses.
HeyGen, Suno… y Sora: lo siguiente en Inteligencia Artificial Generativa
Ya en verano de 2023 empezamos a ver los primeros modelos potentes de clonación de voz. Sistemas como HeyGen impresionaron por su capacidad y realismo a la hora de clonar cualquier voz, con un mínimo entrenamiento, para decir cualquier cosa y en cualquier idioma. De nuevo, grandes posibilidades creativas (y, también, riesgos obvios) democratizados. Las reacciones adversas en la industria audiovisual no se hicieron esperar: piensa, por ejemplo, en la labor de los dobladores de voz.
En marzo de 2024, nuevos modelos como Suno o Udio ofrecieron un salto enorme en el estado del arte de la generación de música con Inteligencia Artificial Generativa, poniendo a disposición del público de forma gratuita herramientas de generación de música de cualquier estilo a través de un prompt sencillo y con ciertas capacidades de personalización (como, por ejemplo, generar o editar tu propia letra para la canción que estás generando).
En febrero de 2024, OpenAI sorprendió al mundo con el anuncio de Sora: un modelo de generación de vídeo de, en algunos casos, varios minutos, hiperrealista, de alta definición y, en general, con una gran consistencia entre frames. Un “modelo del mundo” del que tan solo hemos visto algunos vídeos de demostración, pero que dejan entrever la enorme capacidad que albergan y el -probablemente- alto impacto que generará en industrias creativas como la audiovisual, además de todo lo que puede implicar como modelo fundacional y generador de datos sintéticos válidos para otras Inteligencias Artificiales.
Creatividad humana aumentada con Inteligencia Artificial
No es la primera vez que ocurre en la historia: los avances tecnológicos retan la propia definición de creatividad humana y recuperan el histórico debate sobre qué es arte.
Durante un período de revolución tecnológica, quienes primero adoptan las nuevas tecnologías son incómodos para el statu quo en cualquier disciplina y sus prácticas son, normalmente, tachadas de no ser arte o no ser creatividad.
La realidad es que hoy sería impensable pensar en un pintor, arquitecto, diseñador, ilustrador, doblador, músico cineasta o creativo en general que no utilice las últimas técnicas y herramientas tecnológicas disponibles.
La Inteligencia Artificial Generativa es una tecnología que desafía mucho la creatividad humana. No se entiende, falta control, falta claridad en el origen de los datos, falta marco legal, regulatorio, ético, genera controversia… y aún le falta mucho recorrido a nivel tecnológico para ofrecer altos estándares de calidad creativa.
Hay mucho que avanzar aún en todo ello, pero estamos tan solo al principio de la explosión de esta gran revolución que, por otro lado, llevamos casi un siglo investigando y desarrollando.
Pero, pasada esa fase inicial en la que las posibilidades desafían la realidad, los seres humanos siempre abrazamos la innovación tecnológica para aumentar nuestras capacidades humanas.
Y con la Inteligencia Artificial Generativa y la creatividad humana no será distinto.