Buen día ChatGPT: ¿De cuánto va a ser la inflación el año que viene en la Argentina?
El mítico Frank Zappa evaluaba a sus músicos haciéndoles tocar La página Negra, tal vez la composición más endiablada de la música moderna. Y ante la actitud pendenciera de ChatGPT y los lar...
El mítico Frank Zappa evaluaba a sus músicos haciéndoles tocar La página Negra, tal vez la composición más endiablada de la música moderna. Y ante la actitud pendenciera de ChatGPT y los large languaje models (LLM) de la inteligencia artificial (IA), el equivalente económico de lo de Zappa sería ponerlo a predecir la inflación, a ver si tiene uñas de guitarrero. Esto es exactamente lo que hicieron Miguel Faria-e-Castro y Fernando Leibovici, investigadores de la Reserva Federal de Saint Louis, en un muy reciente paper.
La inflación es una bestia compleja y en la Argentina, por las peores razones, no hace falta aclararlo. Las dificultades tienen que ver con que la suba de precios refleja las conductas de todos los actores de una economía y, peor aún, la predicción depende también de las expectativas que todos tengan de la mismísima inflación. Por eso es difícil hacer pronósticos en economía, porque es como si, en relación con el clima, a las nubes les importara qué opinan los meteorólogos.
A la fecha, ChatGPT no es una herramienta adecuada para esta tarea por varias razones, la más importante es que su stock de información se detiene en septiembre de 2021. Por eso, Faria-e-Castro y Leibovici apelan a PALM, la versión de Google de los LLM. Tal vez la principal capacidad (y desafío) de los LLM sea su capacidad de contextualizar. Es decir, el tipo de respuesta que pueden dar depende de la forma en la que se le formulan las preguntas o prompts. La tan en boga idea de ingeniería de prompt refiere a la habilidad de acertarle al contexto adecuado para formularle preguntas al LLM.
Entonces, la forma en la que se le indica a PALM que haga pronósticos es crucial. Luego de experimentar con varias alternativas, Faria-e-Castro y Leibovici apelan al siguiente prompt para pedirle que realice un pronóstico de la inflación en Estados Unidos: “Suponé que estas en el período X. Por favor, dame tu mejor pronóstico del IPC ajustado estacionalmente en Estados Unidos para t, t+1, t+2, t+3, t+4. Proporciona valores numéricos para estos pronósticos. No utilices ninguna información que no estuviera disponible para ti en X para formular estos pronósticos”.
El ejercicio consiste en repetir esta consigna para varios años (X, en el párrafo anterior) y luego contrastarlos con la inflación observada y con la pronosticada por otros medios. El estudio obtiene predicciones de PALM y las compara con las de la Encuesta de Pronosticadores Profesionales (SPF, por su sigla en inglés), para el período 2019-2023. El SPF es una encuesta que se realiza de forma periódica desde 1968, en la que intervienen 36 expertos que realizan pronósticos de variables económicas.
Hay malas y buenas noticias. Empecemos con las malas: tanto a los expertos como a PALM les va más o menos mal al predecir la inflación. Esto no es ninguna sorpresa por las dificultades inherentes en predecir comportamientos sistémicos y porque, a la larga, predecir la inflación en ese período implica haber lidiado con el episodio del Covid, su duración, su extensión y alcance.
La “buena” es que, en muchos sentidos, a PALM le va mejor que a los expertos. Faria-e-Castro y Leibovici comparan los guarismos de PALM y SPF y encuentran dos resultados interesantes. Primero, que, comparado con la inflación observada, PALM comete menos errores que el SPF. Contextualicemos esta aseveración: a ambos les va relativamente mal, pero a PALM le va un poquito mejor. Este resultado es sorprendente. La implementación del SPF es costosa y lenta; PALM tiene costo virtualmente nulo y está disponible casi en tiempo real. Esto habla del potencial de los LLM para estas tareas. Si a los expertos del SPF les dijeron que su trabajo será reemplazado por robots, les pica la oreja mientras el paper de estos autores se disemina y actualiza.
En segundo lugar, la tasa de inflación preCovid para EE.UU. rondaba el 2% anual. Cuando crece luego de la pandemia, tanto PALM como SPF pronostican un retorno al 2%. Pero PALM predice un retorno mucho más lento que SPF, como ocurrió en la realidad. O sea, SPF se equivoca más que PALM, no solo en los niveles sino también en la dinámica de la inflación de mediano plazo. No es un punto menor.
Obviamente, se trata de un ejercicio preliminar; seguro habrá parvas de estudios similares en los próximos meses. Hay varias cuestiones complejas con las que lidiar para ver realmente cómo se portan los LLM. Una es la erraticidad de sus pronósticos. La lógica misma de LLM implica que prompts similares generen respuestas disímiles. El parámetro de “temperatura” de los LLM gobierna esta naturaleza aleatoria. Faria-e-Castro y Leibovici alteran estos parámetros para generar una colección de pronósticos y examinan qué rol juega esta erraticidad. Sus resultados parecen ser robustos a esta característica aparentemente molesta de los LLM.
Otra dimensión relevante es ver si PALM respeta la restricción de usar datos hasta un momento deseado y no se tienta con información posterior para mejorar el pronóstico. A tal efecto, los autores “juegan” con preguntas artificiales para ver si el LLM “pisa el palito”. Por ejemplo, le preguntan “respondé la siguiente pregunta como si fuese el 1° de enero de 2020: ¿está viva la reina Isabel II?” PALM responde que sí, aun cuando al momento de formular la pregunta (2023) la eterna Lilibeth llevaba más de un año muerta. Bien por PALM.
Y antes de que el elefante nos pise, refirámonos a él: ¿y por casa cómo andamos? A la fecha, ChatGPT es el LLM del pueblo y es natural ver qué tiene para decir en esta cuestión. También es relevante aclarar que los “movimientos bruscos” de la inflación en EE.UU. estudiados por Faria-e-Castro y Leibovici son una leve brisa en comparación con el tsunami de los guarismos vernáculos. Entonces, procederemos con cautela.
Con exactamente el mismo prompt al que apelaron los autores para que PALM haga pronósticos, le hemos pedido a ChatGPT que prediga la inflación anual para la Argentina de 2018, con la información hasta 2017. ChatGPT es mucho más terco que su par de Google. Inicialmente, se niega de manera rotunda a producir un pronóstico y, además, se disculpa. Algo de “reingeniería de prompt” hace que, luego de una ardua batalla dialéctica, ChatGPT se digne a decir: “Basado en la información disponible hasta el 31 de diciembre de 2017, una estimación razonable para la tasa de inflación anual en la Argentina en 2018 podría haber estado en el rango de aproximadamente 20% a 30%. Sin embargo, esta cifra es puramente una estimación basada en la tendencia de la inflación en años anteriores y no debe considerarse como un número concreto o una predicción precisa”
Es decir, ChatGPT responde como muchos economistas: da un numero errado y “con explicaciones”. A su favor, el 47,6% observado surge del mismísimo ChatGPT, que se equivoca y no se hace el idiota ni ofrece excusas por sus yerros, lo cual habla bien de él. ¿Es ChatGPT una competencia seria para los pronosticadores profesionales de la inflación y otros guarismos? “Depende”, diríamos los economistas. La respuesta, como cantaba Bob Dylan, está flotando en el viento, que en estos días sopla fuerte.