♪ (música) ♪ - [Narradora] Bienvenidos a Nobel Conversations. En este episodio, Josh Angrist y Guido Imbens se reúnen con Isaiah Andrews para discutir y discrepar sobre el papel del aprendizaje automático en la econometría aplicada. - [Isaiah] Bien. Por supuesto que hay muchos temas en los que ustedes están muy de acuerdo, pero me gustaría pasar a uno sobre el que tal vez opinen algo distinto. Me gustaría escuchar algunas de sus opiniones sobre el aprendizaje automático y el papel que desempeña y desempeñará en la economía. - [Guido] He consultado algunos datos, como los datos privados. Vemos que no hay ningún documento publicado allí. Se hizo un experimento sobre algún algoritmo de búsqueda y la cuestión era... se trataba de clasificar cosas y cambiar la clasificación. Y estaba más o menos claro que iba a haber mucha heterogeneidad. Si buscas, digamos, una foto de Britney Spears, realmente no importa dónde la clasifiques porque vas a encontrar lo que estás buscando, ya sea que la clasifiques en primera, segunda o tercera posición. Pero si estás buscando el mejor libro de econometría, si pones tu libro en primer lugar o en el décimo, eso va a suponer una gran diferencia en la frecuencia con la que la gente hará clic en él. Así que ahí-- [Josh] ¿Por qué necesito el aprendizaje automático para descubrir eso? Porque parece que puedo descubrirlo de forma sencilla. - [Guido] En general-- - [Josh] Había un montón de posibles-- - [Guido]...quieres pensar que los artículos tienen montón de características, que quieres entender lo que impulsa la heterogeneidad en el efecto de-- - Pero solo estás prediciendo. En cierto sentido, estás resolviendo un problema de marketing. - No, es un efecto causal, - Es causal, pero no tiene contenido científico. Piensa en-- - No, pero hay cosas similares en el ámbito médico. Si haces un experimento, puedes estar muy interesado en si el tratamiento funciona para algunos grupos o no. Y tienes un montón de características individuales, y quieres buscar sistemáticamente-- - Sí. Tengo mis dudas sobre esa... esa especie de idea de que hay un efecto causal personal que me debería importar y que el aprendizaje automático puede descubrirlo de alguna manera que sea útil. Así que piensa en-- he trabajado mucho en las escuelas, yendo a, digamos, una escuela chárter, una escuela privada financiada con fondos públicos, efectivamente, que es libre de estructurar su propio plan de estudios en función del contexto. Algunos tipos de escuelas chárter consiguen un rendimiento espectacular y en el conjunto de datos que produce ese resultado, tengo un montón de covariables. Tengo las puntuaciones de referencia y los antecedentes familiares, la educación de los padres, el sexo del niño, la raza del niño. Y, bueno, en cuanto reúno media docena de ellas, tengo un espacio de muy alta dimensión. Sin duda, me interesan las características del curso de ese efecto del tratamiento, como por ejemplo, si es mejor para las personas que provienen de familias con menores ingresos. Me cuesta creer que haya una aplicación para la versión de muy alta dimensión, en la que descubrí que para los niños no blancos que tienen ingresos familiares altos pero puntuaciones de referencia en el tercer cuartil y que solo fueron a la escuela pública en el tercer grado pero no en el sexto. Así que eso es lo que produce ese análisis de alta dimensión. Es una declaración condicional muy elaborada. Hay dos cosas que están mal, en mi opinión. En primer lugar, no lo veo como-- no puedo imaginar por qué es algo procesable. No sé por qué querrías actuar sobre ello. Y también sé que hay algún modelo alternativo que encaja casi igual de bien, que lo invierte todo. Porque el aprendizaje automático no me dice que este es realmente el predictor que importa, solo me dice que este es un buen predictor. Así que creo, que hay algo diferente en el contexto de las ciencias sociales. - [Guido] Creo que las aplicaciones de las ciencias sociales de las que hablas son aquellas en las que, creo, no hay una gran cantidad de heterogeneidad en los efectos. - [Josh] Bueno, podría haberla si me permites llenar ese espacio. - No... ni siquiera entonces. Creo que para muchas de esas intervenciones, se espera que el efecto sea del mismo signo para todos. Puede haber pequeñas diferencias en la magnitud, pero no es... Porque muchas de estas diferencias educativas son buenas para todos. No es que sean malas para algunas personas y buenas para otras y en algunos pequeños casos pueden ser malas. Pero puede haber algo de variación en la magnitud, pero se necesitarían conjuntos de datos muy muy grandes para encontrarlos. Estoy de acuerdo en que, en esos casos, probablemente no serían muy procesables de todos modos. Pero creo que hay muchos otros escenarios donde hay mucha más heterogeneidad. - Bueno, estoy abierto a esa posibilidad y creo que el ejemplo que has dado es esencialmente un ejemplo de marketing. - No, esos tienen implicaciones para ello y esa es la organización, si tienes que preocuparte por la-- - Bueno, necesito ver ese documento. - Así que, la sensación que tengo es que... - Todavía no estamos de acuerdo en algo. - Sí. - No hemos coincidido en todo. - Tengo esa sensación. [risas] - En realidad, hemos discrepado en esto porque no estaba para discutir. [risas] - ¿Se está poniendo algo caluroso aquí? - Caluroso. Es bueno que esté caluroso. La sensación que tengo es, Josh, que no estás diciendo que estás seguro de que no hay manera de que haya una aplicación en la que estas cosas sean útiles. Estás diciendo que no estás convencido con las aplicaciones existentes hasta la fecha. - Me parece bien. - Estoy muy seguro. [risas] - En este caso. - Creo que Josh tiene razón en que incluso en los casos de predicción, donde muchos de los métodos de aprendizaje automática realmente se destacan es donde hay un montón de heterogeneidad. - No te importan mucho los detalles, ¿verdad? - [Guido] Sí. - No tiene un ángulo normativo o algo así. - El reconocimiento de dígitos escritos a mano y demás... lo hace mucho mejor que construir un modelo complicado. Pero muchas de las ciencias sociales, muchas de las aplicaciones económicas, en realidad sabemos mucho sobre la relación entre sus variables. Muchas de las relaciones son estrictamente monótonas. La educación va a aumentar los ingresos de la gente, sin importar las características demográficas, sin importar el nivel de educación que se tenga. - Hasta que lleguen a un doctorado. - ¿Eso se aplica a la escuela de posgrado? [risas] - En un rango razonable. No va a bajar mucho. En muchos de los entornos en los que se destacan estos métodos de aprendizaje automático, hay mucha falta de monotonicidad, una especie de multimodalidad en estas relaciones y van a ser muy poderosos. Pero sigo sosteniendo lo mismo. Estos métodos tienen mucho para ofrecerles a los economistas y serán una gran parte del futuro. APLICACIONES DEL APRENDIZAJE AUTOMÁTICO Parece que hay algo interesante por decir sobre el aprendizaje automático. Así que, Guido, me preguntaba ¿podría dar tal vez algunos de los ejemplos que está pensando con las aplicaciones que salen en el momento? - Un área es donde en lugar de buscar efectos causales promedio estamos buscando estimaciones individualizadas, predicciones de efectos causales, y allí, los algoritmos de aprendizaje automático han sido muy eficaces. Hasta ahora, hemos hecho estas cosas utilizando métodos de kernel, y teóricamente, funcionan muy bien, y hay quienes comentan que, formalmente, no se puede hacer nada mejor. Pero en la práctica, no funcionan muy bien. Las cosas aleatorias de tipo bosque causal en las que Stefan Wager y Susan Athey han estado trabajando se utilizan muy ampliamente. Han sido muy eficaces en estos entornos para obtener efectos causales que varían según las covariables. Creo que esto es solo el comienzo de estos métodos. Pero en muchos casos, estos algoritmos son muy eficaces, como en la búsqueda en grandes espacios y encontrar las funciones que se ajustan muy bien en formas que realmente no podíamos hacer antes. - No conozco ningún ejemplo en el que el aprendizaje automático haya generado conocimientos sobre un efecto causal que me interese. Y sí conozco ejemplos en los que es potencialmente muy engañoso. He trabajado con Brigham Frandsen utilizando, por ejemplo, bosques aleatorios para modelar los efectos de las covariables en un problema de variables instrumentales en el que hay que condicionar las covariables.