WEBVTT 00:00:00.000 --> 00:00:03.138 ♪ (música) ♪ 00:00:03.394 --> 00:00:05.633 - [Narradora] Bienvenidos a Nobel Conversations. 00:00:06.992 --> 00:00:10.093 En este episodio, Josh Angrist y Guido Imbens 00:00:10.093 --> 00:00:13.366 se reúnen con Isaiah Andrews para discutir y discrepar 00:00:13.366 --> 00:00:15.221 sobre el papel del aprendizaje automático 00:00:15.221 --> 00:00:16.816 en la econometría aplicada. 00:00:17.894 --> 00:00:19.896 - [Isaiah] Bien. Por supuesto que hay muchos temas 00:00:19.896 --> 00:00:21.465 en los que ustedes están muy de acuerdo, 00:00:21.465 --> 00:00:22.595 pero me gustaría pasar a uno 00:00:22.595 --> 00:00:24.365 sobre el que tal vez opinen algo distinto. 00:00:24.365 --> 00:00:26.103 Me gustaría escuchar algunas de sus opiniones 00:00:26.103 --> 00:00:27.319 sobre el aprendizaje automático 00:00:27.319 --> 00:00:30.257 y el papel que desempeña y desempeñará en la economía. 00:00:30.257 --> 00:00:31.858 - [Guido] He consultado algunos datos, 00:00:31.858 --> 00:00:33.349 como los datos privados. 00:00:33.349 --> 00:00:35.306 Vemos que no hay ningún documento publicado allí. 00:00:35.975 --> 00:00:39.426 Se hizo un experimento sobre algún algoritmo de búsqueda 00:00:39.426 --> 00:00:41.081 y la cuestión era... 00:00:42.581 --> 00:00:45.492 se trataba de clasificar cosas y cambiar la clasificación. 00:00:45.990 --> 00:00:47.163 Y estaba más o menos claro 00:00:47.163 --> 00:00:50.271 que iba a haber mucha heterogeneidad. 00:00:51.117 --> 00:00:55.864 Si buscas, digamos, 00:00:58.122 --> 00:01:00.640 una foto de Britney Spears, 00:01:00.640 --> 00:01:02.505 realmente no importa dónde la clasifiques 00:01:02.505 --> 00:01:05.214 porque vas a encontrar lo que estás buscando, 00:01:05.736 --> 00:01:07.058 ya sea que la clasifiques 00:01:07.058 --> 00:01:09.744 en primera, segunda o tercera posición. 00:01:10.027 --> 00:01:12.346 Pero si estás buscando el mejor libro de econometría, 00:01:12.346 --> 00:01:16.510 si pones tu libro en primer lugar o en el décimo, 00:01:16.510 --> 00:01:18.140 eso va a suponer una gran diferencia 00:01:18.140 --> 00:01:19.835 en la frecuencia 00:01:19.835 --> 00:01:21.286 con la que la gente hará clic en él. 00:01:22.089 --> 00:01:23.312 Así que ahí-- 00:01:23.312 --> 00:01:24.326 [Josh] ¿Por qué necesito 00:01:24.326 --> 00:01:27.314 el aprendizaje automático para descubrir eso? 00:01:27.314 --> 00:01:29.463 Porque parece que puedo descubrirlo de forma sencilla. 00:01:29.463 --> 00:01:30.517 - [Guido] En general-- 00:01:30.517 --> 00:01:32.233 - [Josh] Había un montón de posibles-- 00:01:32.233 --> 00:01:34.233 - [Guido]...quieres pensar que los artículos 00:01:34.233 --> 00:01:37.092 tienen montón de características, 00:01:37.092 --> 00:01:38.940 que quieres entender 00:01:38.940 --> 00:01:43.650 lo que impulsa la heterogeneidad en el efecto de-- 00:01:43.669 --> 00:01:44.876 - Pero solo estás prediciendo. 00:01:44.876 --> 00:01:46.057 En cierto sentido, 00:01:46.057 --> 00:01:47.793 estás resolviendo un problema de marketing. 00:01:47.793 --> 00:01:49.210 - No, es un efecto causal, 00:01:49.210 --> 00:01:51.738 - Es causal, pero no tiene contenido científico. 00:01:51.738 --> 00:01:52.809 Piensa en-- 00:01:53.669 --> 00:01:57.243 - No, pero hay cosas similares en el ámbito médico. 00:01:57.693 --> 00:01:59.312 Si haces un experimento, 00:01:59.312 --> 00:02:02.492 puedes estar muy interesado en si el tratamiento funciona 00:02:02.492 --> 00:02:03.821 para algunos grupos o no. 00:02:03.821 --> 00:02:05.946 Y tienes un montón de características individuales, 00:02:05.946 --> 00:02:08.109 y quieres buscar sistemáticamente-- 00:02:08.109 --> 00:02:09.883 - Sí. Tengo mis dudas sobre esa... 00:02:09.883 --> 00:02:12.588 esa especie de idea de que hay un efecto causal personal 00:02:12.588 --> 00:02:13.902 que me debería importar 00:02:13.902 --> 00:02:15.164 y que el aprendizaje automático 00:02:15.164 --> 00:02:17.103 puede descubrirlo de alguna manera que sea útil. 00:02:17.517 --> 00:02:18.678 Así que piensa en-- 00:02:18.678 --> 00:02:20.182 he trabajado mucho en las escuelas, 00:02:20.182 --> 00:02:22.358 yendo a, digamos, una escuela chárter, 00:02:22.358 --> 00:02:24.498 una escuela privada financiada con fondos públicos, 00:02:24.780 --> 00:02:27.392 efectivamente, que es libre de estructurar 00:02:27.392 --> 00:02:29.587 su propio plan de estudios en función del contexto. 00:02:29.587 --> 00:02:30.938 Algunos tipos de escuelas chárter 00:02:30.938 --> 00:02:33.379 consiguen un rendimiento espectacular 00:02:33.379 --> 00:02:36.321 y en el conjunto de datos que produce ese resultado, 00:02:36.321 --> 00:02:37.968 tengo un montón de covariables. 00:02:37.968 --> 00:02:39.584 Tengo las puntuaciones de referencia 00:02:39.584 --> 00:02:41.321 y los antecedentes familiares, 00:02:41.321 --> 00:02:45.524 la educación de los padres, el sexo del niño, la raza del niño. 00:02:46.060 --> 00:02:49.758 Y, bueno, en cuanto reúno media docena de ellas, 00:02:49.758 --> 00:02:51.751 tengo un espacio de muy alta dimensión. 00:02:52.391 --> 00:02:55.394 Sin duda, me interesan las características del curso 00:02:55.394 --> 00:02:56.803 de ese efecto del tratamiento, 00:02:56.803 --> 00:02:58.688 como por ejemplo, si es mejor para las personas 00:02:58.688 --> 00:03:02.054 que provienen de familias con menores ingresos. 00:03:02.377 --> 00:03:05.656 Me cuesta creer que haya una aplicación 00:03:05.656 --> 00:03:09.970 para la versión de muy alta dimensión, 00:03:09.970 --> 00:03:12.499 en la que descubrí que para los niños no blancos 00:03:12.499 --> 00:03:15.028 que tienen ingresos familiares altos 00:03:15.028 --> 00:03:17.747 pero puntuaciones de referencia en el tercer cuartil 00:03:17.747 --> 00:03:20.535 y que solo fueron a la escuela pública 00:03:20.535 --> 00:03:23.128 en el tercer grado pero no en el sexto. 00:03:23.128 --> 00:03:25.681 Así que eso es lo que produce ese análisis de alta dimensión. 00:03:25.681 --> 00:03:27.938 Es una declaración condicional muy elaborada. 00:03:27.938 --> 00:03:30.702 Hay dos cosas que están mal, en mi opinión. 00:03:30.702 --> 00:03:32.418 En primer lugar, no lo veo como-- 00:03:32.418 --> 00:03:34.492 no puedo imaginar por qué es algo procesable. 00:03:34.492 --> 00:03:36.518 No sé por qué querrías actuar sobre ello. 00:03:36.518 --> 00:03:39.381 Y también sé que hay algún modelo alternativo 00:03:39.381 --> 00:03:42.856 que encaja casi igual de bien, que lo invierte todo. 00:03:42.978 --> 00:03:44.591 Porque el aprendizaje automático 00:03:44.591 --> 00:03:48.473 no me dice que este es realmente el predictor que importa, 00:03:48.473 --> 00:03:50.779 solo me dice que este es un buen predictor. 00:03:51.396 --> 00:03:54.875 Así que creo, que hay algo diferente 00:03:54.875 --> 00:03:57.688 en el contexto de las ciencias sociales. 00:03:57.688 --> 00:04:00.270 - [Guido] Creo que las aplicaciones de las ciencias sociales 00:04:00.270 --> 00:04:03.922 de las que hablas son aquellas en las que, creo, 00:04:03.922 --> 00:04:07.923 no hay una gran cantidad de heterogeneidad en los efectos. 00:04:09.760 --> 00:04:13.610 - [Josh] Bueno, podría haberla si me permites llenar ese espacio. 00:04:13.610 --> 00:04:15.648 - No... ni siquiera entonces. 00:04:15.648 --> 00:04:18.506 Creo que para muchas de esas intervenciones, 00:04:18.506 --> 00:04:22.840 se espera que el efecto sea del mismo signo para todos. 00:04:23.055 --> 00:04:27.320 Puede haber pequeñas diferencias en la magnitud, pero no es... 00:04:27.576 --> 00:04:29.968 Porque muchas de estas diferencias educativas 00:04:29.968 --> 00:04:31.612 son buenas para todos. 00:04:31.612 --> 00:04:35.932 No es que sean malas para algunas personas 00:04:35.932 --> 00:04:37.408 y buenas para otras 00:04:37.408 --> 00:04:39.797 y en algunos pequeños casos pueden ser malas. 00:04:40.189 --> 00:04:43.633 Pero puede haber algo de variación en la magnitud, 00:04:43.633 --> 00:04:44.808 pero se necesitarían 00:04:44.808 --> 00:04:47.019 conjuntos de datos muy muy grandes para encontrarlos. 00:04:47.019 --> 00:04:48.985 Estoy de acuerdo en que, en esos casos, 00:04:48.985 --> 00:04:51.393 probablemente no serían muy procesables de todos modos. 00:04:51.881 --> 00:04:54.075 Pero creo que hay muchos otros escenarios 00:04:54.075 --> 00:04:56.483 donde hay mucha más heterogeneidad. 00:04:56.736 --> 00:04:59.164 - Bueno, estoy abierto a esa posibilidad 00:04:59.164 --> 00:05:00.977 y creo que el ejemplo que has dado 00:05:00.977 --> 00:05:04.857 es esencialmente un ejemplo de marketing. 00:05:05.938 --> 00:05:09.714 - No, esos tienen implicaciones para ello 00:05:09.714 --> 00:05:11.596 y esa es la organización, 00:05:11.596 --> 00:05:15.358 si tienes que preocuparte por la-- 00:05:15.358 --> 00:05:17.857 - Bueno, necesito ver ese documento. 00:05:18.289 --> 00:05:21.490 - Así que, la sensación que tengo es que... 00:05:21.490 --> 00:05:23.371 - Todavía no estamos de acuerdo en algo. 00:05:23.371 --> 00:05:25.735 - Sí. - No hemos coincidido en todo. 00:05:25.735 --> 00:05:27.393 - Tengo esa sensación. [risas] 00:05:27.393 --> 00:05:29.047 - En realidad, hemos discrepado en esto 00:05:29.047 --> 00:05:30.729 porque no estaba para discutir. 00:05:30.729 --> 00:05:33.144 [risas] 00:05:33.144 --> 00:05:35.060 - ¿Se está poniendo algo caluroso aquí? 00:05:35.720 --> 00:05:37.854 - Caluroso. Es bueno que esté caluroso. 00:05:37.854 --> 00:05:39.501 La sensación que tengo es, Josh, 00:05:39.501 --> 00:05:41.951 que no estás diciendo que estás seguro 00:05:41.951 --> 00:05:44.159 de que no hay manera de que haya una aplicación 00:05:44.159 --> 00:05:45.667 en la que estas cosas sean útiles. 00:05:45.667 --> 00:05:47.169 Estás diciendo que no estás convencido 00:05:47.169 --> 00:05:49.444 con las aplicaciones existentes hasta la fecha. 00:05:49.907 --> 00:05:51.665 - Me parece bien. - Estoy muy seguro. 00:05:51.858 --> 00:05:54.179 [risas] 00:05:54.179 --> 00:05:55.270 - En este caso. 00:05:55.270 --> 00:05:56.541 - Creo que Josh tiene razón 00:05:56.541 --> 00:06:00.101 en que incluso en los casos de predicción, 00:06:00.101 --> 00:06:03.757 donde muchos de los métodos de aprendizaje automática 00:06:03.757 --> 00:06:06.517 realmente se destacan es donde hay un montón de heterogeneidad. 00:06:06.785 --> 00:06:10.400 - No te importan mucho los detalles, ¿verdad? 00:06:10.400 --> 00:06:11.480 - [Guido] Sí. 00:06:11.480 --> 00:06:14.752 - No tiene un ángulo normativo o algo así. 00:06:14.752 --> 00:06:17.535 - El reconocimiento de dígitos escritos a mano 00:06:17.535 --> 00:06:18.569 y demás... 00:06:18.721 --> 00:06:23.861 lo hace mucho mejor que construir un modelo complicado. 00:06:24.201 --> 00:06:26.925 Pero muchas de las ciencias sociales, 00:06:26.925 --> 00:06:28.454 muchas de las aplicaciones económicas, 00:06:28.454 --> 00:06:29.610 en realidad sabemos mucho 00:06:29.610 --> 00:06:32.067 sobre la relación entre sus variables. 00:06:32.067 --> 00:06:34.572 Muchas de las relaciones son estrictamente monótonas. 00:06:35.399 --> 00:06:39.266 La educación va a aumentar los ingresos de la gente, 00:06:39.266 --> 00:06:41.916 sin importar las características demográficas, 00:06:41.916 --> 00:06:44.763 sin importar el nivel de educación que se tenga. 00:06:44.763 --> 00:06:46.325 - Hasta que lleguen a un doctorado. 00:06:46.325 --> 00:06:48.126 - ¿Eso se aplica a la escuela de posgrado? 00:06:48.126 --> 00:06:49.218 [risas] 00:06:49.218 --> 00:06:50.593 - En un rango razonable. 00:06:50.593 --> 00:06:55.472 No va a bajar mucho. 00:06:55.472 --> 00:06:58.178 En muchos de los entornos en los que se destacan 00:06:58.178 --> 00:07:00.209 estos métodos de aprendizaje automático, 00:07:00.209 --> 00:07:02.081 hay mucha falta de monotonicidad, 00:07:02.081 --> 00:07:04.598 una especie de multimodalidad en estas relaciones 00:07:04.598 --> 00:07:08.475 y van a ser muy poderosos. 00:07:08.701 --> 00:07:11.426 Pero sigo sosteniendo lo mismo. 00:07:11.426 --> 00:07:17.530 Estos métodos tienen mucho para ofrecerles a los economistas 00:07:17.530 --> 00:07:21.465 y serán una gran parte del futuro. 00:07:21.629 --> 00:07:23.183 APLICACIONES DEL APRENDIZAJE AUTOMÁTICO 00:07:23.183 --> 00:07:24.814 Parece que hay algo interesante por decir 00:07:24.814 --> 00:07:26.139 sobre el aprendizaje automático. 00:07:26.139 --> 00:07:27.412 Así que, Guido, me preguntaba 00:07:27.412 --> 00:07:29.416 ¿podría dar tal vez algunos de los ejemplos 00:07:29.416 --> 00:07:30.694 que está pensando 00:07:30.694 --> 00:07:32.507 con las aplicaciones que salen en el momento? 00:07:32.507 --> 00:07:35.779 - Un área es donde en lugar de buscar 00:07:35.779 --> 00:07:37.235 efectos causales promedio 00:07:37.235 --> 00:07:39.684 estamos buscando estimaciones individualizadas, 00:07:39.684 --> 00:07:43.212 predicciones de efectos causales, 00:07:43.212 --> 00:07:45.856 y allí, los algoritmos de aprendizaje automático 00:07:45.856 --> 00:07:47.384 han sido muy eficaces. 00:07:47.958 --> 00:07:49.892 Hasta ahora, hemos hecho estas cosas 00:07:49.892 --> 00:07:51.458 utilizando métodos de kernel, 00:07:51.458 --> 00:07:53.846 y teóricamente, funcionan muy bien, 00:07:53.846 --> 00:07:56.226 y hay quienes comentan que, formalmente, 00:07:56.226 --> 00:07:57.575 no se puede hacer nada mejor. 00:07:57.575 --> 00:07:59.422 Pero en la práctica, no funcionan muy bien. 00:07:59.643 --> 00:08:03.057 Las cosas aleatorias de tipo bosque causal 00:08:03.057 --> 00:08:05.833 en las que Stefan Wager y Susan Athey 00:08:05.833 --> 00:08:09.310 han estado trabajando se utilizan muy ampliamente. 00:08:09.537 --> 00:08:11.895 Han sido muy eficaces en estos entornos 00:08:11.895 --> 00:08:14.998 para obtener efectos causales 00:08:14.998 --> 00:08:19.118 que varían según las covariables. 00:08:19.118 --> 00:08:23.665 Creo que esto es solo el comienzo de estos métodos. 00:08:23.665 --> 00:08:25.605 Pero en muchos casos, 00:08:27.201 --> 00:08:29.572 estos algoritmos son muy eficaces, 00:08:29.572 --> 00:08:31.481 como en la búsqueda en grandes espacios 00:08:31.481 --> 00:08:36.908 y encontrar las funciones que se ajustan muy bien 00:08:36.908 --> 00:08:40.444 en formas que realmente no podíamos hacer antes. 00:08:41.511 --> 00:08:42.866 - No conozco ningún ejemplo 00:08:42.866 --> 00:08:45.379 en el que el aprendizaje automático haya generado conocimientos 00:08:45.379 --> 00:08:47.260 sobre un efecto causal que me interese. 00:08:47.619 --> 00:08:49.133 Y sí conozco ejemplos 00:08:49.133 --> 00:08:51.106 en los que es potencialmente muy engañoso. 00:08:51.485 --> 00:08:53.487 He trabajado con Brigham Frandsen 00:08:53.487 --> 00:08:55.916 utilizando, por ejemplo, bosques aleatorios 00:08:55.916 --> 00:08:57.943 para modelar los efectos de las covariables 00:08:57.943 --> 00:08:59.775 en un problema de variables instrumentales 00:08:59.775 --> 00:09:03.328 en el que hay que condicionar las covariables.