Been Kim está construyendo un traductor para la inteligencia artificial Quanta Magazine nanoxia silencio profundo 6 rev b revisión

Si un médico le dijera a una convulsión anóxica que necesitaba una cirugía, querría saber por qué, y esperaría que la explicación tuviera sentido para usted, incluso si nunca hubiera asistido a la escuela de medicina. Been Kim, un científico investigador de Google Brain, cree que no deberíamos esperar nada menos de la inteligencia artificial. Como especialista en aprendizaje automático “interpretable”, ella quiere construir un software de inteligencia artificial que pueda explicarse a cualquiera.

Desde su ascenso hace aproximadamente una década, la tecnología de redes neuronales detrás de la inteligencia artificial ha transformado todo, desde el correo electrónico hasta el descubrimiento de medicamentos, con su capacidad cada vez más poderosa para aprender e identificar patrones en los datos. Pero ese poder ha venido con una extraña advertencia: la misma complejidad que permite a las redes modernas de aprendizaje profundo enseñarse con éxito cómo conducir automóviles y detectar el fraude de seguros también hace que su trabajo interno sea casi imposible de entender, incluso para los expertos en inteligencia artificial.


Si una red neuronal está capacitada para identificar pacientes con riesgo de padecer enfermedades como el cáncer de hígado y la esquizofrenia, como lo fue un sistema llamado “paciente profundo” en 2015, en el hospital Mount Sinai en Nueva York, no hay manera de discernir exactamente qué características están en los datos. La red está prestando atención a Ese “conocimiento” se difunde a través de muchas capas de neuronas artificiales, cada una con cientos de condiciones anóxicas de aguas residuales o miles de conexiones.

Como cada vez más industrias intentan automatizar o mejorar su toma de decisiones con AI, este llamado problema de caja negra parece menos una peculiaridad tecnológica que un defecto fundamental. El proyecto “XAI” de DARPA (para “AI explicable”) está investigando activamente el problema, y ​​la capacidad de interpretación se ha trasladado desde los márgenes de la investigación del aprendizaje automático hasta su centro. “La inteligencia artificial está en este momento crítico en el que la humanidad está tratando de decidir si esta tecnología es buena para nosotros o no”, dice kim. “Si no resolvemos este problema de interpretabilidad, no creo que vayamos a seguir adelante con esta tecnología. Podríamos simplemente dejarlo caer.

Kim y sus colegas de google brain desarrollaron recientemente un sistema llamado “pruebas con vectores de activación de concepto” (TCAV), que describe como una “traductora para humanos” que permite a un usuario preguntar a una caja negra AI cuánto daño anóxico en el cerebro es una fisiopatología. El concepto específico de alto nivel ha jugado en su razonamiento. Por ejemplo, si un sistema de aprendizaje automático ha sido entrenado para identificar cebras en imágenes, una persona podría usar TCAV para determinar cuánto peso le da al sistema el concepto de “franjas” al tomar una decisión.

La segunda rama de la interpretabilidad, en la que me he centrado principalmente, es la interpretabilidad de la inteligencia artificial responsable. No tienes que entender todo sobre el modelo. Pero mientras pueda entender lo suficiente para usar la herramienta de manera segura, ese es nuestro objetivo. Pero, ¿cómo puede tener confianza en un sistema del cual no entiende completamente el funcionamiento?

Te daré una analogía. Digamos que tengo un árbol en mi patio trasero que quiero cortar. Podría tener una motosierra para hacer el trabajo. Ahora, no entiendo completamente cómo funciona la motosierra. Pero el manual dice: “estas son cosas de las que debe tener cuidado, para no cortarse el dedo”. Por lo tanto, dado este manual, prefiero usar la motosierra negra para proyectar nanoxia en lugar de una sierra de mano, que es Más fácil de entender, pero me haría pasar cinco horas cortando el árbol. Entiendes lo que es “cortar”, incluso si no sabes exactamente todo acerca de cómo el mecanismo logra eso.

Aquí hay otro ejemplo. Si un médico está utilizando un modelo de aprendizaje automático para hacer un diagnóstico de cáncer, el médico querrá saber que el modelo no está detectando alguna correlación aleatoria en los datos que no queremos recoger. Una forma de asegurarse de ello es confirmar que los signos y síntomas de una lesión cerebral anóxica en el modelo de aprendizaje automático están haciendo algo que el médico habría hecho. En otras palabras, para mostrar que el propio conocimiento diagnóstico del médico se refleja en el modelo.

Por lo tanto, si los médicos estaban buscando una muestra de células para diagnosticar el cáncer, podrían buscar algo llamado “glándulas fusionadas” en la muestra. También podrían considerar la edad del paciente, así como si el paciente ha recibido quimioterapia en el pasado. Estos son factores o conceptos que los médicos que tratan de diagnosticar el cáncer se preocuparían. Si podemos demostrar que el modelo de aprendizaje automático también está prestando atención a estos factores, el modelo es más comprensible porque refleja el conocimiento humano de los médicos.

Sí. Antes de esto, los métodos de interpretabilidad solo explicaban lo que las redes neuronales estaban haciendo en términos de “características de entrada”. ¿Qué quiero decir con eso? Si tiene una imagen, cada píxel es una función de entrada. De hecho, yann lecun [uno de los primeros pioneros en el aprendizaje profundo y actualmente el director de investigación de inteligencia artificial en Facebook] ha dicho que cree que estos modelos ya son superinterpretables porque puede mirar cada nodo en la red neuronal y ver valores numéricos para cada uno. de estas características de entrada. Eso está bien para las computadoras, pero los humanos no piensan de esa manera. No te digo, “oh, mira los píxeles nanoxia silencio profundo 2 vs 3 100 a 200, los valores RGB son 0.2 y 0.3”. Digo, “hay una imagen de un perro con el pelo muy hinchado”. Así es como Los humanos se comunican – con conceptos. ¿Cómo realiza TCAV esta traducción entre características y conceptos de entrada?

Volvamos al ejemplo de un médico que utiliza un modelo de aprendizaje automático que ya ha sido entrenado para clasificar imágenes de muestras de células como potencialmente cancerosas. Usted, como médico, puede querer saber en qué medida el concepto de “glándulas fusionadas” fue importante para el modelo al hacer predicciones positivas de cáncer. Primero, recopila algunas imágenes, por ejemplo, 20, que tienen ejemplos de glándulas fusionadas. Ahora conecta esos ejemplos etiquetados en el modelo.

Entonces, lo que el TCAV hace internamente se denomina “prueba de sensibilidad”. Cuando agregamos estas imágenes etiquetadas de encefalopatía isquémica anóxica de glándulas fusionadas, ¿cuánto aumenta la probabilidad de una predicción positiva para el cáncer? Puede darlo como un número entre cero y uno. Y eso es. Ese es tu puntaje TCAV. Si la probabilidad aumentaba, era un concepto importante para el modelo. Si no lo hizo, no es un concepto importante. “Concepto” es un término difuso. ¿Hay alguna que no funcione con TCAV?

Sabemos por estudios repetidos en ciencia cognitiva y psicología que los humanos son muy crédulos. Lo que eso significa es que en realidad es bastante fácil engañar a una persona para que confíe en algo. El objetivo de la interpretabilidad para el aprendizaje automático es el opuesto a esto. Es para decirle si un sistema no es seguro de usar. Se trata de encéphalopathie post anoxique définition que revela la verdad. Así que “confianza” no es la palabra correcta. Entonces, ¿el punto de interpretación es revelar fallas potenciales en el razonamiento de una IA?

Puede utilizar TCAV para preguntar a un modelo capacitado sobre conceptos irrelevantes. Para volver al ejemplo de los médicos que utilizan la IA para hacer predicciones de cáncer, los médicos podrían pensar repentinamente: “parece que la máquina está dando predicciones positivas de cáncer para muchas imágenes que tienen un tipo de artefacto de color azul. No creemos que ese factor deba tenerse en cuenta “. Por lo tanto, si obtienen una puntuación TCAV alta para” azul “, acaban de identificar un problema en su modelo de aprendizaje automático. TCAV está diseñado para conectarse a los sistemas de AI existentes que no son interpretables. ¿Por qué no hacer que los sistemas sean interpretables desde el principio, en lugar de cajas negras?

Hay una rama de la investigación de interpretabilidad que se centra en la construcción de modelos intrínsecamente interpretables que reflejen cómo los humanos razonan. Pero mi opinión es la siguiente: en este momento usted tiene modelos de AI en todas partes que ya están construidos, y ya están siendo utilizados para propósitos importantes, sin tener en cuenta la interpretabilidad desde el principio. Es solo el ataque de ansiedad náusea vómitos verdad. Tenemos muchos de ellos en google! Podría decir: “la interpretabilidad es muy útil, permítame construirle otro modelo para reemplazar el que ya tiene”. Bueno, buena suerte con eso.

Entonces, ¿qué haces? Todavía tenemos que superar este momento crítico para decidir si esta tecnología es buena para nosotros o no. Es por eso que trabajo métodos de interpretabilidad “post-entrenamiento”. Si tiene un modelo que alguien le dio y que no puede cambiar, ¿cómo genera explicaciones sobre su comportamiento para poder usarlo de manera segura? De eso se trata el trabajo de TCAV.