¿Qué es el aprendizaje automático?

En el verano de 1955, mientras planeaba un taller ahora famoso en Dartmouth College, John McCarthy acuñó el término inteligencia artificial para describir un nuevo campo de la informática. En lugar de escribir programas que le digan a una computadora cómo llevar a cabo una tarea específica, McCarthy prometió que él y sus colegas buscarían algoritmos que pudieran enseñarse a sí mismos cómo hacerlo. El objetivo era crear computadoras que pudieran observar el mundo y luego tomar decisiones basadas en esas observaciones, para demostrar, es decir, una inteligencia innata.





La cuestión era cómo lograr ese objetivo. Los primeros esfuerzos se centraron principalmente en lo que se conoce como IA simbólica , que trató de enseñar a las computadoras a razonar de manera abstracta. Pero hoy el enfoque dominante es con mucho aprendizaje automático , que se basa en las estadísticas. Aunque el enfoque se remonta a la década de 1950, uno de los asistentes a Dartmouth, Arthur Samuels, fue el primero en describir su trabajo como aprendizaje automático —No fue hasta las últimas décadas que las computadoras tuvieron suficiente capacidad de almacenamiento y procesamiento para que el enfoque funcionara bien. El auge de la computación en la nube y los chips personalizados ha impulsado un avance tras otro, con centros de investigación como OpenAI o DeepMind que anuncian nuevos avances asombrosos aparentemente cada semana.



El aprendizaje automático es ahora tan popular que se ha convertido efectivamente en sinónimo de la propia inteligencia artificial. Como resultado, no es posible desentrañar las implicaciones de la IA sin comprender cómo funciona el aprendizaje automático.



El extraordinario éxito del aprendizaje automático lo ha convertido en el método preferido por los investigadores y expertos en IA. De hecho, el aprendizaje automático es ahora tan popular que se ha convertido efectivamente en sinónimo de la propia inteligencia artificial. Como resultado, no es posible desentrañar las implicaciones de la IA sin comprender cómo funciona el aprendizaje automático y cómo no.



¿Cómo funciona el aprendizaje automático?

La idea central del aprendizaje automático es que gran parte de lo que reconocemos como inteligencia depende de la probabilidad en lugar de la razón o la lógica. Si lo piensas lo suficiente, esto tiene sentido. Cuando miramos la foto de alguien, nuestro cerebro calcula inconscientemente la probabilidad de que hayamos visto su rostro antes. Cuando conducimos hasta la tienda, estimamos qué ruta es más probable que nos lleve más rápido. Cuando jugamos un juego de mesa, estimamos qué movimiento tiene más probabilidades de conducir a la victoria. Reconocer a alguien, planificar un viaje, trazar una estrategia: cada una de estas tareas demuestra inteligencia. Pero en lugar de depender principalmente de nuestra capacidad para razonar de manera abstracta o pensar en grandes pensamientos, dependen principalmente de nuestra capacidad para evaluar con precisión qué tan probable es algo. Simplemente no siempre nos damos cuenta de que eso es lo que estamos haciendo.



Sin embargo, en la década de 1950, McCarthy y sus colegas se dieron cuenta. Y también entendieron algo más: las computadoras deberían ser muy buenas para calcular probabilidades. Los transistores se acababan de inventar y aún no habían reemplazado por completo la tecnología de los tubos de vacío. Pero incluso entonces estaba claro que con suficientes datos, las computadoras digitales serían ideales para estimar una probabilidad determinada. Desafortunadamente para los primeros investigadores de inteligencia artificial, su sincronización fue un poco desacertada. Pero su intuición fue acertada, y gran parte de lo que ahora conocemos como IA se lo debemos. Cuándo Facebook reconoce tu rostro en una foto, o Amazon Echo entiende tu pregunta , se basan en una información que tiene más de sesenta años.



La idea central del aprendizaje automático es que gran parte de lo que reconocemos como inteligencia depende de la probabilidad en lugar de la razón o la lógica.

El algoritmo de aprendizaje automático que utilizan Facebook, Google y otros es algo llamado red neuronal profunda. Sobre la base de el trabajo anterior de Warren McCullough y Walter Pitts, Frank Rosenblatt codificó uno de los primeros Redes neuronales a finales de la década de 1950. Aunque las redes neuronales de hoy son un poco más complejas, la idea principal sigue siendo la misma: la mejor manera de estimar una probabilidad dada es dividir el problema en fragmentos de información discretos, del tamaño de un bocado, o lo que McCullough y Pitts llamaron una neurona. . Su corazonada era que si unías un montón de neuronas de la manera correcta, de manera similar a cómo están vinculadas las neuronas en el cerebro, entonces deberías poder construir modelos que puedan aprender una variedad de tareas.

Para tener una idea de cómo funcionan las redes neuronales, imagine que desea crear un algoritmo para detectar si una imagen contiene un rostro humano. Una red neuronal profunda básica tendría varias capas de miles de neuronas cada una. En la primera capa, cada neurona puede aprender a buscar una forma básica, como una curva o una línea. En la segunda capa, cada neurona miraría la primera capa y aprendería a ver si las líneas y curvas que detecta alguna vez forman formas más avanzadas, como una esquina o un círculo. En la tercera capa, las neuronas buscarían patrones aún más avanzados, como un círculo oscuro dentro de un círculo blanco, como sucede en el ojo humano. En la capa final, cada neurona aprendería a buscar formas aún más avanzadas, como dos ojos y una nariz. Según lo que digan las neuronas de la capa final, el algoritmo estimará la probabilidad de que una imagen contenga una cara. (Para obtener una ilustración de cómo las redes neuronales profundas aprenden las representaciones de características jerárquicas, mira aquí .)

qué planeta tiene el día más corto

La magia del aprendizaje profundo es que el algoritmo aprende a hacer todo esto por sí solo. Lo único que hace un investigador es alimentar el algoritmo con un montón de imágenes y especificar algunos parámetros clave, como cuántas capas usar y cuántas neuronas deberían haber en cada capa, y el algoritmo hace el resto. En cada paso a través de los datos, el algoritmo hace una conjetura sobre qué tipo de información debe buscar cada neurona y luego actualiza cada conjetura en función de qué tan bien funciona. A medida que el algoritmo hace esto una y otra vez, eventualmente aprende qué información buscar y en qué orden, para estimar mejor, digamos, la probabilidad de que una imagen contenga una cara.

Lo notable del aprendizaje profundo es lo flexible que es. Aunque también existen otros algoritmos de aprendizaje automático destacados, aunque con nombres más torpes, como máquinas de aumento de gradiente —Ninguno es tan eficaz en casi tantos dominios. Con suficientes datos, las redes neuronales profundas casi siempre harán el mejor trabajo para estimar qué tan probable es algo. Como resultado, también suelen ser los mejores imitando la inteligencia.

Sin embargo, al igual que ocurre con el aprendizaje automático en general, las redes neuronales profundas no están exentas de limitaciones. Para construir sus modelos, los algoritmos de aprendizaje automático se basan completamente en datos de entrenamiento, lo que significa que reproducir los sesgos en esos datos , y que lucharán con casos que no se encuentran en esos datos. Además, los algoritmos de aprendizaje automático también pueden jugó . Si un algoritmo tiene ingeniería inversa, se puede engañar deliberadamente para que piense que, digamos, una señal de alto es en realidad una persona . Algunas de estas limitaciones pueden resolverse con mejores datos y algoritmos, pero otras pueden ser endémicas del modelado estadístico.

Aplicaciones de aprendizaje automático

Para vislumbrar cómo se desarrollarán las fortalezas y debilidades de la IA en el mundo real, es necesario describir el estado actual de la técnica en una variedad de tareas inteligentes. A continuación, miro la situación con respecto al reconocimiento de voz, el reconocimiento de imágenes, la robótica y el razonamiento en general.

Reconocimiento de voz

Desde que se inventaron las computadoras digitales, lingüistas e informáticos han intentado utilizarlas para reconocer el habla y el texto. Conocido como procesamiento del lenguaje natural, o NLP, el campo una vez se centró en la sintaxis y la gramática cableadas en el código. Sin embargo, durante las últimas décadas, el aprendizaje automático ha superado en gran medida a los sistemas basados ​​en reglas, gracias a todo, desde máquinas de vectores de apoyo a modelos ocultos de markov a, más recientemente, aprendizaje profundo . De Apple Siria , De Amazon Alexa y de Google Duplex todos dependen en gran medida del aprendizaje profundo para reconocer el habla o el texto, y representan la vanguardia del campo.

Cuando varios investigadores líderes establecieron recientemente un algoritmo de aprendizaje profundo en las revisiones de Amazon, se sorprendieron al saber que el algoritmo no solo se había enseñado a sí mismo gramática y sintaxis, sino también un clasificador de sentimientos.

Los algoritmos específicos de aprendizaje profundo en juego han variado algo. Redes neuronales recurrentes impulsó muchos de los avances iniciales del aprendizaje profundo, mientras redes jerárquicas de atención son responsables de los más recientes. Sin embargo, lo que todos tienen en común es que los niveles más altos de una red de aprendizaje profundo aprenden gramática y sintaxis por sí mismos. De hecho, cuando varios investigadores líderes establecieron recientemente un algoritmo de aprendizaje profundo en las revisiones de Amazon, se sorprendieron al saber que el algoritmo no solo se había enseñado a sí mismo gramática y sintaxis, sino que un clasificador de sentimientos también .

Sin embargo, a pesar de todo el éxito del aprendizaje profundo en el reconocimiento de voz, siguen existiendo limitaciones clave. Lo más importante es que debido a que las redes neuronales profundas solo construyen modelos probabilísticos, no entienden el lenguaje de la forma en que lo hacen los humanos; pueden reconocer que la secuencia de letras Rey y reina están relacionados estadísticamente, pero no tienen una comprensión innata de lo que significa cada palabra, mucho menos los conceptos más amplios de realeza y género. Como resultado, es probable que haya un techo hasta qué punto pueden llegar a ser los sistemas inteligentes de reconocimiento de voz basados ​​en el aprendizaje profundo y otros modelos probabilísticos. Si alguna vez construimos una IA como la de la película Her, que fue capaz de establecer relaciones humanas genuinas, es casi seguro que se produzca un gran avance mucho más allá de lo que puede ofrecer una red neuronal profunda.

Reconocimiento de imagen

Cuando Rosenblatt implementó por primera vez su red neuronal en 1958, inicialmente la soltó en imagenes de perros y gatos . Los investigadores de IA se han centrado en abordar el reconocimiento de imágenes desde entonces. Por necesidad, gran parte de ese tiempo se dedicó a idear algoritmos que pudieran detectar formas preespecificadas en una imagen, como bordes y poliedros , utilizando el poder de procesamiento limitado de las primeras computadoras. Sin embargo, gracias al hardware moderno, el campo de la visión por computadora ahora está dominado por el aprendizaje profundo. Cuando un Tesla conduce con seguridad modo de piloto automático o cuando el nuevo microscopio de realidad aumentada de Google detecta el cáncer en tiempo real , se debe a un algoritmo de aprendizaje profundo.

Unas pocas pegatinas en una señal de alto pueden ser suficientes para evitar que un modelo de aprendizaje profundo la reconozca como tal. Para que los algoritmos de reconocimiento de imágenes alcancen su máximo potencial, deberán volverse mucho más sólidos.

Las redes neuronales convolucionales, o CNN, son la variante del aprendizaje profundo más responsable de los avances recientes en la visión por computadora. Desarrollado por Yann LeCun y otros , Las CNN no intentan comprender una imagen completa de una sola vez, sino que la escanean en regiones localizadas, de manera muy similar a como lo hace una corteza visual. Las primeras CNN de LeCun se utilizaron para reconocer números escritos a mano, pero hoy en día las CNN más avanzadas, como redes de cápsulas , puede reconocer objetos tridimensionales complejos desde múltiples ángulos, incluso aquellos que no están representados en los datos de entrenamiento. Mientras tanto, redes generativas de adversario , el algoritmo detrás falso profundo vídeos, normalmente utilizan CNN no para reconocer objetos específicos en una imagen, sino para generarlos.

Al igual que con el reconocimiento de voz, los algoritmos de reconocimiento de imágenes de vanguardia no están exentos de inconvenientes. Más importante aún, así como todo lo que aprenden los algoritmos de PNL son relaciones estadísticas entre palabras, todo lo que aprenden los algoritmos de visión artificial son relaciones estadísticas entre píxeles. Como resultado, pueden ser relativamente frágiles. Algunas pegatinas en una señal de pare. puede ser suficiente para evitar que un modelo de aprendizaje profundo lo reconozca como tal. Para que los algoritmos de reconocimiento de imágenes alcancen su máximo potencial, deberán convertirse mucho mas robusto .

Robótica

Lo que hace que nuestra inteligencia sea tan poderosa no es solo que podemos comprender el mundo, sino que podemos interactuar con él. Lo mismo ocurrirá con las máquinas. Las computadoras que pueden aprender a reconocer imágenes y sonidos son una cosa; aquellos que pueden aprender a identificar un objeto así como a manipularlo son otra cosa completamente distinta. Sin embargo, si el reconocimiento de imágenes y voz son desafíos difíciles, el control táctil y motor lo son mucho más. A pesar de todo su poder de procesamiento, las computadoras siguen siendo notablemente pobres en algo tan simple como coger una camisa.

La razón: levantar un objeto como una camisa no es solo una tarea, sino varias. Primero necesitas reconocer una camisa como una camisa. Luego, debe estimar qué tan pesado es, cómo se distribuye su masa y cuánta fricción tiene su superficie. Con base en esas suposiciones, debe estimar dónde agarrar la camisa y cuánta fuerza aplicar en cada punto de su agarre, una tarea que se vuelve aún más desafiante porque la forma de la camisa y la distribución de la masa cambiarán a medida que la levante. . Un humano hace esto de manera trivial y sencilla. Pero para una computadora, la incertidumbre en cualquiera de esos cálculos se agrava en todos ellos, lo que la convierte en una tarea extremadamente difícil.

Inicialmente, los programadores intentaron resolver el problema escribiendo programas que instruyeran a los brazos robóticos sobre cómo llevar a cabo cada tarea paso a paso. Sin embargo, así como la PNL basada en reglas no puede dar cuenta de todas las posibles permutaciones del lenguaje, tampoco hay forma de que la robótica basada en reglas ejecute todas las posibles permutaciones de cómo se puede agarrar un objeto. En la década de 1980, se hizo cada vez más claro que los robots tendrían que aprender sobre el mundo por su cuenta y desarrollar sus propias intuiciones sobre cómo interactuar con él. De lo contrario, no habría forma de que pudieran completar de manera confiable maniobras básicas como identificar un objeto, moverse hacia él y levantarlo.

¿Cuántos años tenía la reina Isabel cuando fue coronada?

El estado actual de la técnica es algo llamado aprendizaje por refuerzo profundo . Como una taquigrafía burda, puede pensar en el aprendizaje por refuerzo como prueba y error. Si un brazo robótico intenta una nueva forma de levantar un objeto y tiene éxito, se recompensa a sí mismo; si deja caer el objeto, se castiga a sí mismo. Cuanto más intenta el brazo su tarea, mejor aprende buenas reglas generales sobre cómo completarla. Junto con la informática moderna, el aprendizaje por refuerzo profundo se ha mostrado enormemente prometedor. Por ejemplo, al simular una variedad de manos robóticas en miles de servidores, OpenAI recientemente enseñó una mano robótica real cómo manipular un cubo marcado con letras.

A pesar de todo su poder de procesamiento, las computadoras siguen siendo notablemente pobres en algo tan simple como coger una camisa.

En comparación con investigaciones anteriores, el avance de OpenAI es tremendamente impresionante. Sin embargo, también muestra las limitaciones del campo. La mano que construyó OpenAI en realidad no sintió el cubo en absoluto, sino que se basó en una cámara. Para un objeto como un cubo, que no cambia de forma y se puede simular fácilmente en entornos virtuales, este enfoque puede funcionar bien. Pero, en última instancia, los robots necesitarán depender de algo más que ojos. Las máquinas con la destreza y la motricidad fina de un ser humano todavía están muy lejos.

Razonamiento

Cuando Arthur Samuels acuñó el término aprendizaje automático, no estaba investigando el reconocimiento de imágenes o de voz, ni trabajaba en robots. En cambio, Samuels estaba abordando uno de sus pasatiempos favoritos: las damas. Dado que el juego tenía demasiados movimientos de tablero potenciales para que un algoritmo basado en reglas los codificara todos, Samuels ideó un algoritmo que podría enseñarse a sí mismo a mirar de manera eficiente varios movimientos hacia adelante. El algoritmo fue digno de mención por funcionar en absoluto, y mucho menos por ser competitivo con otros humanos. Pero también anticipó los asombrosos avances de algoritmos más recientes como AlphaGo y AlphaGo Zero , que ha superado a todos los jugadores humanos en Go, ampliamente considerado como el juego de mesa más exigente intelectualmente del mundo.

Al igual que con la robótica, la mejor IA estratégica se basa en el aprendizaje por refuerzo profundo. De hecho, el algoritmo que OpenAI usó para impulsar su mano robótica también formó el núcleo de su algoritmo para jugar Dota 2 , un videojuego multijugador. Aunque el control del motor y la jugabilidad pueden parecer muy diferentes, ambos involucran el mismo proceso: hacer una secuencia de movimientos a lo largo del tiempo y luego evaluar si condujeron al éxito o al fracaso. Resulta que el ensayo y error es tan útil para aprender a razonar sobre un juego como para manipular un cubo.

Dado que el algoritmo funciona solo aprendiendo de los datos de resultados, necesita un ser humano para definir cuál debería ser el resultado. Como resultado, el aprendizaje por refuerzo es de poca utilidad en los muchos contextos estratégicos en los que el resultado no siempre es claro.

A partir de Samuels, el éxito de las computadoras en los juegos de mesa ha planteado un rompecabezas tanto para los optimistas como para los pesimistas de la IA. Si una computadora puede vencer a un humano en un juego estratégico como el ajedrez, ¿cuánto podemos inferir sobre su capacidad para razonar estratégicamente en otros entornos? Durante mucho tiempo, la respuesta fue muy poca. Después de todo, la mayoría de los juegos de mesa involucran a un solo jugador en cada lado, cada uno con información completa sobre el juego y un resultado claramente preferido. Sin embargo, la mayor parte del pensamiento estratégico involucra casos en los que hay varios jugadores en cada bando, la mayoría o todos los jugadores solo tienen información limitada sobre lo que está sucediendo y el resultado preferido no está claro. A pesar de la brillantez de AlphaGo, observará que Google no lo ascendió luego a CEO, una función que es inherentemente colaborativa y requiere una habilidad especial para tomar decisiones con información incompleta.

Afortunadamente, los investigadores del aprendizaje por refuerzo han avanzado recientemente en ambos frentes. Un equipo superó a los jugadores humanos en Texas Hold ‘Em , un juego de póquer donde aprovechar al máximo la información limitada es clave. Mientras tanto, el reproductor Dota 2 de OpenAI, que combinó el aprendizaje por refuerzo con lo que se llama un algoritmo de memoria a corto y largo plazo (LSTM), ha aparecido en los titulares por aprender a coordinar el comportamiento de cinco bots separados tan bien que pudieron vencer a un equipo de jugadores profesionales de Dota 2 . A medida que mejoren los algoritmos, es probable que los humanos tengan mucho que aprender sobre estrategias óptimas de cooperación, especialmente en entornos con escasez de información. Este tipo de información sería especialmente valiosa para los comandantes en entornos militares, que a veces tienen que tomar decisiones sin tener información completa.

Sin embargo, todavía hay un desafío que ningún algoritmo de aprendizaje por refuerzo puede resolver. Dado que el algoritmo funciona solo aprendiendo de los datos de resultados, necesita un ser humano para definir cuál debería ser el resultado. Como resultado, el aprendizaje por refuerzo es de poca utilidad en los muchos contextos estratégicos en los que el resultado no siempre es claro. ¿Debería la estrategia corporativa priorizar el crecimiento o la sostenibilidad? ¿Debería la política exterior de Estados Unidos priorizar la seguridad o el desarrollo económico? Ninguna IA podrá responder jamás a un razonamiento estratégico de orden superior porque, en última instancia, se trata de cuestiones morales o políticas más que empíricas. El Pentágono puede apoyarse más en la IA en los próximos años, pero no se hará cargo de la sala de situaciones ni automatizará complejas compensaciones en el corto plazo.

¿Qué sigue para el aprendizaje automático?

Desde automóviles autónomos hasta juegos multijugador, los algoritmos de aprendizaje automático ahora pueden acercarse o superar la inteligencia humana en una cantidad notable de tareas. El gran éxito del aprendizaje profundo en particular ha llevado a especulaciones sin aliento sobre tanto inminente perdición de la humanidad y es inminente tecno-liberación . No es sorprendente que todo el bombo publicitario haya llevado a varias luminarias en el campo, como Gary Marcus o Judea Pearl, a advertir que el aprendizaje automático es ni cerca de tan inteligente como se presenta , o que quizás deberíamos posponer nuestras esperanzas y temores más profundos sobre la IA hasta que se base en más que meras correlaciones estadísticas . Incluso Geoffrey Hinton, investigador de Google y uno de los padrinos de las redes neuronales modernas, ha sugerido que el aprendizaje profundo por sí solo es poco probable que entregue el nivel de competencia que muchos evangelistas de la IA prevén.

En lo que respecta a las implicaciones a largo plazo de la IA, la pregunta clave sobre el aprendizaje automático es la siguiente: ¿cuánta inteligencia humana se puede aproximar con estadísticas? Si todo puede ser, entonces el aprendizaje automático puede ser todo lo que necesitemos para llegar a una verdadera inteligencia artificial general. Pero no está muy claro si ese es el caso. Ya en 1969, cuando Marvin Minsky y Seymour Papert argumentaron que las redes neuronales tenían limitaciones fundamentales , incluso los principales expertos en IA han expresado su escepticismo de que el aprendizaje automático sea suficiente. Los escépticos modernos como Marcus y Pearl solo están escribiendo el último capítulo de un libro mucho más antiguo. Y es difícil no encontrar sus dudas al menos algo convincentes. El camino a seguir desde el aprendizaje profundo de hoy, que puede confundir un rifle para un helicóptero , no es de ninguna manera obvio.

En lo que respecta a las implicaciones a largo plazo de la IA, la pregunta clave sobre el aprendizaje automático es la siguiente: ¿cuánta inteligencia humana se puede aproximar con estadísticas?

Sin embargo, el debate sobre el límite máximo a largo plazo del aprendizaje automático no viene al caso. Incluso si todas las investigaciones sobre el aprendizaje automático cesasen, los algoritmos de última generación de la actualidad seguirían teniendo un impacto sin precedentes. Los avances que ya se han realizado en visión por computadora, reconocimiento de voz, robótica y razonamiento serán suficientes para remodelar dramáticamente nuestro mundo. Al igual que sucedió en la llamada explosión cámbrica, cuando los animales desarrollaron simultáneamente la capacidad de ver, oír y moverse, la próxima década verá una explosión de aplicaciones que combinan la capacidad de reconocer lo que está sucediendo en el mundo con la capacidad de moverse e interactuar con él. Esas aplicaciones transformarán la economía y la política global de formas que apenas podemos imaginar hoy. Los formuladores de políticas no necesitan retorcerse las manos sobre lo inteligente que puede llegar a ser el aprendizaje automático algún día. Tendrán las manos ocupadas respondiendo a lo inteligente que ya es.