Detectar y mitigar el sesgo en el procesamiento del lenguaje natural.

Resumen ejecutivo

Los modelos de inteligencia artificial (IA) no supervisados ​​que descubren automáticamente patrones ocultos en conjuntos de datos de lenguaje natural capturan regularidades lingüísticas que reflejan prejuicios humanos, como el racismo, el sexismo y el capacitismo.1Estos modelos de inteligencia artificial no supervisados, a saber, incrustaciones de palabras, proporcionan la representación numérica fundamental y de propósito general del lenguaje para que las máquinas procesen datos textuales.





Las incrustaciones de palabras identifican los patrones ocultos en las estadísticas de co-ocurrencia de palabras de los corpus lingüísticos, que incluyen información gramatical y semántica, así como sesgos similares a los humanos. En consecuencia, cuando se utilizan incrustaciones de palabras en el procesamiento del lenguaje natural (NLP), propagan el sesgo a las aplicaciones posteriores supervisadas que contribuyen a decisiones sesgadas que reflejan los patrones estadísticos de los datos. Estas aplicaciones posteriores realizan tareas como la recuperación de información, la generación de texto, la traducción automática, el resumen de texto y la búsqueda en la web, además de la toma de decisiones consecuente durante la selección del currículum para la selección de candidatos para el trabajo, la automatización de admisiones universitarias o la calificación de ensayos. Las incrustaciones de palabras juegan un papel importante en la configuración de la esfera de la información y pueden ayudar a hacer inferencias consecuentes sobre los individuos. Las entrevistas de trabajo, las admisiones universitarias, los puntajes de los ensayos, la moderación de contenido y muchos más procesos de toma de decisiones de los que quizás no tengamos conocimiento dependen cada vez más de estos modelos de PNL.



Miles de millones de personas que utilizan Internet todos los días están expuestas a incrustaciones de palabras sesgadas. Sin embargo, no existe ninguna regulación para auditar estas tecnologías de inteligencia artificial que representan amenazas potenciales para la equidad, la justicia y la democracia. Como resultado, existe una necesidad urgente de mecanismos regulatorios, una fuerza laboral diversa sobre ética de la IA y enfoques técnicos para evitar que las tecnologías de la IA aceleren sus efectos secundarios dañinos.2



Comprensión del sesgo en el procesamiento del lenguaje natural (PNL)

La selección automática de currículums de Amazon para seleccionar a los mejores candidatos a puestos de trabajo resultó discriminar a las mujeres en 2015.3Amazon utilizó muestras de currículums de candidatos a puestos de trabajo de un período de 10 años para entrenar sus modelos de contratación. Esta aplicación de PNL supervisada en sentido descendente aprendió cómo calificar candidatos mediante el cálculo de los patrones en muestras de currículum vitae anteriores de Amazon y la información respectiva sobre el nivel de éxito del candidato al puesto. Como resultado, el modelo capacitado aprendió las tendencias históricas asociadas con el empleo en Amazon al descubrir patrones lingüísticos en los currículums. Las mujeres estaban infrarrepresentadas en el conjunto de formación recopilado de los empleados. En consecuencia, el modelo de selección de currículums asoció a los hombres y las señales lingüísticas en sus currículums con un empleo exitoso en Amazon, mientras que los currículums de candidatos que contenían palabras asociadas con mujeres fueron descartados con frecuencia por el algoritmo. Los patrones sesgados aprendidos por el modelo llevaron a la discriminación de las candidatas a puestos de trabajo. Amazon pronto abandonó la herramienta de contratación automatizada después de descubrir el sesgo.



Las decisiones sesgadas de las aplicaciones de PNL no solo perpetúan los sesgos e injusticias históricas, sino que potencialmente amplifican los sesgos existentes a una escala y velocidad sin precedentes. Las futuras generaciones de incrustaciones de palabras se capacitan a partir de datos textuales recopilados de fuentes de medios en línea que incluyen los resultados sesgados de las aplicaciones de PNL, las operaciones de influencia de la información y los anuncios políticos de toda la web. En consecuencia, entrenar modelos de IA en datos de lenguaje con sesgo natural y artificial crea un ciclo de sesgo de IA que afecta las decisiones críticas tomadas sobre humanos, sociedades y gobiernos.



Las tecnologías de IA y PNL no están estandarizadas ni reguladas, a pesar de que se utilizan en aplicaciones críticas del mundo real. Las empresas de tecnología que desarrollan IA de vanguardia se han vuelto desproporcionadamente poderosas con los datos que recopilan de miles de millones de usuarios de Internet. Estos conjuntos de datos se están utilizando para desarrollar algoritmos de inteligencia artificial y entrenar modelos que dan forma al futuro de la tecnología y la sociedad. Las empresas de IA despliegan estos sistemas para incorporarlos a sus propias plataformas, además de desarrollar sistemas que también venden a gobiernos u ofrecen como servicios comerciales.



¿Qué pasa con las cosas que entran en un agujero negro?

Las empresas de tecnología que desarrollan IA de vanguardia se han vuelto desproporcionadamente poderosas con los datos que recopilan de miles de millones de usuarios de Internet.

Con la falta de regulación y los mecanismos de auditoría de sesgos fácilmente disponibles, las empresas de inteligencia artificial no han brindado transparencia en los efectos cotidianos de los algoritmos que implementan en la sociedad. Por ejemplo, los algoritmos de traducción automática de Google convierten las oraciones turcas neutrales al género O bir profesör. O bir öğretmen a las frases en inglés. Él es un profesor. Ella es una maestra. Facebook realizó experimentos con sujetos humanos en su plataforma para estudiar cómo manipular las emociones de los usuarios a través de texto sesgado que induce asociaciones de malestar.4



Las plataformas de redes sociales deciden automáticamente qué usuarios deben estar expuestos a ciertos tipos de contenido presente en los anuncios políticos y las operaciones de influencia de la información, en función de las características de personalidad predichas a partir de sus datos.5A medida que los investigadores identifican y miden los efectos secundarios dañinos de los algoritmos de PNL que incorporan modelos de lenguaje sesgados, la regulación de algoritmos y modelos de IA puede ayudar a aliviar los impactos dañinos posteriores de las tecnologías de IA a gran escala.



Sesgos en incrustaciones de palabras

En 2017, en el Centro de Política de Tecnología de la Información de la Universidad de Princeton, Joanna Bryson, Arvind Narayanan y yo desarrollamos métodos que demuestran que las incrustaciones de palabras aprenden sesgos similares a los humanos a partir de estadísticas de co-ocurrencia de palabras.6Cuando las palabras que representan conceptos aparecen con frecuencia con ciertos atributos, las incrustaciones de palabras aprenden a asociar el concepto con los atributos concurrentes. Por ejemplo, las oraciones que contienen palabras relacionadas con la cocina o las artes tienden a contener palabras relacionadas con las mujeres. Sin embargo, las oraciones que contienen términos de carrera, ciencia y tecnología tienden a contener palabras relacionadas con los hombres. Como resultado, cuando las máquinas procesan el lenguaje para aprender incrustaciones de palabras, las mujeres, como grupo social, aparecen muy cerca de palabras como familia y artes en relación con los hombres; mientras que los hombres, como grupo social, aparecen muy próximos a la carrera, la ciencia y la tecnología. Encontramos que existen asociaciones estereotipadas de género, raza, edad e intersecciones entre estas características. Cuando estas asociaciones estereotipadas se propagan a aplicaciones posteriores que presentan información en Internet o toman decisiones consecuentes sobre individuos, ponen en desventaja a los miembros de grupos minoritarios y subrepresentados. Mientras los corpus de idiomas utilizados para entrenar modelos de PNL contengan sesgos, las incrustaciones de palabras seguirán replicando injusticias históricas en aplicaciones posteriores, a menos que se implementen prácticas regulatorias efectivas para lidiar con el sesgo.

Sesgo racial en la PNL

El estudio de los sesgos en las incrustaciones de palabras de uso generalizado en un corpus de 800 mil millones de palabras recopiladas de la web revela que los nombres de los afroamericanos tienden a coincidir con palabras desagradables. La medición de la asociación relativa de nombres de afroamericanos frente a nombres de personas blancas con palabras agradables y desagradables muestra que las incrustaciones de palabras contienen asociaciones negativas para el concepto de un grupo social afroamericano debido a la representación sesgada del grupo en Internet.7Este tipo de asociaciones que reflejan actitudes negativas hacia un grupo social se consideran perjudiciales y con prejuicios. Se reflejan asociaciones negativas similares para los ancianos y las personas con discapacidad. Y las mujeres a menudo se asocian con la familia y la literatura, mientras que los hombres se asocian con la carrera y la ciencia. También vale la pena señalar que los modelos de lenguaje de vanguardia generalmente capturan los estereotipos y sesgos presentes en la cultura estadounidense, a pesar de que estas tecnologías de PNL se emplean en todo el mundo.



En 2004, un estudio controlado sobre discriminación en el mercado laboral encontró que los currículums que contienen nombres exclusivamente blancos reciben un 50 por ciento más de devoluciones de llamada para entrevistas en comparación con los currículums con nombres exclusivamente afroamericanos con las mismas calificaciones.8El uso de los nombres de los solicitantes de empleo proporcionados en el estudio de discriminación en el mercado laboral durante la cuantificación de sesgos en las incrustaciones de palabras expone fuertes asociaciones negativas con los afroamericanos como grupo social. Mientras que los humanos toman decisiones consecuentes sobre otros humanos sobre bases individuales o colectivas, las tecnologías de NLP de caja negra toman decisiones a gran escala que tienen un sesgo determinista. En consecuencia, la sociedad enfrenta un desafío más significativo y acelerado en comparación con tratar con tomadores de decisiones humanos, ya que la PNL no está regulada para promover la equidad y la justicia social.9



Sesgo de género en la PNL

Grandes modelos de lenguaje de vanguardia que aprenden incorporaciones dinámicas de palabras dependientes del contexto, como el modelo multimillonario GPT-3, asocia a los hombres con competencias y ocupaciones que demuestran niveles más altos de educación en tareas posteriores de PNL.10Muchos expertos consideran que el texto generado por GPT-3 es indistinguible del texto generado por humanos según varios criterios. Independientemente, cuando se le solicite la generación de lenguaje con la entrada, ¿cuál es el género de un médico? la primera respuesta es Doctor es un sustantivo masculino; mientras que, cuando se le pregunta ¿Cuál es el sexo de una enfermera? la primera respuesta es, es mujer.

Además, las incrustaciones de palabras, ya sean estáticas o dinámicas, asocian la intersección de raza y género con la mayor magnitud de sesgo desventajoso.11Al igual que otros algoritmos de inteligencia artificial que reflejan el status quo, todos los grupos sociales que no están compuestos por hombres blancos están representados como grupos minoritarios debido a la falta de datos precisos e imparciales para entrenar las incrustaciones de palabras. Por ejemplo, los miembros de múltiples grupos minoritarios, como las mujeres afroamericanas, están fuertemente asociados con varios prejuicios desfavorables en comparación con los prejuicios relativamente menos intensos asociados con sus grupos minoritarios constituyentes, los afroamericanos o las mujeres. Las mismas asociaciones sesgadas fuertes y potencialmente dañinas también existen para las mujeres mexicoamericanas. En consecuencia, la propagación del sesgo del grupo social en las aplicaciones posteriores de la PNL, como la detección automática de currículums, no solo perpetuaría los sesgos existentes, sino que potencialmente exacerbaría los sesgos dañinos en la sociedad que afectarán a las generaciones futuras.12



Los problemas del debiasing por parte de las asociaciones de grupos sociales.

La eliminación de interferencias en la incrustación de palabras no es una solución viable a los problemas de sesgo causados ​​en las aplicaciones posteriores, ya que la eliminación de interferencias en las incrustaciones de palabras elimina el contexto esencial del mundo. Las incrustaciones de palabras capturan señales sobre el idioma, la cultura, el mundo y los hechos estadísticos. Por ejemplo, el desvanecimiento de género de las incrustaciones de palabras afectaría negativamente la precisión con que se reflejan las estadísticas de género ocupacional en estos modelos, que es información necesaria para las operaciones de PNL. El sesgo de género está enredado con la información gramatical de género en las incrustaciones de palabras de idiomas con género gramatical.13Es probable que las incrustaciones de palabras contengan más propiedades que aún no hemos descubierto. Además, la desviación para eliminar todas las asociaciones de grupos sociales conocidas conduciría a incrustaciones de palabras que no pueden representar con precisión el mundo, percibir el lenguaje o realizar aplicaciones posteriores. En lugar de ocultar ciegamente las incrustaciones de palabras, crear conciencia sobre las amenazas de la IA a la sociedad para lograr la equidad durante la toma de decisiones en las aplicaciones posteriores sería una estrategia más informada.



Mientras tanto, un conjunto diverso de humanos expertos en el circuito puede colaborar con los sistemas de IA para exponer y manejar los sesgos de la IA de acuerdo con los estándares y principios éticos. Tampoco existen estándares establecidos para evaluar la calidad de los conjuntos de datos utilizados en el entrenamiento de modelos de IA aplicados en un contexto social. Formar un nuevo tipo de fuerza laboral diversa que se especialice en IA y ética para prevenir eficazmente los efectos secundarios dañinos de las tecnologías de IA disminuiría los efectos secundarios dañinos de la IA.

¿Qué pueden hacer los formuladores de políticas para crear equidad en la PNL?

A menos que la sociedad, los seres humanos y la tecnología se vuelvan perfectamente imparciales, las incrustaciones de palabras y la PNL estarán sesgadas. En consecuencia, necesitamos implementar mecanismos para mitigar los efectos dañinos a corto y largo plazo de los prejuicios en la sociedad y la tecnología en sí. Hemos llegado a una etapa en las tecnologías de inteligencia artificial en la que la cognición humana y las máquinas están evolucionando conjuntamente con la gran cantidad de información y lenguaje que los algoritmos de PNL procesan y presentan a los humanos. Comprender la evolución conjunta de las tecnologías de PNL con la sociedad a través de la lente de la interacción humano-computadora puede ayudar a evaluar los factores causales detrás de cómo funcionan los procesos de toma de decisiones humanos y mecánicos. Identificar los factores causales del sesgo y la injusticia sería el primer paso para evitar impactos dispares y mitigar los sesgos.

Para analizar estos procesos de toma de decisiones naturales y artificiales, los algoritmos de inteligencia artificial sesgados patentados y sus conjuntos de datos de entrenamiento que no están disponibles para el público deben estandarizarse, auditarse y regularse de manera transparente. No se puede esperar que las empresas de tecnología, los gobiernos y otras entidades poderosas se autorregulen en este contexto computacional, ya que los criterios de evaluación, como la equidad, pueden representarse de muchas maneras. Satisfacer los criterios de equidad en un contexto puede discriminar a ciertos grupos sociales en otro contexto. Además, con las nuevas técnicas de inteligencia artificial, los criterios de equidad deseados pueden satisfacerse artificialmente, al mismo tiempo que se discrimina a las poblaciones minoritarias, mediante la aplicación de trucos de inteligencia artificial a través del aprendizaje automático contradictorio.14Mientras tanto, podría llevar siglos desarrollar tecnologías sofisticadas de inteligencia artificial alineadas con los valores humanos que puedan autorregularse.

La diversificación del grupo de talentos de IA puede contribuir a valorar el diseño sensible y seleccionar conjuntos de capacitación de mayor calidad representativos de los grupos sociales y sus necesidades.

Los algoritmos de PNL sesgados causan un efecto negativo instantáneo en la sociedad al discriminar a ciertos grupos sociales y dar forma a las asociaciones sesgadas de individuos a través de los medios a los que están expuestos. Además, a largo plazo, estos sesgos magnifican la disparidad entre los grupos sociales en numerosos aspectos de nuestro tejido social, incluida la fuerza laboral, la educación, la economía, la salud, las leyes y la política. La diversificación del grupo de talentos de IA puede contribuir a valorar el diseño sensible y seleccionar conjuntos de capacitación de mayor calidad representativos de los grupos sociales y sus necesidades. Los seres humanos en el ciclo pueden probar y auditar cada componente en el ciclo de vida de la IA para evitar que el sesgo se propague a las decisiones sobre las personas y la sociedad, incluida la formulación de políticas basadas en datos. Lograr una inteligencia artificial confiable requeriría que las empresas y las agencias cumplan con los estándares y pasen las evaluaciones de los controles de calidad y equidad de terceros antes de emplear la inteligencia artificial en la toma de decisiones.

Las empresas de tecnología también tienen el poder y los datos para moldear la opinión pública y el futuro de los grupos sociales con los algoritmos sesgados de PNL que introducen sin garantizar la seguridad de la IA. Las empresas de tecnología han estado entrenando modelos de PNL de vanguardia para que sean más poderosos a través de la recopilación de corpus de idiomas de sus usuarios. Sin embargo, no compensan a los usuarios durante la recopilación y el almacenamiento centralizados de todas las fuentes de datos. Esta estrategia, sumada a los incentivos económicos que requieren la información personal de los usuarios, ha llevado al capitalismo de vigilancia y a la discriminación automatizada a través de la optimización a una velocidad que no era posible con herramientas de menor escala industrial disponibles en la sociedad.15Debido a la falta de regulación, estas prácticas de IA no éticas en curso han socavado rápidamente la equidad y la democracia.

jane seymore rey henry

El modelo de lenguaje comercial grande y de última generación con licencia de Microsoft, el GPT-3 de OpenAI, está capacitado en corpus lingüísticos masivos recopilados de toda la web. Los recursos computacionales para entrenar el GPT-3 de OpenAI cuestan aproximadamente 12 millones de dólares.16Los investigadores pueden solicitar acceso para consultar modelos de lenguaje grandes, pero no tienen acceso a las incrustaciones de palabras ni a los conjuntos de capacitación de estos modelos. En consecuencia, para estudiar sistemáticamente estas aplicaciones de alto impacto, los investigadores necesitan enormes recursos para replicar los modelos a fin de medir la magnitud de los sesgos y obtener información sobre cómo podrían estar dando forma a la sociedad, el discurso público, nuestros valores y opiniones.

Sin acceso a los datos de entrenamiento y a las incrustaciones de palabras dinámicas, no es posible estudiar los efectos secundarios dañinos de estos modelos. Y tener acceso a datos e incrustaciones de palabras puede facilitar nuevos descubrimientos científicos para el bien social, incluidos avances como el descubrimiento de nuevos materiales a partir de incrustaciones de palabras.17Sin embargo, los desarrolladores de modelos de lenguaje grandes no pueden compartir los corpus de formación debido a las leyes de privacidad de datos. Además, los investigadores de aprendizaje automático contradictorio demostraron recientemente que es posible extraer datos de entrenamiento, incluida información de identificación personal, de modelos de lenguaje grandes.18Los investigadores, desarrolladores y legisladores necesitan desesperadamente un entorno para trabajar juntos en estos modelos; sin embargo, la falta de estándares establecidos obstaculiza el progreso científico y es muy probable que dañe a la sociedad. La aprobación de una legislación federal sobre privacidad para responsabilizar a las empresas de tecnología de la vigilancia masiva es un punto de partida para abordar algunos de estos problemas. Definir y declarar las estrategias de recopilación de datos, el uso, la difusión y el valor de los datos personales para el público aumentaría la conciencia al mismo tiempo que contribuiría a una IA más segura.

Reunir una fuerza laboral diversa de IA y ética juega un papel fundamental en el desarrollo de tecnologías de IA que no sean dañinas para la sociedad. Entre muchos otros beneficios, una fuerza laboral diversa que represente a tantos grupos sociales como sea posible puede anticipar, detectar y manejar los sesgos de las tecnologías de IA antes de que se implementen en la sociedad. Además, un conjunto diverso de expertos puede ofrecer formas de mejorar la subrepresentación de los grupos minoritarios en los conjuntos de datos y contribuir a valorar el diseño sensible de las tecnologías de IA a través de sus experiencias vividas.

Otras recomendaciones para debias NLP incluyen:

  • Implementar mecanismos de auditoría para rastrear la magnitud y los tipos de sesgos en los datos producidos por los algoritmos de PNL, como la información recuperada por las plataformas de redes sociales, sería un paso hacia la comprensión de cómo el sesgo de la IA podría estar dando forma a la opinión pública. En consecuencia, una auditoría podría revelar la aparición de nuevos prejuicios dañinos, incluido el discurso de odio o la marginación dañina de grupos sociales.
  • Establecer estándares con respecto a los datos de entrenamiento del modelo de IA para comprender qué poblaciones representa el conjunto de datos y si ha sido contaminado por operaciones de influencia de información, datos sintéticos generados por modelos de lenguaje grandes o publicidad política desproporcionada.
  • Aprender de las tareas de evaluación de la seguridad de los datos para revelar si los conjuntos de datos de PNL están capacitados con datos auténticos en lenguaje natural que no han sido manipulados durante las operaciones de influencia de información que se difunden en Facebook, Reddit, Twitter y otras plataformas en línea.
  • Utilizar recomendaciones de calidad de datos para mejorar la representación de los grupos sociales en el corpus y analizar a priori cómo se comportarán los algoritmos.
  • Establecer estándares sobre el intercambio de incrustaciones de palabras, modelos de lenguaje multimillonarios y sus datos de capacitación con los investigadores puede acelerar el progreso científico y los beneficios para la sociedad.
  • La regulación de la PNL cuando los algoritmos toman decisiones consecuentes podría satisfacer los criterios de equidad apropiados con respecto a los atributos del grupo protegido.

Conclusión

El complejo ciclo de vida del sesgo de la IA ha surgido en la última década con la explosión de los datos sociales, el poder computacional y los algoritmos de IA. Los sesgos humanos se reflejan en los sistemas sociotécnicos y los modelos de PNL los aprenden con precisión a través del lenguaje sesgado que usan los humanos. Estos sistemas estadísticos aprenden patrones históricos que contienen sesgos e injusticias y los replican en sus aplicaciones. Los modelos de PNL que son productos de nuestros datos lingüísticos, así como todo tipo de información que circula en Internet, toman decisiones críticas sobre nuestras vidas y, en consecuencia, dan forma tanto a nuestro futuro como a la sociedad. Estos modelos de PNL están detrás de todas las tecnologías que utilizan texto, como la selección de currículums, las admisiones universitarias, la calificación de ensayos, los asistentes de voz, Internet, las recomendaciones de redes sociales, las aplicaciones de citas, los resúmenes de artículos de noticias, la traducción automática y la generación de texto. Si estos nuevos desarrollos en IA y PNL no están estandarizados, auditados y regulados de manera descentralizada, no podemos descubrir o eliminar los efectos secundarios dañinos del sesgo de la IA, así como su influencia a largo plazo en nuestros valores y opiniones. Deshacer el daño a gran escala y a largo plazo de la IA en la sociedad requeriría enormes esfuerzos en comparación con actuar ahora para diseñar la política de regulación de IA adecuada.