La contratación es costosa y requiere mucho tiempo, y tiene grandes consecuencias tanto para los empleadores como para los empleados. Para mejorar este proceso, los empleadores han comenzado a recurrir a técnicas algorítmicas, con la esperanza de contratar candidatos de calidad de manera más eficiente.
Los empleadores han estado particularmente ansiosos por encontrar una manera de automatizar la etapa de selección en el proceso de contratación. En términos generales, hay cuatro etapas en el proceso de contratación: contratación (atraer o seleccionar un grupo de candidatos), selección, entrevistas y selección.1La etapa de selección implica evaluar a los solicitantes, seleccionar algunos y destacar otros para una atención especial. Si bien han surgido proveedores que ofrecen herramientas algorítmicas para cada etapa del proceso de contratación, la selección algorítmica es el área de desarrollo más activa y, a menudo, la más importante, ya que representa el filtro principal por el que los solicitantes deben pasar cada vez más.
Este informe considera las cuestiones de política planteadas por el cribado algorítmico. Proporcionamos una descripción general de las técnicas utilizadas en la selección algorítmica, resumimos el panorama legal relevante y planteamos una serie de cuestiones políticas urgentes.
La contratación en los Estados Unidos tiene una larga y problemática historia de discriminación. Estudios recientes han demostrado que poco ha cambiado en las últimas décadas, a pesar de una mayor inversión en iniciativas de diversidad e inclusión.2La persistencia del sesgo en la toma de decisiones humanas y el aparente fracaso de estos enfoques establecidos para combatir la discriminación explican en gran parte el interés reciente en la contratación algorítmica. Los defensores de la detección algorítmica lo ven como un camino prometedor a seguir.
El ejemplo canónico de selección algorítmica es el análisis de currículum automatizado: un candidato envía un currículum y un algoritmo evalúa este currículum para producir una puntuación que indique la calidad del solicitante o su idoneidad para el trabajo. En tales casos, la decisión final de contratación generalmente recae en un ser humano, a pesar de que un proceso automatizado ha seleccionado y clasificado el grupo de candidatos. Para realizar esta evaluación, un algoritmo puede, por ejemplo, asignar al candidato una puntuación más alta en función de la presencia de palabras clave específicas (por ejemplo, gerente de producto o aumento de ingresos) en su currículum. Es importante destacar que las reglas que dictan qué palabras clave merecen qué puntaje no pueden ser escritas por un humano; en cambio, esas reglas se pueden desarrollar automáticamente a través de un proceso llamado aprendizaje automático. Para determinar qué palabras clave utilizan los empleados exitosos, el sistema de aprendizaje automático necesita datos anteriores de los que aprender. Por ejemplo, el sistema de aprendizaje automático podría recibir los currículums de los empleados actuales y datos sobre su desempeño en el trabajo (por ejemplo, sus cifras de ventas). En conjunto, la computadora puede identificar las palabras clave que los empleados exitosos han tendido a usar en sus currículums. En base a esto, el sistema de aprendizaje automático puede producir un conjunto de reglas (comúnmente conocidas como modelo o algoritmo; usaremos los dos indistintamente) para predecir, dado el currículum vitae de un futuro solicitante, qué tan bueno como empleado podría ser.
Si bien la evaluación de currículums ha logrado cierto grado de atención pública, los principales proveedores de herramientas de evaluación algorítmica ofrecen tipos de evaluaciones muy diferentes. Por ejemplo, la empresa Pymetrics 3vende evaluaciones basadas en juegos, en las que los solicitantes juegan juegos personalizados, y los algoritmos patentados analizan el juego para calificar a los candidatos en una serie de rasgos como la capacidad de aprendizaje y la decisión. En tales evaluaciones, las entradas al algoritmo pueden ser un poco menos claras que en la selección de currículums; por ejemplo, los algoritmos pueden usar los tiempos de reacción o la capacidad de memoria de los candidatos para hacer predicciones sobre otros rasgos.
En su superficie, las herramientas de detección algorítmica parecen estar completamente basadas en evidencia, lo que las convierte en una alternativa atractiva a las evaluaciones humanas sesgadas. Sin embargo, existe una creciente evidencia de que tales herramientas pueden reproducir e incluso exacerbar los prejuicios humanos manifestados en los conjuntos de datos sobre los que se construyen estas herramientas. Los datos codifican decisiones y juicios profundamente subjetivos; rara vez son registros neutrales. Por ejemplo, los empleadores eligen quién está incluido en el conjunto de datos, a menudo en virtud de a quién eligieron contratar en el pasado, y qué constituye un buen empleado. Si un empleador nunca ha contratado a un candidato de un colegio o universidad históricamente negros, por ejemplo, ¿un algoritmo sabría cómo evaluar a esos candidatos de manera eficaz? ¿Aprendería a preferir candidatos de otras escuelas? Los algoritmos, por su naturaleza, no cuestionan las decisiones humanas subyacentes a un conjunto de datos. En cambio, intentan reproducir fielmente decisiones pasadas, lo que puede llevarlos a reflejar los mismos tipos de prejuicios humanos que pretenden reemplazar.
En su superficie, las herramientas de detección algorítmica parecen estar completamente basadas en evidencia. … Sin embargo, existe una creciente evidencia de que tales herramientas pueden reproducir e incluso exacerbar los prejuicios humanos.
Los proveedores a menudo señalan la objetividad de los algoritmos como una ventaja sobre los procesos tradicionales de contratación de personas, y afirman con frecuencia que sus evaluaciones son imparciales o pueden usarse para mitigar los sesgos humanos. En la práctica, sin embargo, se sabe poco sobre la construcción, validación y uso de estas novedosas herramientas de detección algorítmica, en parte porque estos algoritmos (y los conjuntos de datos utilizados para construirlos) suelen ser propietarios y contienen datos privados y confidenciales de los empleados. En un estudio reciente, nosotros (junto con Jon Kleinberg y Karen Levy) completamos una encuesta de las declaraciones públicas hechas por los proveedores de herramientas de detección algorítmica,4constatar que la industria rara vez divulga detalles sobre sus métodos o los mecanismos mediante los cuales pretende lograr una evaluación imparcial. En nuestro estudio, tomamos muestras de 18 proveedores de evaluaciones algorítmicas, documentamos sus prácticas y las analizamos en el contexto de la ley de discriminación laboral de EE. UU.
El Título VII de la Ley de Derechos Civiles de 1964 prohíbe la discriminación por motivos de raza, color, religión, sexo u origen nacional. Se entiende que dicha prohibición se aplica tanto a la discriminación intencionada (el llamado trato desigual), como a la discriminación involuntaria pero injustificada o evitable (el llamado impacto dispar). Las Directrices uniformes sobre la selección de empleados de la Comisión para la igualdad de oportunidades en el empleo (en lo sucesivo, simplemente Directrices uniformes) estados que un procedimiento de selección exhibe un trato desigual si considera explícitamente cualquiera de los atributos protegidos antes mencionados al tomar una decisión. El impacto desigual, por otro lado, tiene más matices: si un procedimiento de selección acepta candidatos de un grupo protegido en una tasa significativamente menor (80%, como regla general) que la de otro, entonces el procedimiento de selección exhibe un impacto diferente . Un empleador podría defenderse de un reclamo de impacto desigual demostrando que el procedimiento de selección tiene un propósito comercial justificado o necesario, pero aún así sería considerado responsable si el demandante pudiera identificar un procedimiento de selección alternativo que podría haber servido para el mismo propósito y generar menos impacto dispar.
En nuestro estudio, encontramos que los proveedores de evaluaciones de contratación algorítmicas generalmente evitan un trato desigual simplemente asegurándose de que los atributos protegidos como la raza o el género no se utilicen como entradas para sus modelos. Sin embargo, con respecto al impacto dispar, los proveedores se dividen en dos campos. De acuerdo con las Pautas Uniformes, una forma de defenderse contra una afirmación de impacto dispar es demostrar que la evaluación en cuestión, el algoritmo de selección, tiene validez, lo que significa que predice con precisión una calidad relacionada con el trabajo. Por lo tanto, incluso si el algoritmo de cribado produce un impacto diferente, puede justificarse como un objetivo comercial legítimo si es lo suficientemente preciso.
[E] incluso si el algoritmo de selección produce un impacto dispar, se puede justificar que cumple un objetivo comercial legítimo si es lo suficientemente preciso.
Sin embargo, algunos proveedores dan el paso adicional de investigar si pueden desarrollar un algoritmo de detección diferente que funcione igualmente bien, al tiempo que reducen las disparidades en las tasas de selección entre grupos. En otras palabras, estos proveedores ayudan a los empleadores a descubrir la existencia de prácticas comerciales alternativas viables, prácticas que reducen significativamente los impactos dispares sin imponer un costo significativo a los empleadores. Los empleadores que no consideren y adopten tales herramientas de evaluación alternativas se expondrían a la responsabilidad, ya que los demandantes podrían argumentar que el proceso de evaluación original no es realmente una necesidad comercial ni está justificado por un objetivo comercial legítimo. En la práctica, observamos que muchos proveedores se aseguran de que las evaluaciones nunca produzcan un impacto desigual en primer lugar, evitando así cualquier cargo de discriminación sin tener que depender de la validez de una evaluación. Los proveedores se han movido en esta dirección a pesar de que, hasta donde sabemos, las evaluaciones algorítmicas en el empleo aún no se han enfrentado a ningún desafío legal.
Técnicamente, existen varios métodos de eliminación de sesgos que los proveedores pueden emplear como parte de esta segunda estrategia. Un enfoque común es construir un modelo, probarlo para detectar impactos dispares y, si se encuentran impactos dispares, eliminar las entradas que contribuyen a este impacto dispar y reconstruir el modelo. Considere, por ejemplo, un algoritmo de selección de currículum vitae que selecciona a los hombres en mayor proporción que a las mujeres. Supongamos que este algoritmo (como uno supuestamente construido, pero nunca utilizado, por Amazon ) otorga puntuaciones más altas a los solicitantes que jugaron lacrosse. Tenga en cuenta que el juego de lacrosse podría tener legítimamente alguna correlación con los resultados laborales deseables; los que tienen experiencia en deportes de equipo pueden, en promedio, desempeñarse mejor en entornos de equipo que los que no los tienen. Sin embargo, también puede darse el caso de que el lacrosse tiende a ser jugado por hombres blancos ricos y, por lo tanto, es más probable que el modelo seleccione de este grupo. Para combatir esto, un proveedor o empleador podría prohibir que el algoritmo considere la palabra lacrosse en un currículum, lo que obligará al modelo a encontrar términos alternativos que predigan el éxito y, por lo tanto, mitiguen potencialmente el impacto dispar original. La esperanza es que el modelo al que se le niega el acceso a la palabra lacrosse identificará otros predictores de éxito, tal vez el deporte o el equipo, que se apliquen igualmente bien a todos los posibles candidatos a puestos de trabajo.
La identificación y mitigación del sesgo en los algoritmos de detección plantea una serie de preocupaciones políticas urgentes. A continuación, identificamos un conjunto de cuestiones que necesitan una atención mayor y, a menudo, urgente.
Esto ha sido durante mucho tiempo un problema con casos que involucran impactos dispares; el caso de la demandante no se basa únicamente en su propia experiencia, sino en el impacto agregado de un proceso de selección en un grupo de personas. Por lo tanto, demostrar evidencia de impacto dispar requiere datos de un grupo suficientemente grande. En evaluaciones anteriores, puede haber sido posible inferir que una pregunta o requisito en particular imponía una carga indebida o innecesaria a un grupo en comparación con otro; sin embargo, con las modernas herramientas de detección algorítmica, es posible que no se pida a los candidatos que completen una evaluación tradicional y es posible que ni siquiera sepan exactamente cómo se les está evaluando. Como resultado, pueden carecer de cualquier indicación de que el mecanismo de evaluación sea potencialmente discriminatorio.
De acuerdo con las Pautas Uniformes, los empleadores pueden justificar un impacto dispar demostrando la validez predictiva de sus procedimientos de selección. Esto crea una tautología cercana en el contexto del aprendizaje automático: los modelos producidos por el aprendizaje automático están, por definición, construidos para garantizar la validez predictiva.5Si bien los demandantes pueden cuestionar si el proceso de validación incorporado es en sí mismo válido, no está claro cuándo las formas tradicionales de validación son insuficientes, incluso si se han ejecutado correctamente.
[V] alidación puede informar que un modelo funciona muy bien en general mientras oculta que funciona muy mal para una población minoritaria.
Hay varias razones para sospechar de los estudios de validación. Primero, la validación puede informar que un modelo se desempeña muy bien en general mientras oculta que se desempeña muy mal para una población minoritaria. Por ejemplo, un modelo que predice perfectamente ciertos resultados para un grupo mayoritario (por ejemplo, el 95% de la población), pero siempre comete errores en un grupo minoritario (por ejemplo, el 5% de la población), aún podría ser muy preciso en general (es decir, 95% de precisión). Las formas comunes de evaluar un modelo rara vez consideran las diferencias en la precisión o los errores entre los diferentes grupos. En segundo lugar, los empleadores, que trabajan con los proveedores, tienen una libertad considerable para elegir el resultado que los modelos están diseñados para predecir (por ejemplo, la calidad de los empleados potenciales). Rara vez existe una medida directa u objetiva para estos resultados; en su lugar, los profesionales deben elegir algún proxy (por ejemplo, puntajes de revisión de desempeño).6Dado que las evaluaciones de desempeño son evaluaciones subjetivas, corren el riesgo de ser inexactas y sesgadas. Y si bien es posible crear un modelo que prediga con precisión las evaluaciones de desempeño, hacerlo simplemente reproduciría las evaluaciones discriminatorias. En otras palabras, el modelo demostraría validez para predecir un resultado sesgado. Finalmente, las afirmaciones con respecto a la validez, la falta de sesgo y el impacto dispar son específicas del contexto y del conjunto de datos. Tales afirmaciones se basan en la creencia de que la población y las circunstancias capturadas en un conjunto de datos utilizado para evaluar un modelo serán las mismas que la población y las circunstancias a las que se aplicará el modelo. Pero esto rara vez es el caso en la práctica. Un modelo que es un predictor válido que no muestra un impacto dispar en un contexto urbano puede no serlo en un contexto rural. Por lo tanto, un procedimiento de selección no puede determinarse como universalmente válido o sin sesgos.
Si un empleador o proveedor debe abordar cada una de estas inquietudes, la pregunta aún podría permanecer: ¿Es la validez predictiva suficiente para defenderse de un reclamo de impacto dispar? En otras palabras, ¿sería suficiente una correlación demostrable entre insumos y resultados? Las Directrices Uniformes parecen permitir la posibilidad de validar un modelo en consecuencia; No existe la obligación de identificar un mecanismo causal, ofrecer una justificación teórica para las relaciones descubiertas o incluso comprender la relación entre las entradas y los resultados del modelo. Sin embargo, cuando tales modelos generan un impacto dispar, podríamos tener dificultades para aceptar sus resultados si se basan en factores no intuitivos y, por lo tanto, aparentemente arbitrarios.7Al mismo tiempo, si el modelo reduce el grado de impacto dispar observado en las prácticas de contratación anteriores, podríamos darle la bienvenida al modelo como una mejora incluso si no podemos explicar las correlaciones que ha descubierto.8
Como mínimo, los empleadores y proveedores que buscan mitigar un impacto dispar deben conocer las clases protegidas legalmente a las que pertenecen las personas en los datos de capacitación. El simple hecho de privar a un modelo del acceso a estas características en el momento de la evaluación no puede garantizar decisiones imparciales. Sin embargo, los empleadores y los proveedores temen que la consideración explícita de estas características como parte de sus evaluaciones pueda generar acusaciones de trato desigual. Nuestro estudio sugiere que los proveedores han tratado de eludir esta tensión aparente utilizando características protegidas al construir modelos, eliminando los factores correlacionados que contribuyen a impactos dispares, pero luego asegurándose de que los modelos mismos sean ciegos a los atributos sensibles. Este estilo de prevención de sesgos, aunque atractivo, no está exento de complicaciones.
[C] uando más sensibles sean los datos o estigmatice la condición, los solicitantes pueden sentirse menos cómodos para compartirlos con los empleadores, incluso si el propósito declarado de recopilarlos es proteger contra impactos dispares en este sentido.
Para remediar esto, los empleadores deberán recopilar información, como la raza, el género y otros atributos sensibles, que los defensores de las prácticas justas de contratación han luchado durante mucho tiempo por ocultar del proceso de contratación. En muchos casos, los empleadores se verán obligados a solicitar información que los solicitantes consideren con razón como confidencial porque dicha información ha sido la base de la discriminación en el pasado, más que su mitigación. Es imposible aplicar las metodologías de eliminación de sesgos propuestas a los modelos en ausencia de información sobre, por ejemplo, la orientación sexual o el estado de discapacidad de los empleados. Sin embargo, cuanto más sensibles son los datos o estigmatizada la condición, los solicitantes pueden sentirse menos cómodos para compartirlos con los empleadores, incluso si el propósito declarado de recopilarlos es proteger contra impactos dispares en este sentido.
Nuestro estudio sugiere que los proveedores se han centrado hasta ahora en garantizar que sus modelos muestren un impacto mínimo dispar, dejando de lado las preguntas sobre las diferencias en la precisión del modelo en toda la población. Considere un modelo que sea perfectamente preciso para predecir los resultados laborales de un grupo, pero que no funcione mejor que el aleatorio para otro grupo. Tal modelo podría no resultar en ninguna disparidad en las tasas de selección, pero la calidad de su evaluación diferiría dramáticamente entre los grupos, un fenómeno conocido como validez diferencial. Las evaluaciones que muestran una validez diferencial podrían fácilmente hacer fracasar a las personas, dando apoyo a los estereotipos dañinos que han justificado la contratación discriminatoria en el pasado.9
La validez diferencial también puede cumplir una función de diagnóstico crucial: un modelo puede estar funcionando de manera diferente para diferentes grupos porque los factores que predicen el resultado de interés no son los mismos en cada grupo. Cuando observamos que un modelo exhibe una validez diferencial, aprendemos que la relación entre las entradas del modelo y los resultados reales probablemente sea diferente entre los grupos. En otras palabras, diferentes factores predicen el éxito de diferentes grupos.
Hay algunos pasos que los creadores de evaluaciones algorítmicas pueden tomar para mitigar la validez diferencial. Fundamentalmente, para hacer predicciones precisas para toda la población, necesitamos (1) una amplia gama de entradas de modelo que puedan ser predictivas en toda la población (es decir, no solo entradas de grupos especializados como lacrosse); y (2) un conjunto de datos diverso que contiene ejemplos de personas exitosas de diversos orígenes. Es importante destacar que ninguno de estos se puede lograr eliminando el sesgo del modelo en sí. En algunos casos, los proveedores pueden necesitar recopilar más datos para reducir la validez diferencial.
Históricamente, la búsqueda de prácticas comerciales alternativas en el cribado ha sido bastante costosa, lo que requiere que las empresas consideren una amplia gama de evaluaciones e implementaciones. Sin embargo, las técnicas algorítmicas de eliminación de sesgos prometen automatizar cierto grado de exploración, descubriendo prácticas comerciales alternativas viables por sí mismas. Dicho esto, el uso de estas técnicas no está exento de costos. La contratación con proveedores de este tipo de herramientas puede resultar costosa. Desarrollar la infraestructura para recopilar los datos necesarios, incluidos los atributos confidenciales de los candidatos, puede resultar costoso, engorroso y complicado. En algunos casos, la eliminación de sesgos algorítmicos también reducirá la precisión de una evaluación, ya que estos métodos generalmente implican descartar alguna información que sea genuinamente predictiva del resultado de interés. Y, sin embargo, muchos proveedores alientan a los empleadores a hacer precisamente eso, y señalan que, en la práctica, la mitigación de impactos dispares a menudo tiene solo un pequeño efecto en la precisión predictiva. La capacidad de los proveedores para ayudar a los empleadores a encontrar tales prácticas comerciales alternativas puede presionar legalmente a los empleadores para que trabajen con ellos, ya que de no hacerlo podría parecer que se apega innecesariamente a un proceso de contratación que genera un impacto desigual evitable. Y donde hay una aparente compensación entre precisión e impacto dispar, estas herramientas harán que tales tensiones sean explícitas y obligarán a los empleadores a defender, por ejemplo, una opción para favorecer ganancias marginales en precisión sobre una reducción significativa en impactos dispares.
¿En qué año llegó Neil Armstrong a la luna?
La contratación algorítmica trae nuevas promesas, oportunidades y riesgos. Si no se controlan, los algoritmos pueden perpetuar los mismos sesgos y discriminación presentes en las prácticas de contratación existentes. Las protecciones legales existentes contra la discriminación laboral se aplican cuando se utilizan estas herramientas algorítmicas; sin embargo, los algoritmos plantean una serie de cuestiones políticas sin abordar que merecen una mayor atención.
Informe producido por Centro de Innovación Tecnológica