Un medio computacional es que el resultado del algoritmo no es neutral, justo o equitativo.
El sesgo algorítmico puede ocurrir cuando los datos utilizados para entrenar un algoritmo de aprendizaje automático reflejan los valores implícitos de los humanos involucrados en la recopilación, selección o uso de esos datos. Se han identificado y criticado sesgos algorítmicos por su impacto en los resultados de los motores de búsqueda, los servicios de redes sociales , la privacidad y el perfil racial . En los resultados de la investigación, este sesgo puede generar resultados que reflejen sesgos racistas, sexistas u otros sesgos sociales o culturales, a pesar de la supuesta neutralidad de los datos. Un ejemplo concreto es el de los intérpretes en línea que traducen sistemáticamente el término inglés "nurse" (neutral) a "nurse" (femenino) y el término "doctor" (neutral) a "doctor" (male). El estudio de los sesgos algorítmicos está particularmente interesado en algoritmos que reflejan una discriminación "sistemática e injusta" .
El sesgo algorítmico no es necesariamente una intención deliberada de los diseñadores del algoritmo para engañar a los usuarios. Es aún más importante para ellos ser conscientes de esto, ya que el uso de un algoritmo sesgado que se supone que es objetivo puede influir fuertemente en sus opiniones. Este problema plantea la cuestión de la falta de retroalimentación de los diseñadores de algoritmos sobre su creación, ya planteada por los ingenieros de las principales plataformas de Internet.
Un algoritmo está sesgado cuando su resultado no es neutral, justo o equitativo. Por tanto, esta definición se basa en tres conceptos: neutralidad , lealtad y equidad . Los sesgos algorítmicos pueden dar lugar a situaciones de discriminación .
Para evitar que los algoritmos estén sesgados, algunas investigaciones como Pedreshi 2008 tienen como objetivo desarrollar algoritmos que respeten los principios de equidad .
Este enfoque implica definir la equidad. Corbett-Davies y Goel 2018 distinguen tres definiciones:
Hamilton (2016) también distingue entre equidad individual y de grupo. La equidad individual garantiza que las personas con características similares sean tratadas de la misma manera, mientras que la equidad de grupo trata a las personas de diferentes grupos de manera diferente para lograr la igualdad de resultados .
Los sesgos de algoritmos pueden resultar de sesgos cognitivos del programador de algoritmos, sesgos estadísticos vinculados en particular a datos de entrenamiento o incluso sesgos económicos.
Los programadores que desarrollan algoritmos pueden estar sujetos a muchos sesgos cognitivos . Entre estos sesgos, el sesgo de la oveja Panurge consiste en utilizar modelos populares sin asegurar su relevancia en un contexto dado. El sesgo de confirmación es promover su visión del mundo sin tener en cuenta los datos que no van en su dirección.
Los científicos de datos que programan los algoritmos no son representativos de la población general. Un estudio del Institute AI Now (in) 2018 destaca que solo el 15% del personal de investigación en inteligencia artificial en Facebook y el 10% en Google son mujeres.
La sobrerrepresentación de hombres blancos entre los científicos de datos y la subrepresentación de las minorías puede llevar a los científicos de datos a no tener suficientemente en cuenta los posibles sesgos y la discriminación. Esto es lo que D'Ignazio y Klein 2020 denominan " riesgo de privilegio" .
Los sesgos estadísticos pueden provenir de los datos contenidos en la entrada del algoritmo o del algoritmo mismo.
En 2015, se suspendió un algoritmo de evaluación de currículums desarrollado por Amazon cuando se descubrió que discriminaba fuertemente a los currículums femeninos.
El sesgo también puede provenir del método estadístico , como el sesgo de variable omitida , el sesgo de selección o el sesgo de endogeneidad .
Los sesgos económicos están vinculados a los incentivos económicos de los actores.
Por ejemplo, Lambrecht y Tucker 2017 demostraron que era más rentable orientar anuncios de trabajos tecnológicos a hombres que a mujeres.
Los modelos de inserción de palabras pueden reproducir sesgos psicológicos humanos.
Caliskan, Bryson y Narayanan 2017 estudian el modelo de incrustación vectorial Glove (en) y muestran que encontramos asociaciones implícitas entre palabras portadoras de prejuicio. Proponen un método de medición del prejuicio inspirado en la prueba de asociación implícita .
Según Buolamwini y Gebru 2018 , las mujeres son reconocidas con menos facilidad por el software de reconocimiento facial de IBM , Microsoft y Face ++ . De los 127O retratos oficiales de figuras políticas que se les presentaron, Face ++ acertó en el 99,3% de los hombres, pero solo en el 78,7% de las mujeres. Así, el 95,9% de los errores de la empresa se refieren a mujeres.
Los algoritmos de recomendación pueden conducir a resultados sesgados en cierto contenido.
Por ejemplo, el trabajo de ingeniería inversa en el algoritmo de recomendación de YouTube realizado por Guillaume Chaslot y la asociación Algotransparencia muestra que el algoritmo tiende a favorecer el contenido conspirativo.
En 2016, el agente conversacional Tay desarrollado por Microsoft y desplegado en Twitter tuvo que ser eliminado 24 horas después del uso de comentarios racistas.
En algunos estados americanos, la justicia de libertades y detención basa sus decisiones en la liberación anticipada de detenidos en algoritmos de evaluación de riesgos; esto se llama justicia predictiva . En 2016, una encuesta de las ONG ProPublica reveló que el algoritmo de la empresa Northpointe (en) , aunque sus creadores afirman que no tiene en cuenta directamente la raza, era un sesgo racista.
Hay varias posibilidades para luchar contra el sesgo algorítmico. Según TechCrunch, se deben crear bases de datos compartidas y reguladas que eviten que las personas manipulen los datos. De hecho, admitiendo que la inteligencia coincide con la ausencia de prejuicios, los algoritmos aún no son lo suficientemente inteligentes y, por lo tanto, libres de prejuicios para corregirse; mientras esperan que puedan hacerlo, los humanos, conscientes de lo que es el prejuicio, deben controlarlos para evitar que aumenten las orientaciones deformadas que resultan de los datos sesgados a través de los cuales aprenden.
Una de las principales dificultades en la lucha contra el sesgo algorítmico es la opacidad del funcionamiento de los algoritmos. Esta opacidad puede tener cuatro orígenes; el secreto establecido intencionalmente por empresas que quieren proteger su propiedad intelectual, el analfabetismo de usuarios e investigadores, pero también el hecho de que con su evolución en el tiempo algunos algoritmos pueden volverse ilegibles por su complejidad y finalmente algunos algoritmos, especialmente los de gran tamaño Los servicios en línea son demasiado grandes para estudiarlos. Si bien algunos investigadores han intentado desarrollar métodos para mejorar la transparencia, otros, como Shoshana Zuboff y Ruha Benjamin, afirman que los algoritmos no pueden abordarse como objetos aislados, sino como parte de un gran conjunto cultural y socio-técnico.
Para documentar los sesgos algorítmicos, es necesario poder auditarlos . Para ello, Angwin et al. 2016 han recopilado datos y desarrollado su propio modelo para poder resaltar, el sesgo del algoritmo de evaluación del riesgo de reincidencia.
Según la socióloga Angèle Christin, con las auditorías existen otras dos formas de abordar el problema del sesgo de los algoritmos. El primero es el enfoque histórico y cultural. Consiste en una reconsideración de eventos de sesgo algorítmico en secuencias más largas basadas en la sociología crítica . Los algoritmos reproducirían estructuras preexistentes de discriminación , vigilancia y mercantilización . El segundo es el enfoque etnográfico. Permite, por un lado, determinar qué fuerzas estructurales permiten la aparición de sesgos y, por otro lado, considerar cómo los algoritmos se ven influenciados por sus usos diarios. Angèle Christin ofrece tres métodos en el marco de este enfoque para estudiar algoritmos. La “refracción algorítmica” consiste en examinar las reconfiguraciones que se producen durante el uso de algoritmos y su interacción con el público y las instituciones. La “comparación algorítmica” se refiere al análisis de diferentes usos del mismo algoritmo en diferentes campos para comprender la aparición de sesgos en las diferencias en las aplicaciones y el funcionamiento. Finalmente, la “triangulación algorítmica” se basa en el uso de algoritmos secundarios para recolectar datos sobre el algoritmo estudiado.
El Estados Unidos no tiene una amplia legislación que regula el sesgo algorítmica. Este problema se puede abordar a nivel federal o estatal, y varía según el sector, el uso y la industria o el gobierno involucrado. En 2017, la ciudad de Nueva York aprobó una ley que establece una comisión para monitorear el uso de algoritmos en la ciudad.
En una columna publicada en el sitio web de la revista Data & Society , el investigador Kinjal Dave critica el uso del término sesgo para designar los prejuicios de los algoritmos. Según ella, el término sesgo resultante de la psicología social se refiere a una imperfección del individuo mientras que los algoritmos constituyen fuerzas institucionales.
D'Ignazio y Klein 2020 también abordan esta revisión. Para ellos, hablar de sesgo algorítmico y sugerir que podríamos corregir estos sesgos es una distracción. En lugar de hablar de prejuicios, prefieren hablar de opresión.