A construção de modelos de aprendizagem de máquina justos (sem viés) está se tornando essencial para a ciência de dados. O uso de algoritmos de machine learning na solução de problemas em diferentes tipos de negócios irá reproduzir o viés e a discriminação que a sociedade tenta combater, mas que está presente nos dados.
Relacionado a este contexto temos a expressão conhecida por Disparate Impact (impacto díspar), ou seja, o impacto da discriminação. Refere-se a práticas que afetam de forma negativa um grupo minoritário de indivíduos em relação a um grupo majoritário, mesmo que tal discriminação ocorra de forma não intencional.
Protected Class (ou classe protegida) representa os indivíduos protegidos de discriminação conforme a legislação. Geralmente, a característica protegida, refere-se a atributos tais como, raça, religião, nacionalidade, sexo, idade, orientação sexual, deficiência etc., que são protegidas conforme as leis federais.
De modo a ilustrar tais conceitos, considere um processo de seleção para Cientista de Dados onde os candidatos necessitam realizar um teste físico. Neste caso, temos um cenário de Disparate Impact, pois a função Cientista de Dados não requer tal habilidade, ou seja, o empregador pode estar tentando discriminar uma classe de indivíduos protegidos. Caso uma mulher não seja bem-sucedida no teste físico, não implicaria que ela não tem capacidade de desempenhar a função. Portanto, não há legitimidade no processo de seleção para o desempenho da função.
Com o crescimento em aplicações de modelos a tomada de decisões que podem afetar indivíduos das classes protegidas, existe um interesse crescente em desenvolver modelos e algoritmos de aprendizagem de máquina capazes de mensurar e garantir que suas predições e classificações não sejam influenciadas pela presença de viés.
Um exemplo real na aplicação de modelos discriminatórios pode ser visto em Machine Bias — ProPublica, onde um modelo para prever crimes futuros pontuava pessoas negras com maior risco.
Mas o que seria construir modelos justos? Como traduzir a noção de justiça em algo mensurável?
Em geral, o problema com modelos discriminatórios acontece devido a presença de viés não intencional contido nas bases de dados. Existem diferentes métodos para identificar a presença de viés e tratar de forma a construir modelos justos.
A regra dos 4/5 (ou 80%) é comumente conhecida para avaliar a presença de viés em variáveis sociodemográficas. Avalia-se a razão de impacto (IR-Impact Ratio) entre as classes minoritária e majoritária. Caso o valor do IR seja inferior a 80%, sugere a presença de viés, ou seja, presença de disparate impact.
Outros testes estatísticos podem ser utilizados para identificar a presença de viés nos dados, a saber: Teste Qui-quadrado de independência, Teste de Fisher (associação entre variáveis) e outros que, conjuntamente, contribuem para fortalecer a evidência de viés.
Na literatura há sugestões de medidas e técnicas nas diferentes etapas de construção dos modelos de aprendizagem máquina para desenvolver modelos justos, desde o pré-processamento dos dados até avaliação dos modelos fechados.
Faz-se necessária uma atenção especial ao tema, especialmente na área de Ciência de Dados pois, o desenvolvimento de modelos baseados em dados com viés discriminatório implica na reprodução desse viés por tais algoritmos. Um maior aprofundamento no tema pode ser obtido nas referências abaixo.
Nos envie uma mensagem
Referências:
- A flexible tool for bias detection, visualization, and mitigation. https://fairmodels.drwhy.ai.
- Data preprocessing techniques for classification without discrimination, Knowl Inf Syst (2012) 33:1–33, DOI 10. 1007/ s10115-011-0463-8.
- How can we ensure Machine Learning models are fair? https://onfido.com/resources/blog/how-can-we-ensure-machine-learning-models-are-fair.
- What Is The Difference Between Disparate Impact and Disparate Treatment Discrimination? https://rayneslaw.com/what-is-the-difference-between-disparate-impact-and-disparate-treatment-discrimination/.
- Fairness Constraints: Mechanisms for Fair Classification.
- https://people.mpi-sws.org/~mzafar/papers/disparate_impact.pdf
- How to easily check if your Machine Learning model is fair? https://www.kdnuggets.com/2020/12/machine-learning-model-fair.html.
- Feldman, M., Friedler, S.A. Moeller, J., et al. Certifying and Removing Disparate Impact (2015). Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
- Understanding Fairness. https://machinesgonewrong.com/fairness/.