Algoritmos de big data: para quem trabalham?

Com a evolução do poder de computação e a expansão da ciência de dados em quase todas as áreas de nossas vidas, entramos na era dos algoritmos. Enquanto nossos dados pessoais e profissionais são compilados e processados, modelos matemáticos informam e até tomam decisões essenciais, com impacto direto sobre nós – desde qual universidade frequentaremos e que carreira seguiremos, até nosso acesso e custos de financiamentos de automóveis, hipotecas e planos de saúde. Até mesmo as notícias que vemos nas mídias sociais são guiadas por algoritmos.

Em alguns casos, estes modelos são convenientes e realçam nossas vidas, sugerindo músicas, livros ou filmes nos quais podemos estar interessados com base em nossas interações online passadas, por exemplo. Mas, como apontou Cathy O’Neil, cientista de dados, pesquisadora e empreendedora, em uma palestra no Bloomberg Quant Seminar, em Nova York, quando se trata de decisões realmente importantes, que moldam nossas vidas, os modelos atuais são opacos, sem regulamentação e incontestáveis — mesmo quando erram. No entanto, são frequentemente vistos como justos, científicos e objetivos, pois se baseiam em vastos conjuntos de dados processados por máquinas imparciais.

Quer saber mais sobre as Soluções Bloomberg? Solicite um contato

Há uma questão central na era da aprendizagem de máquina e da ciência de dados: como podemos avaliar e redefinir se um algoritmo funciona, levando em consideração todas as partes envolvidas? Se ele falha em alguns pontos, quais são estes e quais as implicações para todas as partes envolvidas? “Devemos avaliar o que podemos e não podemos esperar da inteligência artificial”, afirma Dra. O’Neil. “Este assunto tem causado muita expectativa, mas, na verdade, é bastante limitado. Isso não significa que a IA não seja útil, mas deve ser tratada com ceticismo científico — não confie cegamente nas respostas, você também deve comprová-las.”

A matriz ética: julgando algoritmos que julgam o comportamento humano

Algoritmos podem ser, como a Dra. O’Neil cita em seu livro recente, “Weapons of Math Destruction”, ferramentas perigosas, se usadas sem uma análise criteriosa. Alguns dos casos mais notáveis de uso indevido são encontrados nos sistemas de justiça criminal e serviços de proteção infantil. Ela examinou dados e decisões relacionadas a reincidência e abuso infantil, e destacou este trabalho durante sua palestra. No âmbito da política pública, estes são exemplos proeminentes de esforços para lidar com problemas sociais difíceis por meio das ferramentas da ciência de dados. No entanto, as análises resultantes estão sujeitas a vieses e falhas sérias — em detrimento das populações das quais pretendem avaliar e servir.

No caso da reincidência, a pesquisa analisou dados sobre indivíduos que haviam sido presos e buscou prever a probabilidade de serem novamente presos. O resultado pode levar a penas mais longas, mesmo com os algoritmos sendo treinados apenas para examinar o condição da prisão, não levando em conta se o réu cometeu um crime violento. Infelizmente, os resultados dos modelos mostraram uma tendência a gerar falsos positivos para homens afro-americanos ao dobro da taxa de falsos positivos para homens brancos. A análise realizada pela Dra. O’Neil envolve em parte a construção de uma “matriz ética”, uma grade que retrata cada parte envolvida e sua perspectiva sobre certos resultados.

Neste caso, existem três tipos de partes envolvidas: o tribunal, homens afro-americanos e homens brancos. Claramente, o tribunal está preocupado com falsos negativos — tal resultado sugere fraqueza no sistema de justiça e representa uma ameaça à sociedade. No entanto, um falso positivo é uma preocupação ainda maior para os afro-americanos, pois eles podem receber penas maiores (ou até mesmo serem encarcerados indevidamente), caso o juiz tome uma decisão com base na análise. Na matriz gráfica, a perspectiva do tribunal para falsos positivos – mostrada em amarelo – é uma preocupação séria; a perspectiva afro-americana masculina é mostrada em vermelho – um enorme problema para aqueles indivíduos e para o sistema como um todo, já que decisões tomadas erroneamente poderiam constituir uma violação dos direitos civis daqueles assim identificados.

Um exemplo expandido da matriz ética incluiu o público e a Northpointe, Inc., a fornecedora da ferramenta comercial em questão (o algoritmo de reincidência COMPAS). A pesquisa revela a necessidade de discussões filosóficas e éticas sobre como devemos definir justiça e racismo em um contexto algorítmico. No entanto, o problema central é a decisão de tomar dados de detenção como uma boa métrica para o crime. Máquinas não criticam tais decisões e metodologias; cabe aos inventores e usuários pensar mais detalhadamente sobre como estas ferramentas são construídas e implantadas.

Tomando a decisão correta — linhas diretas e ação

A pesquisa sobre serviços de proteção infantil traz uma narrativa semelhante. Os dados foram retirados de uma linha direta para casos de suspeita de abuso infantil no Allegheny County, Pensilvânia, onde pessoas preocupadas com o bem-estar de uma criança (por exemplo, professores, vizinhos, médicos) podiam deixar informações. Com base nestas ligações, se o estado decidir que uma criança pode estar correndo risco, um assistente social seria enviado para o domicílio. Desde o início, dois problemas ficaram aparentes com os dados e análises: havia muito mais dados sobre famílias pobres e negras, pois estas já se encontravam no sistema de assistência social, e o algoritmo foi treinado com sua definição de “sucesso” como sendo uma criança removida de casa. O problema aqui é que crianças poderiam ser removidas de suas casas por outras razões que não o abuso real (por exemplo, pobreza, falta de aquecimento ou comida), então “remoção” não é um sinal claro. Uma definição melhor para o algoritmo seria “se foi constatado abuso”.

Na matriz ética, os maiores preocupados são as famílias, que temem falsos positivos, e as próprias crianças, que temem ambos os falsos positivos e falsos negativos. Desenvolver um entendimento das principais partes envolvidas e suas perspectivas pode ajudar a refinar a metodologia de pesquisa e reformular as questões que buscamos responder por meio da análise de dados. Tais ações podem também nos ajudar a mover algumas das categorias vermelhas para a zona amarela através de políticas e respostas melhor ponderadas e informadas.

Fomentando o interesse público

Outras áreas de pesquisa envolvendo algoritmos incluem fraude eleitoral, admissões em faculdades e o modelo de valor agregado do professor (VAM, na sigla em inglês) — este último resultou em demissões baseadas em resultados inconsistentes. Desviando destas áreas de vulnerabilidade estatística, a Dra. O’Neil enfatizou a necessidade de um debate público e maior nível de atenção dada às questões éticas envolvidas na ciência de dados, particularmente no contexto das políticas públicas. “Quando se trata dos piores cenários,” — diz a Dra. O’Neil, “sabemos que estes existem, mas não estamos necessariamente nos concentrando neles ou pensando em como evitá-los. Nos casos que discutimos, é importante decidir como abordar os problemas diretamente, e isto pode envolver analisar nossos princípios subjacentes e o que esperamos alcançar com nossa análise de dados.”

Na esfera dos mercados financeiros, a conscientização e compreensão das pressupostos subjacentes em nossos modelos ‘quant’ são cruciais. Além disso, a estrutura das perguntas influencia em como as respostas são formuladas. E, finalmente, busca-se um equilíbrio entre complicação e simplificação em excesso. Se conseguirmos encontrar a mistura certa, talvez possamos evitar a destruição!

Insights de especialistas do setor de Quant

Após uma curta sessão de perguntas e respostas, Bruno Dupire, o anfitrião do evento, deu início a uma série de palestras de 5 minutos, as chamadas “palestras relâmpago”, onde especialistas do setor, pesquisadores e acadêmicos apresentam uma variedade de assuntos, a fim de estimular novas ideias e interações entre várias disciplinas. Cada palestra examina a maneira como o setor está evoluindo e serve como um aspecto exploratório essencial da série Bloomberg Quant Seminar.

Ioana Boier, pesquisadora independente, falou sobre as nuances das redes neurais artificiais; David Mitchell da Bloomberg L.P. demonstrou como visualizar a dívida chinesa; Markus Dochantschi, arquiteto do Studio MDA, apresentou uma série de galerias de arte ao longo da The High Line, em “Artseen”; e Menglu Jiang, do Stevens Institute of Technology, ofereceu um estudo aprofundado sobre a demanda por petróleo nos EUA.

Além disso, Mohsen Mazaheri, da FF Capital Partners, apresentou trabalhos recentes sobre convexidade global esperada, e Luca Mertens, da Bloomberg L.P., mostrou como os modelos de espaço de estados podem ser uma ferramenta eficaz na avaliação do impacto no mercado de ações.

Agende uma demo.