Equipados com as ferramentas e técnicas da ciência de dados, poderia se dizer que os analistas profissionais de hoje têm vantagens significativas sobre seus colegas de décadas anteriores e, certamente, sobre a tal “sabedoria das multidões”. No entanto, estudos demonstraram que há momentos em que esta multidão ainda tende a acertar e, em tempos turbulentos, o poder da previsão é mais importante do que nunca.
A medição também importa, e a equipe de Pesquisa Quant da Bloomberg desenvolveu um método para pontuar analistas de previsão de mercado em diversas dimensões. Este método não só avalia os analistas por sua precisão, mas também pelo timing, direção e ousadia de suas previsões. O resultado da análise também contribui para uma forma de consenso inteligente, fornecendo reconhecimento para os que consistentemente se voltam à direção correta ao longo do tempo.
Para determinar a qualidade das previsões, é essencial começar com dados limpos. O problema é que haverá casos extremos em qualquer conjunto de dados (outliers, por exemplo), bem como pontos de dados simplesmente incorretos; erros de digitação ou de unidades (bilhões vs. milhões), por exemplo. Embora anotadores humanos possam sinalizar uma certa parcela de dados incorretos, com as vastas coleções de dados disponíveis, é impossível registrar todas as ocorrências. É fundamental ter à disposição métodos estatísticos robustos que possam sinalizar erros automaticamente.
Alguns erros aparentes são, na verdade, outliers; estes podem criar conjuntos de dados desorganizados, mas não incorretos. Ou uma mudança de regime no mercado pode ter ocasionado um movimento significativo de dados. Novamente, estes pontos de dados são legítimos e, embora não correspondam bem ao antigo regime, não devem ser sinalizados como erros. Tal situação se revelou em março de 2020 com o surto do coronavírus, quando muitos analistas descartaram suas previsões de receita para vários setores.
No entanto, outros dados podem ser verdadeiramente errôneos; os dois principais tipos de erros implicam: 1) erros de sinal (+/-) e 2) erros de escala (magnitude). Há soluções, porém a manipulação de conjuntos de dados também acarreta riscos. A calibração é turbulenta e, embora os modelos possam ser calibrados com precisão, também podem ser overfit, causando complicações adicionais com a análise e potencial de resultados falso-positivos e falso-negativos.
Uma estrutura típica de aprendizagem de máquina requer dados rotulados (também conhecidos como “verdade fundamental”) para o treinamento e é particularmente desafiador empregar métodos que garantam eficiência e consistência no processo de coleta de tal métrica. Como observa Arun Verma da Bloomberg, “Normalmente, para dados com os quais trabalhamos, apenas 0,1% ou menos estarão incorretos. Isto significa que devemos fornecer a verdade fundamental de forma muito seletiva, a fim de obter rótulos apenas para os pontos que sejam erros verdadeiros ou casos extremos que podem ajudar a ajustar com precisão os limites de classificação do modelo.” Ele segue: “Também há potencial para confusão na própria verdade; diferentes tipos de especialistas podem ver e rotular erros de formas distintas. Portanto, é preciso perguntar: Há realmente um erro? E, caso haja, que tipo de erro? O algoritmo de aprendizagem de máquina deve ter um desempenho robusto, dadas todas as considerações, e também deve evitar a armadilha do overfitting, ao mesmo tempo que seja interpretável e transparente.”
No projeto da Bloomberg, um modelo básico simples é usado inicialmente para gerar sinalizadores de erro preliminares; os pesquisadores requisitam apenas a verdade para ocorrências sinalizadas e outras não sinalizadas selecionadas em torno dos limites da classificação de erro do algoritmo básico. Assim que a “verdade” é recebida, o modelo é ajustado para otimizar seu desempenho com base na precisão e métricas de recall e gera sinalizadores finais para correção ou revisão de erros.
Em seguida, todas as previsões de analistas que não sejam incorretas são pontuadas em relação ao que realmente ocorreu. Aqui, o trabalho sofre uma reviravolta única: enquanto alguns dizem que a precisão é o atributo mais evidente de uma previsão, outros podem afirmar que fatores, como tempo, direcionalidade, consistência e independência também são profundamente importantes. Direcionalidade, especificamente, é uma propriedade bastante interessante no contexto de mercados financeiros – se um analista estiver consistentemente na direção correta, isto significará lucratividade em vários ambientes de mercado. Além disso, se um analista tende a assumir posições contrárias e está consistentemente certo ao se diferenciar da multidão, este também merece mais atenção e mais crédito. Tais considerações destacam a importância de ir além de uma métrica básica de precisão ao julgar o valor de um conjunto de previsões ao longo do tempo.
A etapa final envolve agregar previsões e analistas a fim de determinar não apenas quem foi o melhor durante um trimestre específico, o terceiro trimestre de 2020, por exemplo, mas também de forma geral. De volta à ideia de um consenso inteligente, ao aplicar um conjunto distinto de princípios e apoiar a uniformidade entre os métodos de pontuação, o modelo agregado garante uma ponderação mais elevada para os analistas de previsão que são consistentes ao longo do tempo, e a análise pode ser estendida aos analistas de pontuação em todos os instrumentos, períodos, setores e geografias. Um analista de previsão específico é ótimo para câmbio ou commodities? Tem insights sobre acontecimentos na Europa ou na Ásia? Os resultados mostrarão o desempenho com clareza, com todas as previsões sendo normalizadas e classificadas em uma curva de sino.
Dado o volume de dados e técnicas analíticas disponíveis no momento, os dias das previsões misteriosas em bolas de cristal chegaram ao fim. Como disse Will Rogers, “O bom julgamento vem da experiência, e a experiência vem do mau julgamento.” Esperemos que, com uma análise hábil dos dados sobre previsões passadas, possamos colher o trigo do joio mais rapidamente.