O mundo dos dados está crescendo a uma taxa quase incompreensível: o tamanho do universo digital dobrará pelo menos a cada dois anos.
Como resultado da proliferação de dados, muitas empresas estão em posse de enormes reservas de dados inexploradas, mas frequentemente dispersas e em formatos de dados incompatíveis.
Empresas com uma estratégia de capitalização de dados estão investindo para garantir que possam extrair o máximo de valor possível de seus dados. Um componente essencial de qualquer estratégia sólida de dados inclui um processo robusto de qualidade de dados.
É tentador para as empresas considerar soluções de curto prazo e processos manuais para a depuração de dados, mas para qualquer estratégia relacionada repetível e de longo prazo, uma abordagem algorítmica é apropriada.
Tanto um desafio quanto uma oportunidade
Para empresas de serviços financeiros, em particular, o big data apresenta um desafio e uma oportunidade. Atualmente, as empresas têm mais dados na ponta dos dedos do que nunca, mas a compreensão e o uso efetivo desses dados ainda podem ser difíceis.
De acordo com Matthew Rawlings, Chefe de Licença de Dados da Bloomberg, os problemas surgem do fato de que “é preciso muito esforço manual para limpar e executar esses dados e adicionar um pouco de business intelligence a eles”.
Muitas empresas enfrentaram um lapso de tempo na tomada de decisões baseadas em dados — quando os dados são finalmente localizados, arrumados, classificados e aplicados, estão virtualmente desatualizados e não são mais relevantes. As empresas podem encontrar problemas significativos — tanto regulatórios quanto comerciais — se a qualidade de seus dados não estiver à altura.
De fato, em uma pesquisa pré-conferência de delegados no North American Financial Information Summit de 2017, pouco mais da metade (51%) citou a qualidade de dados como seu maior obstáculo imediato.
Um processo de um ano — em um dia
Talvez devido a alguns desses impulsionadores, um número crescente de adotantes iniciais está
se voltando para a machine learning, um processo que utiliza inteligência
artificial sofisticada para efetuar algo como uma revolução tecnológica no mundo da
qualidade de dados. As capacidades de IA estão no ponto de inflexão de adoção e
impacto exponencial.
“A inteligência artificial é importante pois comprime o processo. Você pega o que antes era um processo de um ano e a máquina pode terminá-lo potencialmente em um dia, então você pode testar hipóteses e agir muito mais rapidamente.”
Matthew Rawlings, Chefe de Licença de Dados, Bloomberg
Para ilustrar isso, imagine um grande banco que lida regularmente com o NatWest (National Westminster Bank). Em diferentes unidades de negócios, bancos de dados e planilhas, pode haver muitas variações para o mesmo nome de cliente — talvez simplesmente aparecendo como County NatWest, Nat West ou National
Westminster e assim por diante. A reconciliação de todos estes registros levaria um trabalho manual significativo.
Mas um programa de computador pode, teoricamente, escanear e processar dados em todo o banco e entregar todas as correspondências em questão de horas. “De repente, o banco pode ver instantaneamente, em nível corporativo, toda a sua exposição ao NatWest”, explica Rawlings. “Isso permite uma tomada de decisão mais rápida e eficiente”, acrescentou.
Este processo, ou “name-identity recognition”, é apenas uma das áreas em que a machine learning é capaz de fazer uma diferença radical. E o processo evolui ao longo do tempo.
No exemplo do NatWest, a varredura original pode sinalizar 10% ou 15% de resultados falsos positivos em sua primeira tentativa. Por meio de feedback contínuo, é capaz de aprender com falsos positivos e aplicar as regras ajustadas ao próximo conjunto de dados. Esta evolução constante é o que torna a tecnologia de machine learning tão eficaz na depuração e verificação de dados em velocidades antes
consideradas impossíveis.
Garantindo a qualidade dos dados com machine learning
O uso de tecnologia desse tipo pode garantir a qualidade de dados em toda a empresa. Durante um webinar, John Randles, CEO da Bloomberg PolarLake, relembrou a história de um grande gestor global de ativos.
“Descobrimos milhões de incompatibilidades entre os metadados, que descreviam estes dados e os próprios dados de origem, e em um período de 15 meses, eliminamos estes problemas”, reduzindo o número de problemas com o conjunto de dados de milhões para milhares.
Usar a tecnologia certa pode fornecer à empresa uma de suas principais necessidades — dados em contexto. O contexto é o aspecto mais importante para que os funcionários apreciem a qualidade de dados, de acordo com Sanjay Saxena, Chefe de Governança Corporativa de Dados da Northern Trust Corporation. “Quando você consegue explicar isso em termos de seu trabalho diário, você vê a lâmpada acender”, disse ele durante o webinar.
As melhores práticas de gestão de dados foram significativamente melhoradas pela combinação da queda do custo do poder de processamento de computadores, aumento da disponibilidade de dados e democratização das ferramentas de machine learning de código aberto, que permitem que qualquer empresa se torne habilitada para a inteligência artificial.
Os novos métodos e práticas recomendadas da ciência de dados permitem a destilação de bilhões de células e linhas de dados em insights significativos. A qualidade dos dados continuará a ser um diferencial para os insights de dados de qualquer instituição.
Em última análise, os seres humanos são incapazes de progredir no ritmo necessário para interpretar dados em zettabytes, e é por isso que uma base de machine learning é tão importante.
Entre em contato conosco e assine nosso serviço Bloomberg Professional.