As empresas costumam usar ? ou usam excessivamente ? o termo ?big data? para descrever todos os tipos de produtos e serviços relacionados a dados, mas a palavra da moda se aplica no caso do Ancestry.com, site americano que funciona como serviço de genealogia que ajuda as pessoas a encontrarem suas raízes familiares e foi comprado por 1,6 bilhões de dólares no ano passado por um fundo europeu.
Há pouco mais de um ano, o site estava administrando cerca de 4 petabytes de dados, incluindo mais de 40 mil registros de nascimento, censo, óbito, imigração e documentos militares, bem como fotos, resultados dos testes de DNA e outras informações. Hoje, a coleção quintuplicou e soma mais de 200.000 registros, de modo que os dados armazenados no Ancestry aumentaram de 4 petabytes para 10 petabytes.
De acordo com, diretor sênior de engenharia do Ancestry.com, Bill Yetman, lidar com essa grande explosão de dados foi um desafio para a empresa. ?Nós medimos cada passo em nosso pipeline?, afirmou Yetman. ?Começamos com algoritmos acadêmicos que as pessoas estão usando em universidades e eles funcionam muito bem em escalas menores.?
No entanto, ele explica que esses algoritmos foram divididos à medida que o banco de dados ficou cada vez maior. ?Há um algoritmo muito específico que usamos em combinar o DNA. Chama-se Germline e foi criado por cientistas da Universidade de Columbia.?
Para analisar o seu arsenal crescente de dados de DNA, a empresa teve que reimplementar o Germline usando Hadoop e HBase. Esse processo envolveu o armazenamento de dados no HBase e, em seguida, a utilização de duas funções de mapeamento para executar comparações em paralelo. ?Usamos duas etapas de MapReduce e depois utilizamos HBase para manter os resultados, o que torna mais fácil para fazer as comparações de DNA. Se não pudéssemos executar essas coisas em paralelo, não conseguiríamos fazê-lo tão rápidamente.?
A expansibilidade prometida pelo Hadoop também ajudou o Ancestry a gerenciar seu crescimento. ?Se eu preciso melhorar o meu desempenho, posso escalar horizontalmente?, comentou Yetman . ?Basta adicionar mais nós ao cluster e conseguimos lidar com o crescimento.?
O crescimento futuro, no entanto, vai exigir mais inovação para manter tudo isso fluindo normalmente. ?Você não pode simplesmente achar que se já conseguiu superar essa montanha de 200.000 dados e que vai fazer o mesmo para 5 milhões. ?Sabemos que virão diversos desafios ao longo do caminho e teremos que olhar com atenção para cada um.?
Obviamente, o desempenho do hardware deve ser monitorado de perto. ?Nós temos que acompanhar a memória em cada nó, como a estamos usando e como estamos usando a CPU.?
O Ancestry.com também está no processo de otimização da implementação do Germline para reduzir significativamente seu uso de memória, e também considera uma associação com provedores de nuvem para aumentar sua capacidade de processamento.
A opção da nuvem ganhou credibilidade quando Ancestry.com recentemente atualizou seu algoritmo a realização de teste de etnias. ?Tivemos que voltar a esses 200 mil pessoas para executar novamente sua etnia?, acrescentou o especialista. ?Fizemos isso com máquinas em nosso data center. Mas hardware local não será suficiente se número de usuários subir para 500.000 até 1 milhão.
Ancestry.com está avaliando vários provedores de nuvem, mas o executivo reconhece que as questões de privacidade adicionam um grau de complexidade para o movimento. ?É algo complicado, pois dados de DNA são muito sensíveis. Isso é uma das coisas com que a empresa é extremamente cuidadosa?
Uma possível solução: ?Estou olhando para a nuvem como um lugar para fazer esses cálculos?, disse Yetman. Mas em vez de deixar os dados na nuvem, ele menciona que pode ?puxar tudo de volta? e armazenar localmente para evitar preocupações com a privacidade dos clientes.
* Por Jeff Bertolucci, da InformationWeek EUA