Deduplicação de dados

Deduplicação de dados

Vamos analisar o conceito de deduplicação, mostrar as abordagens disponíveis no mercado e falar sobre as especificações e a eficiência da deduplicação no backup .

O que é deduplicação

A deduplicação (ou desduplicação) é uma espécie de conceito de compactação de dados que permite diminuir o volume de dados armazenados. O trabalho consiste em eliminar cópias de dados armazenados, ao invés de utilizar técnicas como a compactação em arquivos RAR ou ZIP.

Um armazenamento típico de dados corporativos é usado por muitos usuários e sistemas, os quais muitas das vezes utilizam as mesmas informações (dados). Portanto, é um caso típico em que um mesmo arquivo tenha cópias para outros usuários ou sistemas. A deduplicação permite armazenar apenas uma cópia de dados para qualquer usuário ou sistema.

Existem principalmente duas abordagens principais de deduplicação no mercado:

  • Deduplicação em nível de arquivo: funciona checando se os mesmos objetos (arquivos) já estão armazenados.
  • Deduplicação em nível de bloco: usa a mesma abordagem que a deduplicação em nível de arquivo, mas aqui os objetos são blocos de dados.

Há também deduplicação em nível de byte, mas sua sobrecarga é muito alta para utilizar nos sistemas de armazenamento reais.

A deduplicação não só permite economizar em custos de armazenamento, mas também acelera as comunicações entre sites (LOCAL-NUVEM ou LOCAL-NUVEM-LOCAL), não trafegando por exemplo várias cópias dos mesmos dados através do link de internet.

Deduplicação em nível de arquivo

A deduplicação em nível de arquivo permite ignorar o armazenamento de cópias de vários arquivos – elas são apenas substituídas pelo “link” do arquivo original. Através das “impressões digitais”, sequência de caracteres única em cada arquivo, dos objetos é checado se o arquivo já está colocado no armazenamento. Essa técnica de impressão digital geralmente é baseada em métodos de hashing ou atributos de arquivo (depende da solução de deduplicação utilizada).

A deduplicação em nível de arquivo é muito mais fácil de implementar e funcionar, mas permite menos economia de armazenamento do que a deduplicação em nível de bloco. Se estiver operando no nível do arquivo, o sistema tratará qualquer pequena alteração de arquivo como um novo arquivo, assim não se consegue deduplicar arquivos freqüentemente modificados. Porém é uma das técnicas mais rápidas e mais simples de deduplicação, já que seus índices são pequenos e levam menos tempo para computação.

Esse tipo de deduplicação geralmente é baseado em software e atua como um “meio” entre o local de armazenamento e os aplicativos.

Em média, a deduplicação em nível de arquivo permite economizar até 80% em espaço de armazenamento. As economias mais significativas são típicas de armazenamento compartilhado (sistemas NAS e arquivos/pastas compartilhadas), pois geralmente há várias cópias dos mesmos arquivos. Tipos específicos de arquivos também influenciam a eficiência da dedução de dados: imagens ou arquivos de áudio tendem a ser únicos e não podem se beneficiar da deduplicação; já documentos, modelos e arquivos internos do sistema possuem uma boa taxa de deduplicação.

Deduplicação em nível de bloco

A deduplicação em nível de bloco é mais profunda e verifica a exclusividade dos blocos de todos os arquivos. Quando um arquivo é modificado, o sistema armazena somente partes (blocos) alterados do arquivo original, como cada bloco tem sua própria identificação (normalmente gerada via algoritmo de hash), o sistema comparar com os metadados “já armazenados”.

Essa abordagem permite economizar ainda mais espaço (a taxa de redução utilizando deduplicação em nível de bloco pode chegar a 95%), mas requer mais computação pois o número de objetos (blocos) a serem processados ​​é muito maior.

Armazenamento em nuvem para o backup

Ao usar um sistema de backup com o backend baseado em nuvem, para diminuir o espaço consumido e economizar em armazenamento, é interessante implementar a deduplicação, no entanto muitos provedores de armazenamento não fornecem a opção de deduplicação nativa ou cobram a mais pelo uso.

Assim, é interessante implementar um software de deduplicação independente que fará upload apenas de dados deduzidos para a nuvem, pensando em ambientes como este é que oferecemos uma solução para esse serviço. Nossa solução trabalha em conjunto com o nosso software de backup processando todos os dados recebidos de estações de trabalho e servidores clientes, coletando dados depois que o backup é concluído, para que as janelas de backup não precisem ser alteradas.

Resumo

O processo de deduplicação permite reduzir o volume de dados armazenados e otimizar os gastos com armazenamento. Mas é preciso escolher com cuidado a tecnologia a ser utilizada , levando em consideração as características dos dados.

Oferecemos uma solução de deduplicação para backup que pode ajudá-lo a economizar espaço de armazenamento e largura de banda para transferência, se você tiver dúvida, não hesite em nos contactar!

Referências

  1. Data deduplication – Wikipedia. Acessado em 21/06/2018.
  2. Deduplicação de dados – Windows Server 2012 R2 – Microsoft TechNet. Acessado em 20/06/2018.
  3. Desduplicação de dados – glossário Dell EMC. Acessado em 20/06/2018.
  4. Noções básicas da eliminação de duplicação de dados – Microsoft Docs. Acessado em 21/06/2018.