Deduplicación

En informática , la deduplicación (también conocida como factorización o almacenamiento de instancia única ) es una técnica de almacenamiento de datos que consiste en factorizar secuencias de datos idénticos para ahorrar espacio utilizado.

Cada archivo se corta en una multitud de secciones. Cada una de estas secciones está asociada con un identificador único, estos identificadores se almacenan en un índice. El objetivo de la deduplicación es almacenar el mismo fragmento solo una vez. Además, una nueva aparición de una sección ya presente no se guarda de nuevo, sino que se reemplaza por un puntero al identificador correspondiente.

La deduplicación se utiliza en particular en soluciones del tipo VTL (Virtual Tape Library) o cualquier otro tipo de sistema de copia de seguridad .

Métodos de deduplicación

Deduplicación sin conexión

Los datos a guardar se copian en un espacio de disco búfer y en un segundo paso se realiza una búsqueda de bloques duplicados. Este método requiere mucho espacio de almacenamiento. Este es el principio de las soluciones Falconstor o Quantum DXi en el firmware 1.x, por ejemplo.

Deduplicación en línea

Los datos a respaldar se analizan "sobre la marcha" y se administra una tabla de índices de bloques idénticos (solución NexentaStor de Nexenta Systems , Data Domain de EMC Corporation o IBM ProtecTIER).

Desduplicación de origen

Los agentes distribuidos en los servidores que se respaldarán analizan los datos en la fuente (solución EMC Avamar en particular).

Principio

El índice creado durante la copia de seguridad se utiliza para restaurar los datos en el lugar correcto. Los archivos o bloques duplicados en el índice se duplican en el momento de la restauración. La experiencia muestra que, en la práctica, la tasa de deduplicación aumenta con el tiempo, porque en la práctica, pocos datos cambian entre dos copias de seguridad totales. Por otro lado, la tasa de reducción obtenida depende en gran medida del tipo de datos procesados.

Desventajas de la deduplicación

Ventaja de la deduplicación

Soluciones de deduplicación

Software libre (o similar)

Las VTL (bibliotecas de cintas virtuales) proporcionan a los sistemas el equivalente a una o más unidades de cinta, con capacidades de cinta virtual modificables. Por lo general, se requiere una solución de respaldo adicional.

Almacenamiento en disco (las soluciones presentan los sistemas con un disco o carpeta en un recurso compartido de red, que se puede usar directamente, o una solución de respaldo completa usando deduplicación exclusivamente)

Software de deduplicación de origen propietario (agente en el servidor para realizar la copia de seguridad)

Software de deduplicación de origen patentado (sin agente en el servidor para realizar copias de seguridad)

Ver también

Artículos relacionados

enlaces externos

Notas y referencias

  1. “  Todas las noticias tecnología, tela, teléfonos inteligentes, Windows y iPhone  ” , en 01net , 01net (visitada 16 de de agosto de, 2020 ) .
  2. http://www.01informatique.fr/Archives/Deduplication-sauave-emploi-pour-sauaveer-mieux/
  3. Artículo lemondeinformatique del 6/4/2009
  4. "  Desduplicación de datos: más allá de ahorrar espacio en disco  " , en ZDNet Francia (consultado el 16 de agosto de 2020 ) .
  5. (en) [1]
  6. (en) [2]
  7. (en) DragonFly BSD 2.10 lanzado
  8. (en) "  OpenDedup  " en OpenDedup (consultado el 16 de agosto de 2020 ) .
  9. (in) deduplicación de datos de código abierto por menos.
  10. (in) rsync: aplicabilidad para deduplicación de WAN , bits y pensamientos técnicos aleatorios.
  11. (in) Sincronización de archivos con rsync sobre SSH en savvyadmin.com.
  12. (en) "  BorgBackup  " en BorgBackup
  13. "  BorgBackup: sus copias de seguridad deduplicadas  " , en Korben ,1 st de abril de el año 2016(consultado el 16 de agosto de 2020 ) .
  14. https://www.karolak.fr/blog/2017/05/05/monter-un-serveur-de-sauockeyes-avec-borgbackup/