Archivo informático

Un archivo de computadora es en el sentido común, una colección, un conjunto de datos digitales recopilados con el mismo nombre, registrados en un medio de almacenamiento permanente, llamado memoria masiva , como un disco duro , un CD-ROM , una memoria flash o un banda magnética, una serie de tarjetas perforadas y manipuladas como una unidad.

Técnicamente, un archivo es información digital formada por una secuencia de bytes, es decir una secuencia de números, que permite varios usos.

Para facilitar su organización, los archivos se ordenan en sistemas de archivos que permiten colocarlos en ubicaciones denominadas directorios o carpetas, organizados ellos mismos según el mismo principio para formar una jerarquía de árbol.

Un archivo tiene un nombre de archivo que se utiliza para designar y acceder al contenido. Este nombre a menudo incluye, especialmente en el entorno Windows, un sufijo, la extensión , que proporciona información sobre la naturaleza de la información contenida en el archivo y, por lo tanto, del software que se puede utilizar para manejarlo. Cada archivo tiene una cantidad de metadatos (información sobre la información), como el sistema de archivos, la longitud del archivo, el autor, las personas autorizadas para manejarlo o la fecha de la última modificación.

La esencia del archivo es la información que contiene. El formato de archivo es la convención de que la información y los metadatos se digitalizan y secuencian en el archivo. El formato de archivo es propietario cuando el acuerdo es conocido solo por su autor y nunca se ha publicado. El formato de archivo se abre cuando la convención se hace pública para permitir la interoperabilidad del software que lo maneja. Dependiendo de la naturaleza y el formato del contenido, los archivos se pueden calificar como ejecutables, comprimidos, de texto, documentos, imágenes, audio o videos.

Antes de la llegada de las computadoras, los archivos eran pilas de fichas reunidas en archivadores. El uso de computadoras y almacenamiento magnético ha hecho que sea más fácil y rápido manejar archivos grandes como los que se utilizan en el comercio y la administración pública. La manipulación de archivos es uno de los servicios clásicos que ofrecen los sistemas operativos .

Contenido

El contenido es la esencia del archivo. Hay cientos, si no miles, de tipos de archivos, que difieren en la naturaleza del contenido, el formato, el software utilizado para manipular el contenido y el uso que hace la computadora. La naturaleza del contenido puede ser texto, imágenes, audio o video.

El formato de archivo es la convención de que la información se digitaliza y se organiza en el archivo y se utiliza el empaque en el que estarán el contenido y los metadatos. La extensión, cuando está presente, añade un sufijo al nombre del archivo, con el fin de proporcionar información sobre el formato del archivo y, por lo tanto, sobre el software que se puede utilizar para manejarlo. Cada archivo se puede guardar en cualquier lugar del sistema de archivos y el software que lo manipula proporciona una ubicación de almacenamiento convencional. Se dice que algunos formatos son propietarios , es decir, que el formato es conocido solo por su autor y nunca ha sido publicado.

algunas categorías de archivos

apellido	Naturaleza del contenido	Extensiones
ejecutables	archivos que pueden ser ejecutados por la computadora, es decir, programas .	.exe, .com, .sh, .bat, ...
comprimido	archivos codificados en un proceso que los hace más pequeños que los archivos originales sin cifrar. Es necesario un programa descompresor para realizar la codificación inversa y así encontrar el archivo original. ver compresión de datos .	.arc, .zip, .rar, .z, .arj, .sit, .gz, .7z, ...
fotos	archivos que contienen imágenes y sonido en una forma que la computadora puede leer. Dichos archivos pueden contener fotos, pictogramas, gráficos, canciones, música, transmisiones de radio o películas.	.gif, .jpg, .bmp, .png, .eps, .tif, ...
audio		.au, .wav, .mp3, oga, .ram, ...
video		.avi, .mpg, .mov, ...
documentos	documentos escritos, destinados a ser impresos y leídos. El archivo contiene el texto y la información de tipografía ( fuentes , colores).	.docx, .odt, .html, .doc, ...
texto	lisos archivos de texto contienen texto escrito, sin indicaciones tipográficas. Puede ser texto destinado a los usuarios, como instrucciones de uso o borradores; o bien textos destinados a la computadora, como el código fuente o los datos de un programa.	.txt, .html, .ini, .csv, .log, .conf, .c, ...

Historia

El ARCHIVO - recolección de inteligencia - es una práctica que se remonta a la antigüedad. Las primeras cartas en el sentido de portadores de información fueron placas grabadas por los babilonios en el 400 a. C. J.-C .. A finales del siglo XIX E , el término tarjeta se define (entre otros) como una "hoja de cartón en la que se escriben los títulos de las obras, que se clasifican alfabéticamente en casillas, y se utiliza para encontrar el volumen en la biblioteca. También se utiliza para preparar tablas de contenido ”. De allí se deriva posteriormente el término archivo , que designa una colección de archivos y, por extensión, el mobiliario destinado a contenerlos.

A principios del XX ° siglo, antes de la llegada de las computadoras, el uso de hojas de datos era común en muchas áreas. La información se registró en hojas de papel o cartón, documentos, formularios, archivos, almacenados en los cajones de un armario. Los archivos más grandes se encontraron en la administración pública, el comercio y la industria en particular. Guardar y luego actualizar toda la información contenida en los documentos requirió un esfuerzo considerable y consumió mucho tiempo. Podría simplificarse mediante el uso de tarjetas perforadas, que podrían ser leídas por máquinas.

En 1950, los archivos de computadora se presentaban en forma de una pila de tarjetas perforadas , que un dispositivo leía sin intervención humana. Por lo tanto, podrían procesarse 100 veces más rápido que si la información se hubiera ingresado manualmente. Sin embargo, estos archivos eran grandes y fueron rápidamente reemplazados por dispositivos de almacenamiento magnéticos, más compactos y rápidos: un carrete de cinta magnética puede contener tanta información como una pila de tarjetas de 60 metros de altura y el contenido de la banda magnética se puede leer 100 veces. más rápido que el de un archivo de tarjeta perforada.

La organización de los archivos de cinta magnética era similar a la de los archivos de tarjetas perforadas: estaban formados por grabaciones , cada registro correspondía a un conjunto de información sobre el mismo tema. Cada registro contenía varios campos , que contenían información relacionada con el tema. En el caso de un archivo relativo a un alumno, por ejemplo, los diferentes campos podrían contener apellido, nombre, edad, resultados académicos, etc. Se podría distribuir información diversa sobre el mismo tema entre diferentes archivos. Las tarjetas grabadas en cinta magnética se leyeron una a una, en el orden en que fueron grabadas en la cinta; este proceso denominado archivo secuencial se utilizó para la liquidación de salarios, así como para las suscripciones telefónicas y de gas.

Desde 1980, sistemas operativos como Unix ofrecen la posibilidad de almacenar grandes cantidades de información, buscarla y clasificarla a modo de bloc de notas en una jerarquía donde cada directorio puede contener otros directorios.

Implementación

En la década de 1950, la información destinada a la manipulación informática eran pilas de fichas de cartón. Luego fueron reemplazados por grabaciones digitales en cinta magnética , lo que permitió acelerar los cálculos y ahorrar espacio. El dispositivo de lectura lee la cinta en bloques de unos 1000 bytes y la cinta tiene un directorio , una especie de catálogo que contiene los nombres de todos los archivos grabados en la cinta. Durante la reproducción, el dispositivo desenrolla la cinta y reproduce el contenido del archivo en el orden en que fue grabado; este es el proceso de archivo secuencial .

En 2010, la manipulación de archivos es un servicio clásico ofrecido por los sistemas operativos . El sistema operativo le permite crear, modificar o eliminar archivos y directorios; reserva el espacio necesario en el medio de almacenamiento para contenido y metadatos e impone convenciones sobre los nombres de archivos y directorios. Los medios se dividen en bloques de tamaño fijo. El software mantiene las estructuras necesarias para mantener la jerarquía de directorios y distribuir archivos y metadatos en el medio de almacenamiento.

Normalmente, guardar el archivo requiere varios bloques. se dice que el archivo está fragmentado si los bloques no son contiguos. Los metadatos que acompañan a los archivos son: la extensión del archivo, su autor, las personas autorizadas para manejarlo, la fecha de la última modificación, así como la lista de espacios libres en el medio.

Los sistemas operativos Mac OS de Apple crean dos jerarquías de medios de almacenamiento: una está destinada a guardar el contenido del archivo, mientras que la otra, la bifurcación de recursos, está destinada a contener los metadatos.

El software NTFS de Microsoft almacena metadatos en el archivo $ MFT y $ Secure , la información estándar almacenada en estos archivos son las fechas de creación, modificación y manipulación del archivo.

Varios formatos de archivo le permiten guardar metadatos dentro del archivo. Este es el caso del formato de documentos PDF , imágenes digitales en formato JPEG así como documentos en formatos de Microsoft Office .

En el estándar CIM Schema , la clase CIM_DataFile se asigna a archivos de computadora. Representa una colección con nombre de datos o código ejecutable, almacenado en discos fijos locales.

Unix y archivos especiales

Además de los archivos y directorios, los sistemas operativos Unix le permiten guardar enlaces y archivos especiales .

Un enlace permite compartir archivos entre varios usuarios, permite obtener que un solo contenido esté disponible con varios nombres diferentes ubicados en diferentes directorios, sin necesidad de realizar copias. Los cambios realizados en el contenido por uno de los usuarios son inmediatamente visibles para los demás. Hay dos tipos de enlaces: el enlace físico y el enlace simbólico ( enlace simbólico ).

el enlace físico es una segunda etiqueta para el contenido. La etiqueta incluye el nombre, el autor y la fecha de la última modificación.
el enlace simbólico contiene el nombre del directorio en el que se encuentra el archivo en cuestión y funciona igual que los accesos directos para los sistemas operativos Windows .

Los archivos especiales son una característica específica de los sistemas operativos Unix únicamente. Un archivo especial representa una pieza de hardware, como una impresora o una unidad de CD - ROM , que luego se puede manejar de la misma manera que un archivo normal: lea y escriba en el dispositivo utilizando los mismos comandos solo para leer y escribir un archivo normal .

Archivos y documentos en Macintosh

El sistema operativo Macintosh utilizó un formato de archivo avanzado (compatible con HFS y HFS + ) que tiende a desaparecer de la décima versión . Este formato, además de una cierta cantidad de metadatos , prevé dos formas de datos: la rama de datos ( bifurcación de datos ), correspondiente al archivo de cualquier sistema operativo , y la rama de recursos ( bifurcación de recursos ), tipo de directorio que contiene las unidades más pequeñas de datos llamadas recursos, clasificadas por su tipo . La ventaja en comparación con el archivo monolítico ordinario es doble: primero, la aplicación puede usar las API del sistema ( Macintosh Toolbox ) para administrar los datos en la memoria; en segundo lugar, el usuario ve un archivo simple al que llama documento mientras contiene datos heterogéneos, como un directorio. Todo es escalable ya que siempre puedes agregar nuevos tipos de recursos sin modificar el formato original del archivo. Desde Mac OS X, la noción de bundle (documento que, de hecho, es un directorio), retoma las principales ventajas de la rama de recursos. Por tanto, un documento ya no es necesariamente un archivo.

Integridad de archivos

Dos archivos son idénticos si tienen el mismo tamaño y si contienen la misma información en el mismo orden. Desafortunadamente, comparar todos los bytes de dos archivos potencialmente idénticos es una operación larga (proporcional al tamaño del archivo). Tampoco siempre es posible, como en el caso de transportar un archivo de un punto a otro, ya sea a través de un medio físico o por la red.

Se utilizan diferentes métodos para verificar la integridad de un archivo:

la comparación de nombres: útil solo para la deduplicación y con riesgo de error tanto para falsos positivos como para falsos negativos.
la comparación de fechas u otros metadatos asociados al archivo: existe un alto riesgo de error, pudiendo estos metadatos ser modificados independientemente del contenido del archivo.
la comparación de números de versión informal : el problema en este caso es ubicar una versión de un archivo entre varias. El sistema requiere rigor, el usuario debe actualizar el número de versión y no protege de ninguna manera contra cambios accidentales, por ejemplo, durante el transporte.
control de tamaño: dos tamaños diferentes garantizan que los archivos sean diferentes, pero esto no permite verificar que sean idénticos; también existen riesgos significativos de falsos positivos.
la suma de verificación ( suma de verificación ): este es un método simple para garantizar la integridad de un archivo después del transporte. Sin embargo, el método solo ofrece una garantía limitada por el número de bits dedicados a la suma de comprobación. También existe el riesgo de mala fe, ya que un archivo puede manipularse fácilmente para producir una suma de comprobación determinada.
la firma o huella: Hay varios tipos de firmas: algunas, como las firmas MD5 o SHA-1, son similares a una suma de comprobación, pero más complejas de falsificar. El resultado de un cálculo de firma realizado sobre el contenido del archivo se compara con una firma obtenida de un sitio de confianza. Otros sistemas de firma basados en un sistema de clave pública validan no solo la integridad de un archivo sino también la identidad de su remitente.

Además, un archivo se puede cifrar o comprimir , o ambos simultáneamente.

Acceso a la API

Los sistemas operativos permiten a los usuarios, así como a los desarrolladores de software , acceder a un archivo en un sistema de archivos a través de un estándar de nomenclatura y manipularlo de acuerdo con una API .

La API básica introducida por UNIX considera que los archivos son planos, no estructurados y no admite el almacenamiento en búfer a nivel de usuario. La API básica hace poco más que definir una posición actual, leer o escribir. También puede truncar o ampliar un archivo. En este nivel, un archivo es, por tanto, solo una secuencia de bytes .

En POSIX y Unix, los nombres de archivo se consideran una secuencia de bytes, mientras que en Windows se consideran unicode. Por lo tanto, en Windows, las API de acceso a archivos se duplican, una permite el acceso con el nombre unicode en UTF-16 y la otra permite que los archivos se nombren utilizando una cadena de bytes a través de un mecanismo de configuración regional.

Esto puede provocar incoherencias o corrupción de los nombres de los archivos de un entorno local a otro.

El papel de las API de nivel superior es especializarse en diferentes tipos de archivos. La simplificación de la API permite considerar como archivos entidades que no necesariamente pertenecen a un sistema de archivos (canales de entrada / salida, memoria de acceso aleatorio) y manejar estas entidades de manera homogénea.

Esto se contrasta con sistemas de generaciones anteriores con APIs especializadas para cada componente físico o imponiendo estructuras en archivos en disco (direccionamiento secuencial indexado por ejemplo).

Ejemplo :

bajo Windows :
- C: \ WINNT \ system \ sys.ini - designación absoluta del archivo sys.ini ubicado en el directorio C: \ WINNT \ system \ ;
- sys.ini : designación relativa del archivo sys.ini , cuando el usuario está en el directorio C: \ WINNT \ system \ .
bajo Unix :
- / var / spool / mail / 4f - archivo de designación absoluta 4f ubicado en el directorio / var / spool / mail ;
- mail / r4f : designación relativa del archivo r4f en el subdirectorio mail , cuando el usuario está en el directorio / var / spool / .

Una vez que se designa el archivo, se puede enviar al software para su manejo. Algunas herramientas están destinadas a gestionar la ubicación de los archivos (mover, nombrar, copiar), otras gestionan el contenido de los archivos para que el usuario pueda modificarlos o simplemente consultarlos.

Notas y referencias

(en) EMC Services Educación - Lastemc, Almacenamiento de Información y Gestión: el almacenamiento, gestión y protección de la información digital , John Wiley and Sons - 2010, ( ISBN 9780470618332 )
(en) junio Jamrich Parsons y Dan Oja , Conceptos Ilustrado: Enhanced introductoria , Boston, Massachusetts. Londres, Cursos de Tecnología / Aprendizaje Cengage,30 de enero de 2009, 368 p. ( ISBN 978-0-324-78892-1 , leer en línea )
(en) Andreas Mauthe - Peter Thomas, sistemas de gestión de contenidos profesionales: el manejo de la información digital , John Wiley and Sons - 2004, ( ISBN 9780470855423 )
(en) FJM Laver, Introducción a los usos de las computadoras , Archivo CUP - 1976, ( ISBN 9780521290357 )
(en) Shibu, Introducción Para sistemas integrados 1E , Tata McGraw-Hill Education - 2009, ( ISBN 9780070145894 )
(en) John R. Levine , The Internet para los maniquíes , Hoboken, NJ, Wiley & Sons,2010( ISBN 978-0-470-56095-2 )
(in) KL JAMES, INTERNET: GUÍA DEL USUARIO , PHI Learning Pvt. Limitado. - 2010, ( ISBN 9788120340299 )
algunas extensiones en Internet
http://dvlf.uchicago.edu/mot/fiche .
http://dvlf.uchicago.edu/mot/fichier .
(en) Ilpo Laine - Olli Lehto - Tuomas Sorvali, Análisis complejo, Joensuu 1978: actas del Coloquio sobre análisis complejo, Joensuu, Finlandia, 24 al 27 de agosto de 1978 , Springer - 1979 ( ISBN 9780387095530 ) .
(en) James Samuel Coleman - Nancy L. Karweit, Sistemas de información y medidas de desempeño en las escuelas , Tecnología educativa - 1972 ( ISBN 9780877780380 ) .
(en) BC Wonsiewicz, Automatización informática de pruebas de materiales - STP 710 , ASTM International - 1980 ( ISBN 9780803102675 ) .
(en) Wai-Kai Chen, El manual de ingeniería eléctrica , Academic Press - 2005 ( ISBN 9780121709600 ) .
(en) Kevin M. White, Mac OS X Support Essentials v10.6 , Peachpit Press - 2009 ( ISBN 9780321635341 )
(en) Eoghan Casey, Manual de análisis forense digital e Investigación , Academic Press - 2009, ( ISBN 9780123742674 )
CIM_Datafile
CIM_DataFile en OpenLMI
(en) Kenneth H. Rosen - Douglas A. Host - Rachel Klee, UNIX: la referencia completa , McGraw-Hill Professional - 2006, ( ISBN 9780072263367 )
(en) Steve Moritsugu, Practical UNIX , Let Publishing - 2000 ( ISBN 9780789722508 )