Un archivo de computadora es en el sentido común, una colección, un conjunto de datos digitales recopilados con el mismo nombre, registrados en un medio de almacenamiento permanente, llamado memoria masiva , como un disco duro , un CD-ROM , una memoria flash o un banda magnética, una serie de tarjetas perforadas y manipuladas como una unidad.
Técnicamente, un archivo es información digital formada por una secuencia de bytes, es decir una secuencia de números, que permite varios usos.
Para facilitar su organización, los archivos se ordenan en sistemas de archivos que permiten colocarlos en ubicaciones denominadas directorios o carpetas, organizados ellos mismos según el mismo principio para formar una jerarquía de árbol.
Un archivo tiene un nombre de archivo que se utiliza para designar y acceder al contenido. Este nombre a menudo incluye, especialmente en el entorno Windows, un sufijo, la extensión , que proporciona información sobre la naturaleza de la información contenida en el archivo y, por lo tanto, del software que se puede utilizar para manejarlo. Cada archivo tiene una cantidad de metadatos (información sobre la información), como el sistema de archivos, la longitud del archivo, el autor, las personas autorizadas para manejarlo o la fecha de la última modificación.
La esencia del archivo es la información que contiene. El formato de archivo es la convención de que la información y los metadatos se digitalizan y secuencian en el archivo. El formato de archivo es propietario cuando el acuerdo es conocido solo por su autor y nunca se ha publicado. El formato de archivo se abre cuando la convención se hace pública para permitir la interoperabilidad del software que lo maneja. Dependiendo de la naturaleza y el formato del contenido, los archivos se pueden calificar como ejecutables, comprimidos, de texto, documentos, imágenes, audio o videos.
Antes de la llegada de las computadoras, los archivos eran pilas de fichas reunidas en archivadores. El uso de computadoras y almacenamiento magnético ha hecho que sea más fácil y rápido manejar archivos grandes como los que se utilizan en el comercio y la administración pública. La manipulación de archivos es uno de los servicios clásicos que ofrecen los sistemas operativos .
El contenido es la esencia del archivo. Hay cientos, si no miles, de tipos de archivos, que difieren en la naturaleza del contenido, el formato, el software utilizado para manipular el contenido y el uso que hace la computadora. La naturaleza del contenido puede ser texto, imágenes, audio o video.
El formato de archivo es la convención de que la información se digitaliza y se organiza en el archivo y se utiliza el empaque en el que estarán el contenido y los metadatos. La extensión, cuando está presente, añade un sufijo al nombre del archivo, con el fin de proporcionar información sobre el formato del archivo y, por lo tanto, sobre el software que se puede utilizar para manejarlo. Cada archivo se puede guardar en cualquier lugar del sistema de archivos y el software que lo manipula proporciona una ubicación de almacenamiento convencional. Se dice que algunos formatos son propietarios , es decir, que el formato es conocido solo por su autor y nunca ha sido publicado.
apellido | Naturaleza del contenido | Extensiones |
---|---|---|
ejecutables | archivos que pueden ser ejecutados por la computadora, es decir, programas . | .exe, .com, .sh, .bat, ... |
comprimido | archivos codificados en un proceso que los hace más pequeños que los archivos originales sin cifrar. Es necesario un programa descompresor para realizar la codificación inversa y así encontrar el archivo original. ver compresión de datos . | .arc, .zip, .rar, .z, .arj, .sit, .gz, .7z, ... |
fotos | archivos que contienen imágenes y sonido en una forma que la computadora puede leer. Dichos archivos pueden contener fotos, pictogramas, gráficos, canciones, música, transmisiones de radio o películas. | .gif, .jpg, .bmp, .png, .eps, .tif, ... |
audio | .au, .wav, .mp3, oga, .ram, ... | |
video | .avi, .mpg, .mov, ... | |
documentos | documentos escritos, destinados a ser impresos y leídos. El archivo contiene el texto y la información de tipografía ( fuentes , colores). | .docx, .odt, .html, .doc, ... |
texto | lisos archivos de texto contienen texto escrito, sin indicaciones tipográficas. Puede ser texto destinado a los usuarios, como instrucciones de uso o borradores; o bien textos destinados a la computadora, como el código fuente o los datos de un programa. | .txt, .html, .ini, .csv, .log, .conf, .c, ... |
El ARCHIVO - recolección de inteligencia - es una práctica que se remonta a la antigüedad. Las primeras cartas en el sentido de portadores de información fueron placas grabadas por los babilonios en el 400 a. C. J.-C .. A finales del siglo XIX E , el término tarjeta se define (entre otros) como una "hoja de cartón en la que se escriben los títulos de las obras, que se clasifican alfabéticamente en casillas, y se utiliza para encontrar el volumen en la biblioteca. También se utiliza para preparar tablas de contenido ”. De allí se deriva posteriormente el término archivo , que designa una colección de archivos y, por extensión, el mobiliario destinado a contenerlos.
A principios del XX ° siglo, antes de la llegada de las computadoras, el uso de hojas de datos era común en muchas áreas. La información se registró en hojas de papel o cartón, documentos, formularios, archivos, almacenados en los cajones de un armario. Los archivos más grandes se encontraron en la administración pública, el comercio y la industria en particular. Guardar y luego actualizar toda la información contenida en los documentos requirió un esfuerzo considerable y consumió mucho tiempo. Podría simplificarse mediante el uso de tarjetas perforadas, que podrían ser leídas por máquinas.
En 1950, los archivos de computadora se presentaban en forma de una pila de tarjetas perforadas , que un dispositivo leía sin intervención humana. Por lo tanto, podrían procesarse 100 veces más rápido que si la información se hubiera ingresado manualmente. Sin embargo, estos archivos eran grandes y fueron rápidamente reemplazados por dispositivos de almacenamiento magnéticos, más compactos y rápidos: un carrete de cinta magnética puede contener tanta información como una pila de tarjetas de 60 metros de altura y el contenido de la banda magnética se puede leer 100 veces. más rápido que el de un archivo de tarjeta perforada.
La organización de los archivos de cinta magnética era similar a la de los archivos de tarjetas perforadas: estaban formados por grabaciones , cada registro correspondía a un conjunto de información sobre el mismo tema. Cada registro contenía varios campos , que contenían información relacionada con el tema. En el caso de un archivo relativo a un alumno, por ejemplo, los diferentes campos podrían contener apellido, nombre, edad, resultados académicos, etc. Se podría distribuir información diversa sobre el mismo tema entre diferentes archivos. Las tarjetas grabadas en cinta magnética se leyeron una a una, en el orden en que fueron grabadas en la cinta; este proceso denominado archivo secuencial se utilizó para la liquidación de salarios, así como para las suscripciones telefónicas y de gas.
Desde 1980, sistemas operativos como Unix ofrecen la posibilidad de almacenar grandes cantidades de información, buscarla y clasificarla a modo de bloc de notas en una jerarquía donde cada directorio puede contener otros directorios.
En la década de 1950, la información destinada a la manipulación informática eran pilas de fichas de cartón. Luego fueron reemplazados por grabaciones digitales en cinta magnética , lo que permitió acelerar los cálculos y ahorrar espacio. El dispositivo de lectura lee la cinta en bloques de unos 1000 bytes y la cinta tiene un directorio , una especie de catálogo que contiene los nombres de todos los archivos grabados en la cinta. Durante la reproducción, el dispositivo desenrolla la cinta y reproduce el contenido del archivo en el orden en que fue grabado; este es el proceso de archivo secuencial .
En 2010, la manipulación de archivos es un servicio clásico ofrecido por los sistemas operativos . El sistema operativo le permite crear, modificar o eliminar archivos y directorios; reserva el espacio necesario en el medio de almacenamiento para contenido y metadatos e impone convenciones sobre los nombres de archivos y directorios. Los medios se dividen en bloques de tamaño fijo. El software mantiene las estructuras necesarias para mantener la jerarquía de directorios y distribuir archivos y metadatos en el medio de almacenamiento.
Normalmente, guardar el archivo requiere varios bloques. se dice que el archivo está fragmentado si los bloques no son contiguos. Los metadatos que acompañan a los archivos son: la extensión del archivo, su autor, las personas autorizadas para manejarlo, la fecha de la última modificación, así como la lista de espacios libres en el medio.
Los sistemas operativos Mac OS de Apple crean dos jerarquías de medios de almacenamiento: una está destinada a guardar el contenido del archivo, mientras que la otra, la bifurcación de recursos, está destinada a contener los metadatos.
El software NTFS de Microsoft almacena metadatos en el archivo $ MFT y $ Secure , la información estándar almacenada en estos archivos son las fechas de creación, modificación y manipulación del archivo.
Varios formatos de archivo le permiten guardar metadatos dentro del archivo. Este es el caso del formato de documentos PDF , imágenes digitales en formato JPEG así como documentos en formatos de Microsoft Office .
En el estándar CIM Schema , la clase CIM_DataFile se asigna a archivos de computadora. Representa una colección con nombre de datos o código ejecutable, almacenado en discos fijos locales.
Además de los archivos y directorios, los sistemas operativos Unix le permiten guardar enlaces y archivos especiales .
Un enlace permite compartir archivos entre varios usuarios, permite obtener que un solo contenido esté disponible con varios nombres diferentes ubicados en diferentes directorios, sin necesidad de realizar copias. Los cambios realizados en el contenido por uno de los usuarios son inmediatamente visibles para los demás. Hay dos tipos de enlaces: el enlace físico y el enlace simbólico ( enlace simbólico ).
Los archivos especiales son una característica específica de los sistemas operativos Unix únicamente. Un archivo especial representa una pieza de hardware, como una impresora o una unidad de CD - ROM , que luego se puede manejar de la misma manera que un archivo normal: lea y escriba en el dispositivo utilizando los mismos comandos solo para leer y escribir un archivo normal .
El sistema operativo Macintosh utilizó un formato de archivo avanzado (compatible con HFS y HFS + ) que tiende a desaparecer de la décima versión . Este formato, además de una cierta cantidad de metadatos , prevé dos formas de datos: la rama de datos ( bifurcación de datos ), correspondiente al archivo de cualquier sistema operativo , y la rama de recursos ( bifurcación de recursos ), tipo de directorio que contiene las unidades más pequeñas de datos llamadas recursos, clasificadas por su tipo . La ventaja en comparación con el archivo monolítico ordinario es doble: primero, la aplicación puede usar las API del sistema ( Macintosh Toolbox ) para administrar los datos en la memoria; en segundo lugar, el usuario ve un archivo simple al que llama documento mientras contiene datos heterogéneos, como un directorio. Todo es escalable ya que siempre puedes agregar nuevos tipos de recursos sin modificar el formato original del archivo. Desde Mac OS X, la noción de bundle (documento que, de hecho, es un directorio), retoma las principales ventajas de la rama de recursos. Por tanto, un documento ya no es necesariamente un archivo.
Dos archivos son idénticos si tienen el mismo tamaño y si contienen la misma información en el mismo orden. Desafortunadamente, comparar todos los bytes de dos archivos potencialmente idénticos es una operación larga (proporcional al tamaño del archivo). Tampoco siempre es posible, como en el caso de transportar un archivo de un punto a otro, ya sea a través de un medio físico o por la red.
Se utilizan diferentes métodos para verificar la integridad de un archivo:
Además, un archivo se puede cifrar o comprimir , o ambos simultáneamente.
Los sistemas operativos permiten a los usuarios, así como a los desarrolladores de software , acceder a un archivo en un sistema de archivos a través de un estándar de nomenclatura y manipularlo de acuerdo con una API .
La API básica introducida por UNIX considera que los archivos son planos, no estructurados y no admite el almacenamiento en búfer a nivel de usuario. La API básica hace poco más que definir una posición actual, leer o escribir. También puede truncar o ampliar un archivo. En este nivel, un archivo es, por tanto, solo una secuencia de bytes .
En POSIX y Unix, los nombres de archivo se consideran una secuencia de bytes, mientras que en Windows se consideran unicode. Por lo tanto, en Windows, las API de acceso a archivos se duplican, una permite el acceso con el nombre unicode en UTF-16 y la otra permite que los archivos se nombren utilizando una cadena de bytes a través de un mecanismo de configuración regional.
Esto puede provocar incoherencias o corrupción de los nombres de los archivos de un entorno local a otro.
El papel de las API de nivel superior es especializarse en diferentes tipos de archivos. La simplificación de la API permite considerar como archivos entidades que no necesariamente pertenecen a un sistema de archivos (canales de entrada / salida, memoria de acceso aleatorio) y manejar estas entidades de manera homogénea.
Esto se contrasta con sistemas de generaciones anteriores con APIs especializadas para cada componente físico o imponiendo estructuras en archivos en disco (direccionamiento secuencial indexado por ejemplo).
Ejemplo :
Una vez que se designa el archivo, se puede enviar al software para su manejo. Algunas herramientas están destinadas a gestionar la ubicación de los archivos (mover, nombrar, copiar), otras gestionan el contenido de los archivos para que el usuario pueda modificarlos o simplemente consultarlos.