IEEE 754

En informática , IEEE 754 es un estándar para aritmética de punto flotante desarrollado por el Instituto de Ingenieros Eléctricos y Electrónicos . Actualmente es el estándar más utilizado para calcular números de punto flotante con CPU y FPU . El estándar define los formatos para representar números de punto flotante ( signo , mantisa , exponente , números desnormalizados ) y valores especiales ( infinito y NaN ), junto con un conjunto de operaciones de punto flotante. También describe cinco modos de redondeo y cinco excepciones (incluidas las condiciones en las que se produce una excepción y lo que sucede en ese caso).

Historia

La versión original de IEEE 754, que data de 1985, definía cuatro formatos para representar números de punto flotante base 2:

precisión simple (32 bits: 1 bit de signo, 8 bits de exponente (−126 a 127), 24 bits de mantisa, incluido 1 bit implícito);
precisión simple extendida (≥ 43 bits, obsoleta, implementada en la práctica por doble precisión);
precisión doble (64 bits: 1 bit de signo, 11 bits de exponente (−1022 a 1023), 53 bits de mantisa, incluido 1 bit implícito);
precisión doble extendida (≥ 79 bits, a menudo implementada con 80 bits: 1 bit de signo, 15 bits de exponente (−16382 a 16383), 64 bits de mantisa, sin 1 bit implícito).

Por ejemplo, en el lenguaje C , el compilador gcc para arquitecturas compatibles con Intel de 32 bits usa el formato precisión simple para variables de tipo float , precisión doble para variables de tipo doble y precisión doble o precisión doble extendida (siguiendo el sistema operativo) para variables dobles largas . Sin embargo, si no se utiliza la extensión SSE2 , todos los cálculos se redondean con la misma precisión, según la configuración de precisión dinámica del procesador (normalmente precisión doble o precisión doble extendida, según el sistema operativo, las opciones de compilación y los cambios realizados por programas).

El título completo del estándar era Estándar IEEE para aritmética binaria de coma flotante (ANSI / IEEE Std 754-1985 ). También se conoce con el nombre de IEC 60559: 1989, Aritmética de coma flotante binaria para sistemas de microprocesador , lo que también lo convierte en un estándar (americano), ya que fue aprobado como referencia normativa en varias normas internacionales ISO. Sin embargo, este estándar se extendió mediante una revisión importante en 2008 a otros formatos básicos (binario en 128 bits y decimales en 64 y 128 bits), así como formatos de intercambio (agregando formatos que son menos precisos o más precisos) y formatos extendidos ( generalización del estándar de 1985, con más libertad de precisión y codificación que con formatos de intercambio); esta revisión también incluye modos de redondeo adicionales y requisitos de conformidad más estrictos con respecto a la precisión esperada de los cálculos y operaciones de funciones trascendentales básicas. Esta norma también fue revisada en 2019.

Formato de un número de coma flotante

Convenciones utilizadas en el artículo

En una palabra de longitud W, los bits se indexan de 0 a W - 1, inclusive. El bit 0 se coloca a la derecha y representa el bit menos significativo (es decir, el bit de unidades, que provocará la variación más pequeña si se cambia).

Formato general

Un número de coma flotante se compone de tres elementos: la mantisa , el exponente y el signo. El bit más significativo es el bit de signo : si este bit está en 1, el número es negativo y si está en 0, el número es positivo. Los siguientes e bits representan el exponente sesgado (excepto el valor especial), y los siguientes m bits ( m bits menos significativos) representan la mantisa.

Signo	Exponente de sesgo	Mantisa
(1 bit)	( e bits)	( m bits)

Sesgo del expositor

El exponente puede ser positivo o negativo. Sin embargo, la representación habitual de números con signo ( complemento a 2 ) haría que la comparación entre números de coma flotante fuera un poco más difícil. Para resolver este problema, el exponente se "sesga" para almacenarlo como un número sin signo.

Este sesgo es 2 e −1 - 1 ( e representa el número de bits en el exponente); por lo tanto, es un valor constante una vez que se fija el número de bits e .

Por tanto, la interpretación de un número (que no sea infinito) es: valor = signo × mantisa × 2 ( exponente - sesgo ) con

signo = ± 1
sesgo = 2 e −1 −1

Excepciones

El bit más significativo de la mantisa está determinado por el valor del exponente sesgado. Si el exponente sesgado es diferente de 0 y de , el bit más significativo de la mantisa es 1 y se dice que el número está "normalizado". Si el exponente sesgado es cero, el bit más significativo de la mantisa es cero y el número está desnormalizado . $2 ^ {e} - 1$

Hay tres casos especiales:

si el exponente sesgado y la mantisa son ambos cero, el número es ± 0 (dependiendo del bit de signo)
si el exponente sesgado es igual a , y si la mantisa es cero, el número es ± infinito (dependiendo del bit de signo) $2 ^ {e} - 1$
si el exponente sesgado es igual a , pero la mantisa no es cero, el número es NaN (no es un número: no es un número) . $2 ^ {e} - 1$

Podemos resumirlo de la siguiente manera:

Tipo	Exponente de sesgo	Mantisa
Ceros	0	0
Números desnormalizados	0	diferente de 0
Números normalizados	$1$ a $2 ^ e-2$	alguna
Infinito	$2 ^ e-1$	0
NaNs	$2 ^ e-1$	diferente de 0

Formato de precisión simple (32 bits)

Un número de coma flotante de precisión simple se almacena en una palabra de 32 bits: 1 bit de signo, 8 bits para el exponente y 23 para la mantisa.

Por lo tanto, el exponente está sesgado por en este caso. Por tanto, el exponente de un número normalizado va de -126 a +127. El exponente -127 (que está sesgado hacia el valor 0) está reservado para cero y números desnormalizados, mientras que el exponente 128 (sesgado hacia 255) está reservado para codificar infinitos y NaN (consulte la tabla anterior). $2 ^ {8-1} - 1 = 127$

Un número de coma flotante normalizado tiene un valor v dado por la siguiente fórmula:

v = s × 2 e × m .

s = ± 1 representa el signo (dependiendo del bit de signo);
e es el exponente antes de su sesgo de 127;
m = 1+ mantisa representa la parte significativa (en binario), por lo tanto, 1 ≤ m <2 ( mantisa es la parte decimal de la parte significativa, entre 0 y 1)

Por ejemplo, para 0b 0 01111100 01000000000000000000000: el signo es positivo, el exponente es 124-127 = −3 y la parte significativa es 0b 1.01, es decir, 1.25 en decimal (1 × 2 0 + 0 × 2 −1 + 1 × 2 - 2 ); el número representado es, por tanto, +1,25 × 2 −3 o +0,15625.

Los números desnormalizados siguen el mismo principio, excepto que e = −126 ym = 0+ mantisa (nota: para el cálculo, cuidaremos de tomar e = −126 y no −127, para garantizar la continuidad de esta representación con la representación normalizada, ya que m = 0+ mantisa y ya no m = 1+ mantisa ).

Notas:

Hay dos ceros: +0 y −0 (cero positivo y cero negativo), según el valor del bit de signo;
Hay dos infinitos: + ∞ y −∞, dependiendo del valor del bit de signo;
Los ceros y los números desnormalizados tienen un exponente sesgado de -127 + 127 = 0; todos los bits del campo "exponente" están, por tanto, en 0;
Los NaN y los infinitos tienen un exponente sesgado de 128 + 127 = 255; todos los bits del campo "exponente" están por lo tanto en 1;
Los NaN pueden tener un signo y una parte significativa, pero estos no tienen sentido como valor real (excepto para la señalización, que puede activar una excepción y la corrección de errores);
El número desnormalizado distinto de cero más cercano a cero es ± 2 −149 ≈ ± 1,401 298 5 × 10 −45 ;
El número normalizado distinto de cero más cercano a cero es ± 2 −126 ≈ ± 1,175 494 351 × 10 −38 ;
El número normalizado con el valor absoluto más grande es de ± (2-2 -23 ) x 2 127 ≈ ± 3,402 823 5 × 10 38 .

Aquí hay una tabla que resume la parte anterior, con ejemplos de números de 32 bits de precisión simple.

Tipo	Expositor	Mantisa	Valor aproximado	Desviación / anterior
Cero	0000 0000	000 0000 0000 0000 0000 0000	0.0
Número desnormalizado más pequeño	0000 0000	000 0000 0000 0000 0000 0001	1,4 × 10 −45	1,4 × 10 −45
Siguiente número desnormalizado	0000 0000	000 0000 0000 0000 0000 0010	2,8 × 10 −45	1,4 × 10 −45
Siguiente número desnormalizado	0000 0000	000 0000 0000 0000 0000 0011	4,2 × 10 −45	1,4 × 10 −45
Otro número desnormalizado	0000 0000	100 0000 0000 0000 0000 0000	5,9 × 10 −39
Mayor número desnormalizado	0000 0000	111 1111 1111 1111 1111 1111	1,175 494 21 × 10 −38
Número normalizado más pequeño	0000 0001	000 0000 0000 0000 0000 0000	1,175 494 35 × 10 −38	1,4 × 10 −45
Siguiente número estandarizado	0000 0001	000 0000 0000 0000 0000 0001	1,175 494 49 × 10 −38	1,4 × 10 −45
Casi el doble	0000 0001	111 1111 1111 1111 1111 1111	2.350 988 56 × 10 −38	1,4 × 10 −45
Siguiente número estandarizado	0000 0010	000 0000 0000 0000 0000 0000	2.350 988 70 × 10 −38	1,4 × 10 −45
Siguiente número estandarizado	0000 0010	000 0000 0000 0000 0000 0001	2.350 988 98 × 10 −38	2,8 × 10 −45
Casi 1	0111 1110	111 1111 1111 1111 1111 1111	0,999 999 94	0,6 × 10 −7
1	0111 1111	000 0000 0000 0000 0000 0000	1.000.000 00
Siguiente número 1	0111 1111	000 0000 0000 0000 0000 0001	1.000.000 12	1,2 × 10 −7
Casi el mayor número	1111 1110	111 1111 1111 1111 1111 1110	3.402 823 26 × 10 38
Mayor número estandarizado	1111 1110	111 1111 1111 1111 1111 1111	3.402 823 46 × 10 38	2 × 10 31
Infinito	1111 1111	000 0000 0000 0000 0000 0000	Infinito
Primer valor (desnormalizado) de la advertencia NaN	1111 1111	000 0000 0000 0000 0000 0001	no
NaN normalizado (alarma)	1111 1111	010 0000 0000 0000 0000 0000	no
Último valor (desnormalizado) de la advertencia NaN	1111 1111	011 1111 1111 1111 1111 1111	no
Primer valor (desnormalizado) de NaN silencioso	1111 1111	100 0000 0000 0000 0000 0000	no
Último valor (desnormalizado) de NaN silencioso	1111 1111	111 1111 1111 1111 1111 1111	no

Notas:

El valor del campo de mantisa de NaN que se muestra arriba es un ejemplo de NaN, pero no es el único valor posible para codificar un valor de NaN. Los valores de este campo que codifican NaN son todos valores posibles, excepto cero (que codifica para infinito);
Además, observe la diferencia, en la mayoría de las máquinas, entre un campo de mantisa que comienza con el bit 1, utilizado para los NaN silenciosos, y un campo de mantisa que comienza con el bit 0, que indica un NaN con advertencia. En algunas máquinas, sin embargo, como las basadas en PA-RISC , se ha hecho la elección opuesta (menos práctica).

Ejemplo complejo

Codifiquemos el número decimal −118,625 usando el mecanismo IEEE 754.

Primero, necesitamos el signo, el exponente y la parte fraccionaria. Es un número negativo, por lo que el signo es "1".
Luego escribimos el número (sin el signo) en binario . Obtenemos 1110110.101 (con sucesivas multiplicaciones por dos para la parte decimal).
A continuación, desplazamos la coma hacia la izquierda, de modo que solo dejamos un 1 a su izquierda: 1110110.101 (bin) = 1.110110101 (bin) × 2 6 . Es un número de punto flotante normalizado: la mantisa es la parte a la derecha del punto decimal, rellenada con 0 a la derecha para obtener 23 bits. Esto da 110 1101 0100 0000 0000 0000 (omitimos el 1 antes del punto decimal, que está implícito).
El exponente es igual a 6, y debemos convertirlo a binario y tener en cuenta el sesgo. Para el formato IEEE 754 de 32 bits, el sesgo es 2 8−1 −1 = 127. Entonces, 6 + 127 = 133 (dec) = 1000 0101 (bin).

Por lo tanto, tenemos −118,625 (dec) = 1100 0010 1110 1101 0100 0000 0000 0000 (bin) = C2ED4000 (hexa).

Formato de doble precisión (64 bits)

El formato de doble precisión es el mismo que el de precisión simple, excepto que los campos son más grandes. De hecho, tiene 52 bits de mantisa en lugar de solo 23 y 11 bits de exponente en lugar de solo 8.

La mantisa es muy amplia, mientras que el exponente no es muy amplio. Esto se debe a que, según los creadores del estándar, la precisión es más importante que la amplitud.

Los NaN y los infinitos se representan estableciendo todos los bits del exponente en 1 (2047), pero se distinguen estableciendo todos los 52 bits de la mantisa en 0 para los infinitos y al menos uno de estos 52 bits en 1 para el Nope. .

Para números normalizados, el sesgo del exponente es +1023. Para números desnormalizados, el exponente es −1022 (el exponente mínimo para un número normalizado). No es −1023 porque los números normalizados tienen un 1 antes del punto decimal y los números desnormalizados no. Como antes, el cero y el infinito están firmados.

Notas:

El número positivo más pequeño que no sea cero y el número negativo más grande que no sea cero (representado por un valor desnormalizado con todos los bits en el campo Exponente en 0 y el valor binario 1 en el campo Fracción) son: ± 2 −1074 ≈ ± 4,940 656 458412 465 4 × 10 −324
El número positivo normalizado más pequeño que no sea cero y el número negativo normalizado más grande que no sea cero (representado por el valor binario 1 en el campo Exp y 0 en el campo Fracción son: ± 2 −1022 ≈ ± 2,225 073 858 507201 4 × 10 −308
El número positivo finito más grande y el número negativo finito más pequeño (representado por el valor 2046 en el campo Exp y todos los bits 1 en el campo Fracción) son: ± (2 1024 - 2 971 ) ≈ ± 1,797 693 134 862 315 7 × 10 308

Comparar números de coma flotante

Por lo general, es mejor comparar números de punto flotante utilizando las instrucciones de cálculo de punto flotante. Sin embargo, esta representación hace posibles comparaciones de ciertos subconjuntos byte a byte, si tienen el mismo orden de bytes y el mismo signo, y los NaN están excluidos.

Por ejemplo, para dos números de coma flotante positivos a y b, la comparación entre a y b (>, <o ==) da los mismos resultados que la comparación de dos números con signo (o sin signo) con los mismos bits que a y B. En otras palabras, dos números de coma flotante positivos (que no son NaN) se pueden comparar con una comparación binaria con signo (o sin signo). Debido al problema del orden de bytes, esta comparación no se puede utilizar en código portátil.

Redondear números de coma flotante

El estándar IEEE especifica 5 modos de redondeo:

Hacia menos infinito;
Hacia el infinito más;
Hacia cero;
De cerca (2 variantes):
- cuando está a la mitad del valor más cercano que tiene su dígito incluso menos significativo (modo de redondeo predeterminado para formatos binarios);
- cuando está a la mitad, hacia el más alejado de cero (hacia arriba en valor absoluto);

Revisiones estándar

En junio 2008, IEEE ha aprobado una revisión importante de los estándares IEEE 754 e IEEE 854. Ver: IEEE 754-2008 (en) .

Esta revisión trae nuevos formatos base 2 y base 10, y especifica la representación de formatos base 10 (además de base 2).

También normaliza una relación de orden total para cada uno de los tipos de datos numéricos normalizados, complementando las relaciones de orden habituales que son sólo parciales; de hecho, la relación de orden normal es total solo con la condición de eliminar del conjunto de valores, el valor cero negativo (normalmente comparado como igual al valor cero positivo) y todos los valores de NaN (que no son ni iguales, ni superiores, ni inferior a cualquier otro, ni siquiera a ellos mismos).

Por otro lado, esta revisión deja la flexibilidad de representación y posible distinción de los valores de NaN (la posición y el valor de los bits de advertencia en el campo de mantisa no están estandarizados, y el uso de los otros bits de el campo de mantisa o el signo de un valor NaN para codificar un error sigue dependiendo de la arquitectura o las aplicaciones).

Se aprobó una nueva revisión en julio 2019.

Bibliografía

IEEE, estándar IEEE-754
David Goldberg, Lo que todo informático debería saber sobre la aritmética de punto flotante , Encuestas de computación de ACM, vol. 23, n o 1,Marzo de 1991.

Notas y referencias

(in) " El número 6 de especificaciones básicas de Open Group " .
(en) Estándar IEEE para aritmética de punto flotante (ANSI / IEEE Std 754-2008) , ( ISBN 978-0-7381-5753-5 ) .
(in) " Re: (long) sNaNs not What They could be ... " 15 de octubre de 2010.
(en) Revisión de ANSI / IEEE Std 754-1985; Borrador 754R aprobado como estándar IEEE , en www.validlab.com
(en) Revisión de ANSI / IEEE Std 754-1985; Borrador 754R aprobado como estándar IEEE , en 754r.ucbtest.org

enlaces externos

Aritmética de punto flotante multiplataforma determinista : Mucha información sobre las diferentes implementaciones de IEEE 754 en varias plataformas
(es) Convertidor binario : convertidor binario interactivo con precisión simple y doble según el estándar IEEE 754
Lista de artículos en la página Grupo de revisión estándar .

IEEE 754

Historia

Formato de un número de coma flotante

Convenciones utilizadas en el artículo

Formato general

Formato de precisión simple (32 bits)

Formato de doble precisión (64 bits)

Comparar números de coma flotante

Redondear números de coma flotante

Revisiones estándar

Bibliografía

Notas y referencias

enlaces externos

Artículos relacionados