Textos¶
Un texto es una secuencia de caracteres, donde cada letra del alfabeto tiene asignado un código numérico. Ya hemos visto como ejemplo la palabra “Hola”, que es una secuencia de cuatro caracteres:
Byte | Carácter | Código | En binario | En hexadecimal |
---|---|---|---|---|
1º byte | H | 72 | 0100 1000 | 48 |
2º byte | o | 111 | 0110 1111 | 6F |
3º byte | l | 108 | 0110 1100 | 6C |
4º byte | a | 97 | 0110 0001 | 61 |
Por lo tanto, esta palabra se almacenará en la memoria RAM haciendo uso de cuatro bytes, y mediante la siguiente secuencia de bits:
0100 1000 0110 1111 0110 1100 0110 0001
o lo que es lo mismo, en hexadecimal:
48 6F 6C 61
Dentro de un texto podemos incluir dígitos numéricos, que serán considerados como caracteres regulares:
Carácter | Código | En binario | En hexadecimal |
---|---|---|---|
0 | 48 | 0011 0000 | 30 |
1 | 49 | 0011 0001 | 31 |
2 | 50 | 0011 0010 | 32 |
3 | 51 | 0011 0011 | 33 |
4 | 52 | 0011 0100 | 34 |
5 | 53 | 0011 0101 | 35 |
6 | 54 | 0011 0110 | 36 |
7 | 55 | 0011 0111 | 37 |
8 | 56 | 0011 1000 | 38 |
9 | 57 | 0011 1001 | 39 |
Las mayúsculas y minúsculas son caracteres diferentes:
Carácter | Código | En binario | En hexadecimal |
---|---|---|---|
A | 65 | 0100 0001 | 41 |
a | 97 | 0110 0001 | 61 |
El espacio en blanco es un carácter más, representado con un código 32 en decimal, 20 en hexadecimal y 0010 0000
en binario.
Los símbolos de puntuación son caracteres:
Carácter | Código | En binario | En hexadecimal |
---|---|---|---|
! |
33 | 0010 0001 | 21 |
" |
34 | 0010 0010 | 22 |
# |
35 | 0010 0011 | 23 |
$ |
36 | 0010 0100 | 24 |
% |
37 | 0010 0101 | 25 |
& |
38 | 0010 0110 | 26 |
' |
39 | 0010 0111 | 27 |
( |
40 | 0010 1000 | 28 |
) |
41 | 0010 1001 | 29 |
* |
42 | 0010 1010 | 2A |
+ |
43 | 0010 1011 | 2B |
, |
44 | 0010 1100 | 2C |
- |
45 | 0010 1101 | 2D |
. |
46 | 0010 1110 | 2E |
/ |
47 | 0010 1111 | 2F |
Existe un caso especial de caracteres denominados “de control”. Cuando enviamos texto a una impresora, por ejemplo, lo que transmitimos es una secuencia de códigos. Un código 10 representa un salto de línea, un 9 es un tabulador, un 12 sirve para saltar a la página siguiente, y así sucesivamente.
Codificaciones¶
¿Quien determina el código asignado a cada letra del alfabeto? En los inicios de la informática, cada fabricante de ordenadores tenía su propia codificación, pero cuando surgió la necesidad de transmitir datos de una máquina a otra, hubo que llegar a un acuerdo y establecer codificaciones estándar.
Históricamente la codificación más popular ha sido ASCII, abreviatura de Código Estándar Americano para Intercambio de Información. Véase una lista de los códigos asignados a cada carácter en la Wikipedia. Los ejemplos vistos en el apartado anterior siguen ese estándar.
ASCII presenta un problema importante: solo recoge los caracteres del alfabeto inglés, así como los dígitos numéricos y los símbolos de puntuación, como es el caso de las comillas, paréntesis, punto y coma, etcétera. Pero no se incluyen caracteres como la ñ española, las francesas æ y œ, o la alemana ß, por ejemplo. Tampoco admite vocales acentuadas.
Para solucionarlo surgieron distintas versiones de ASCII ampliadas. Una de las más populares fue la ISO 8859-1, que añade caracteres de la Europa occidental. Esta codificación también es conocida como Latin-1.
Tanto ASCII como Latin-1 utilizan un byte para cada carácter, quedando limitado a un juego máximo de 256 caracteres, es decir, el número de combinaciones que tenemos con 8 bits. Sin embargo esto es claramente insuficiente para representar idiomas fuera del ámbito europeo.
Fruto de esta inquietud, en la década de 1980 surgió un grupo de trabajo impulsado por Xerox y Apple, para elaborar una propuesta de caracteres de 16 bits, lo que proporciona una capacidad de 65.536 combinaciones diferentes. Finalmente se creó el consorcio UNICODE, integrado actualmente por importantes empresas como Adobe, Apple, Facebook, Google, IBM o Microsoft, por ejemplo. A lo largo de los años se han ido desarrollando tres codificaciones principales que llegan a utilizar hasta 32 bits por carácter, representando más de cien mil caracteres. Incluye todos los idiomas del mundo, símbolos matemáticos, técnicos, musicales, iconos, emojis, y un largo etcétera. Periódicamente se van incluyendo nuevas versiones con caracteres añadidos.
Las tres codificaciones de Unicode son:
-
UTF-8. Cada carácter puede ocupar uno, dos, tres o cuatro bytes, según el caso. Los caracteres del alfabeto anglosajón ocupan un byte y coinciden con la codificación ASCII.
-
UTF-16. Cada carácter se representa con 16 bits. El conjunto de caracteres que se pueden representar así se denomina “plano básico multilingüe”. Los caracteres extra que no forman parte de este conjunto, requieren 32 bits cada uno.
-
UTF-32. Es la codificación más simple, ya que todos los caracteres ocupan 32 bits.
Veamos algunos ejemplos.
La letra A
mayúscula se representa de la siguiente forma:
- ASCII:
01000001
, en hexadecimal,41
(un byte) - Latin-1:
01000001
, en hexadecimal,41
(un byte). Coincide con ASCII. - UTF-8:
01000001
, en hexadecimal,41
(un byte). Coincide con ASCII. - UTF-16:
00000000 01000001
, en hexadecimal,00 41
(dos bytes). - UTF-32:
00000000 00000000 00000000 01000001
, en hexadecimal,00 00 00 41
(cuatro bytes).
UTF 16 y UTF 32 tienen dos variantes cada una. En los ejemplos hemos usado UTF-16BE y UTF32BE respectivamente, pero tenemos las variantes UTF-16LE y UTF32LE, que consisten en poner los bytes al revés:
- UTF-16BE:
00 41
(16 bits) - UTF-32BE:
00 00 00 41
(32 bits) - UTF-16LE:
41 00
(16 bits) - UTF-32LE:
41 00 00 00
(32 bits)
Los caracteres que no forman parte del juego ASCII, requieren más bytes en el caso de estándares Unicode. Por ejemplo:
- Letra Ñ en UTF-8:
C3 91
, en binario,11000011 10010001
(16 bits) - Letra Ñ en UTF-16:
00 D1
, en binario,00000000 11010001
(16 bits) - Letra Ñ en UTF-32:
00 00 00 D1
(32 bits) - Letra Ñ en latin-1:
D1
(8 bits)
Símbolos matemáticos: infinito ∞
- UTF-8:
E2 88 9E
en hexadecimal (tres bytes) - UTF-16:
22 1E
(dos bytes) - UTF-32:
00 00 22 1E
(cuatro bytes)
Emojis: 😀
- UTF-8:
F0 9F 98 80
(cuatro bytes) - UTF-16:
D8 3D DE 00
(cuatro bytes) - UTF-32:
00 01 F6 00
(cuatro bytes)
Véase que la codificación más simple y con más capacidad es la UTF-32. Sin embargo, también es la que supone mayor gasto de memoria, en términos de número de bits utilizados. UTF-8 es aparentemente la más compleja, por utilizar un número variable de bytes dependiendo del carácter, pero es una codificación muy popular, dado que es la que menos gasto supone y que, en el caso de limitarnos al alfabeto anglosajón, es totalmente compatible con ASCII.
¿Como podemos averiguar el código correspondiente a cada carácter? En Internet existen multitud de páginas de consulta. Basta con introducir el término de búsqueda “tabla de caracteres unicode”.
Siendo UTF-8 la más popular, ¿como funciona? Supongamos un texto formado por una secuencia de bytes cuyo primer byte es C3
, en hexadecimal. ¿Es un carácter por si mismo o forma parte de una secuencia de dos, tres o cuatro bytes? Lo que hará el ordenador será analizar los bits:
- Si el primer bit es un cero, el byte representa un carácter
- Si el primer bit es un uno, el byte forma parte de un carácter de varios bytes:
- Si el segundo bit es un uno, se trata del primer byte del carácter. El número de unos antes de encontrar un cero nos dice cuantos bytes forman el carácter
- Si el segundo bit es un cero, es un byte de continuación.
Veamos un ejemplo. Supongamos que al recorrer un texto encontramos un byte 11000011
. Como el primer bit es un uno, asumimos que hay más bytes, y como al principio hay dos unos, deducimos que el carácter está formado por dos bytes, y que el segundo viene a continuación.
En resumen, en UTF-8 tenemos los siguientes patrones:
- Caracteres de 1 byte:
0nnnnnnn
- Caracteres de dos bytes:
110nnnnn 10nnnnnn
- Caracteres de tres bytes:
1110nnnn 10nnnnnn 10nnnnnn
- Caracteres de cuatro bytes:
11110nnn 10nnnnnn 10nnnnnn 10nnnnnn