Arikah Map

Unicode

Unicode
Jeux de caractères
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
Codage
Autres transformations
Applications d'échanges de données

Unicode est une norme informatique, développée par le Consortium Unicode, qui vise à donner à tout caractère de n'importe quel système d'écriture de langue un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel.

Aujourd’hui totalement compatible avec ISO/CEI 10646, la norme Unicode lui ajoute un modèle de représentation et de traitement de textes complets, en conférant à chaque caractère un jeu de propriétés normalisées ou informatives, en décrivant avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d’un texte, et en normalisant des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés, tout en étendant l’interopérabilité de la représentation de ces textes sur des systèmes hétérogènes.

On peut aujourd’hui dire que la norme Unicode inclut intégralement la norme ISO/CEI 10646 en tant que sous-ensemble, puisque cette dernière ne normalise que les caractères individuels en leur assignant un nom et un numéro normatif et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation pour leur emploi dans l’écriture de langues réelles, ce que seule la norme Unicode définit précisément. Toutefois, la norme ISO/CEI 10646 confère à Unicode le statut de norme internationale approuvée pour le codage des textes ; Unicode est également une norme de facto pour le traitement de ces textes, et sert aujourd’hui de base à de nombreuses autres normes.



Sommaire

But

Tables Unicode
0000 – 0FFF 8000 – 8FFF
1000 – 1FFF9000 – 9FFF
2000 – 2FFFA000 – AFFF
3000 – 3FFFB000 – BFFF
4000 – 4FFFC000 – CFFF
5000 – 5FFFD000 – DFFF
6000 – 6FFFE000 – EFFF
7000 – 7FFFF000 – FFFF
Autres plans Unicode
0000 – 0FFF plan BMP
10000 – 10FFFplan SMP
20000 – 20FFFplan SIP
30000 – D0FFFplans réservés
E0000 – E0FFFplan SSP
F0000 – F0FFFplan privé - A
100000 – 100FFFplan privé - B

Unicode, dont la première publication remonte à 1991, a été développée dans le but de remplacer l'utilisation de pages de code nationales.

Ces pages de code présentaient en effet quelques problèmes. Par exemple lorsqu'était prévu un caractère « signe monétaire », le même texte autorisant aux États-Unis une dépense en dollars pouvait une fois transmis par courrier électronique au Royaume-Uni autoriser la même dépense en livres sterling, sans que quoi que ce soit ait été modifié au texte !

Dans la pratique, tous les systèmes d'écriture ne sont pas encore présents, car un travail de recherche documentaire auprès de spécialistes peut encore s'avérer nécessaire pour des caractères rares ou des systèmes peu connus (parce que disparus, par exemple).

Cependant, tous les systèmes les plus utilisés dans le monde sont représentés, ainsi que des règles sur la sémantique des caractères, leurs compositions et la manière de combiner ces différents systèmes. — Par exemple, comment insérer un système d'écriture de droite à gauche dans un système d'écriture de gauche à droite (Texte bi-directionnel).

Normes et versions

Le travail sur Unicode est parallèle et synchronisé avec celui sur la norme ISO/CEI 10646 dont les buts sont les mêmes. L’ISO/CEI 10646, une norme internationale publiée en français et en anglais, ne précise cependant ni les règles de composition de caractères, ni les propriétés sémantiques des caractères.

Unicode aborde cependant la problématique de la casse, du classement alphabétique, et de la combinaison d’accents et de caractères. Depuis la version 1.1 d’Unicode et dans toutes les versions suivantes, les caractères ont les mêmes identifiants que ceux de la norme ISO/CEI 10646 : les répertoires sont maintenus parallèlement, à l’identique lors de leur normalisation définitive, les deux normes étant mises à jour simultanément. Les deux normes Unicode (depuis la version 1.1) et ISO/CEI 10646 assurent une compatibilité ascendante totale : tout texte conforme à une version antérieure doit rester conforme dans les versions ultérieures.

Ainsi les caractères de la version 3.0 d’Unicode sont ceux de la norme ISO/CEI 10646:2000. La version 3.2 d’Unicode classait 95 221 caractères, symboles et directives.

L’actuelle version 4.1.0 d’Unicode, mise à jour en novembre 2005, contient :

soit un total de près de 245 000 points de codes assignés dans un espace pouvant contenir 1 114 112 codes différents.

Quelques problèmes semblent cependant exister, pour le codage des caractères chinois, à cause de l’unification des jeux idéographiques utilisés dans différentes langues, avec une calligraphie légèrement différente et parfois signifiante, mais ils sont en cours de résolution par Unicode qui a défini des sélecteurs de variantes et ouvert un registre de séquences normalisées qui les utilise.

Les couches d’Unicode

Unicode est défini suivant un modèle en couches (Note technique Unicode #17). Les autres normes ne faisaient typiquement pas de distinction entre le jeu de caractères et la représentation physique. Les couches sont ici présentées en partant de la plus haute (la plus éloignée de la machine).

Jeu de caractères abstraits (Abstract Character Repertoire)

La couche la plus élevée est la définition du jeu de caractères. Par exemple, Latin-1 a un jeu de 256 caractères et Unicode normalise actuellement plus de 120 000 caractères. En outre, Unicode leur donne des noms. Dresser la liste des caractères et leur donner des noms est donc la première couche d’Unicode.

Par exemple, le caractère Ç est nommé "Lettre majuscule latine c cédille".

Cette définition est totalement identique avec celle de l’ISO/CEI 10646, qui approuve toute extension du répertoire. Il faut noter qu’Unicode ne reprend dans le texte de sa norme que les noms normatifs en Anglais, mais que la norme ISO/CEI 10646 est publiée en deux langues également normatives. Aussi les noms en anglais et en français sont tous deux normalisés.

Dans les faits, toute extension du répertoire se fait aujourd’hui conjointement entre le Groupe de travail WG2 de l’ISO/CEI 10646 (dont les membres votants sont uniquement des autorités de normalisation nationales de tous les pays du monde, ou leur représentant officiel), et le Comité technique Unicode UTC (dont les membres votants peuvent être n’importe quelle organisation privée ou d’intéret public, ou même un gouvernement, qui a adhéré et paye une redevance annuelle leur permettant de participer à ces décisions).

Jeu de caractères codés (Coded Character Set)

Ici, on ajoute à la table précédente un index numérique. Notons bien qu’il ne s’agit pas d’une représentation en mémoire, juste d’un nombre.

Ce nombre, le point de code, est noté U+xxxx où xxxx est en hexadécimal, et comporte 4 chiffres pour tous les points de codage du premier plan de base multilingue (donc entre U+0000 et U+FFFF), 5 chiffres pour les 15 plans suivants (entre U+10000 et U+FFFFF), ou 6 chiffres pour le dernier plan (entre U+100000 et U+10FFFF).

Ainsi, le caractère nommé "Lettre majuscule latine c cédille" a un index de U+00C7.

Il faut noter que tous les points de code entre U+0000 et U+10FFFF sont valides, même si certains sont réservés et pas encore assignés à des caractères, ou si certains points de code sont assignés à des non-caractères (par exemple U+FFFE ou U+FFFF) dont l’usage est interdit dans un texte, ou sont réservés pour permettre l’encodage de n’importe quel texte conforme avec une des formes de transformation standard Unicode (voir UTF-16, plus bas).

On notera également qu’Unicode (ou ISO/CEI 10646) a assigné de nombreux points de code à des caractères valides mais dont la sémantique est inconnue car d’usage privé (par exemple les deux derniers plans entre U+F0000 et U+10FFFF sont entièrement dédiés à cet usage, hormis les deux points de code à la fin de chaque plan qui sont des non-caractères interdits dans un texte conforme).

Là encore, la normalisation du codage, c’est-à-dire l’assignation des points de codes aux caractères du répertoire commun est une décision conjointe partagée entre les normes Unicode et ISO/CEI 10646. Tous les caractères du répertoire disposent d’un point de code unique (même si pour certaines langues ou pour Unicode certains caractères sont considérés comme équivalent).

On peut noter que si le répertoire des caractères est extensible, il ne l’est que dans les limites permises par le codage des points de code assignables aux caractères codés. Une grande majorité des points de code possibles n’est pas assignée à un caractère particulier, mais peut le devenir à tout moment.

Aussi ces points de code encore libres ne sont pas considérés comme invalides mais représentent bien des caractères abstraits (non encore spécifiés, et temporairement réservés). Ces caractères abstraits (de même que les caractères à usage privé) complètent le jeu de caractères codés du répertoire normalisé pour former un jeu unique dit « jeu de caractères codés universel » (Universal Coded Character Set, souvent abrégé en UCS) qui contient tous les jeux de caractères codés des répertoires de chacune des versions passées, présentes et futures de l’ISO/IEC 10646 et d’Unicode (depuis la version 1.1 uniquement).

Forme codée en mémoire (Character Encoding Form)

Cette fois, nous arrivons à une représentation en mémoire : cette couche spécifie quelles unités de stockage (code units), octets ou bien mots de 16 - seizets - ou de 32 bits, vont représenter un caractère ou plus exactementun point de code.

Mécanisme de sérialisation des caractères (Character Encoding Scheme)

Cette couche s’occupe de sérialiser les unités de stockage définies par la couche du dessus. C’est ici que se traite l’opposition entre gros boutiens (octet le plus significatif d’abord) et petits boutiens (octet le moins significatif d’abord).

C’est également ici qu’on spécifie la marque de boutianité (BOM, pour Byte Order Mark) qui permet d’indiquer en début de fichier s’il est en gros boutien ou en petit boutien. Dans le monde Internet, on l’utilise rarement, en préférant un marquage explicite (“charset=UTF-16BE” en MIME, par exemple, pour indiquer un flot de données gros boutien, où BE signifie Big Endian).

Surcodage de transfert (Transfer Encoding Syntax)

Ici, interviennent optionnellement les mécanismes de compression ou de chiffrement.

Il peut aussi y avoir un surencodage comme pour le LDAP qui spécifie que les chaînes Unicode doivent être encodées en UTF-8 et surencodées en Base64.

La limite de l’octet

Contrairement aux normes précédentes, Unicode sépare la définition du jeu de caractères (la liste des caractères, leur nom et leur index, le point de code) de celle de l’encodage. Ainsi, on ne peut donc pas parler de la taille d’un caractère Unicode, car elle dépend de l’encodage choisi.

Là où l’ASCII utilisait jadis 7 bits et ISO 8859-1 8 bits (comme la plupart des pages de codes nationales), Unicode, qui rassemble les caractères de chaque page de code, avait besoin d’utiliser plus que les 8 bits d’un octet. La limite fut dans un premier temps fixée à 16 bits pour les premières versions d’Unicode, et à 32 bits pour les premières versions de la norme ISO/IEC 10646.

La limite actuelle est désormais placée entre 20 et 21 bits par point de code assigné aux caractères normalisés dans les deux normes, désormais mutuellement compatibles :

UTF, Universal Transformation Format

Unicode et ISO/IEC 10646 acceptent plusieurs formes de transformation universelle pour représenter un point de code valide. Citons :

Le nombre après UTF représente le nombre minimal de bits des codets avec lequels un point de code valide est représenté.

Ces transformations ont été initialement créées pour la représentation interne et les schémas de codage des points de code de la norme ISO 10646, qui au départ pouvait définir des points de code sur 31 bits. Depuis, la norme ISO/IEC10646 a été amendée, afin que les trois formes soient totalement compatibles entre elles et permettent de coder tous les points de code (car UTF-16 ne permet de représenter que les points de code des 17 premiers plans).

Unicode a normalisé également de façon très stricte ces trois formes de transformation de tous les points de code valides (U+0000 à U+D7FF et U+E000 à U+10FFFF) et uniquement eux, que ce soit pour représenter du texte sous forme de suites de points de codes, ou des points de code assignés aux caractères valides, ou réservés, ou assignés à des non-caractères. Il faut noter que les points de code assignés aux demi-zones (U+D800 à U+DFFF), utilisés uniquement en UTF-16, sont invalides isolément puisqu’il servent à la représentation, par un couple de 2 codets de 16 bits, des points de code des 16 plans supplémentaires.

UTF-8

L’UTF-8, spécifié dans le RFC 2279, est le plus commun pour les applications Unix et Internet. Son codage de taille variable lui permet d’être en moyenne moins coûteux en occupation mémoire. Mais cela ralentit nettement les opérations où interviennent des extractions de sous-chaînes, car il faut compter les caractères depuis le début de la chaîne pour savoir où se trouve le premier caractère à extraire.

L’UTF-8 assure aussi, et c’est son principal avantage, une compatibilité avec les manipulations simples de chaînes en ASCII dans les langages de programmation. Ainsi, les programmes écrits en C (langage) peuvent souvent fonctionner sans modification.

Initialement, l’UTF-8 pouvait coder n’importe quel point de code entre U+0000 et U+8FFFFFFF (donc jusqu’à 31 bits). Cet usage est obsolète et la norme ISO/IEC 10646 a été amendée pour ne plus supporter que les points de code valides des 17 premiers plans, sauf ceux de la demi-zone correspondant aux codets utilisés en UTF-16 pour la représentation sur deux codets des points de code des 16 plans supplémentaires. Aussi les séquences les plus longues en UTF-8 nécessitent au maximum 4 octets, au lieu de 6 précédemment.

De plus, UTF-8 a été amendé d’abord par Unicode puis par l’ISO/IEC10646 pour ne plus accepter que la représentation la plus courte de chaque point de code.

Son avantage sur l’UTF-16 est qu’il n’existe qu’un seul schéma de codage possible pour la transmission de séquences d’octets dans un réseau de systèmes hétérogènes. La plupart des protocoles d’échange normalisés aujourd’hui utilisent cette transformation car elle est indépendante de l’ordonnancement des octets composant un entier plus long.

D’autre part, l’UTF-8 est totalement compatible pour la transmission de textes par des protocoles basés sur le jeu de caractères ASCII, ou peut être rendu compatible (au prix d’une transformation sur plusieurs octets des caractères non-ASCII) avec les protocoles d’échange supportant les jeux de caractères codés sur 8 bits (qu’ils soient basés sur ISO-8859 ou de nombreux autres jeux de caractères codés sur 8 bits définis par des normes nationales ou des systèmes propriétaires particuliers).

Son défaut est le codage de longueur très variable (1 octet pour les points de code assignés aux caractères ASCII/ISO646, 2 à 4 octets pour les autres points de code), même s’il est possible de déterminer le début du codage d’un point de code à partir d’une position aléatoire d’un texte transformé en UTF-8 (en effectuant au plus 3 lectures supplémentaires des codets qui précèdent). Aussi, cette transformation est rarement utilisée pour le traitement interne des textes, et on lui préfère souvent l’UTF-16, parfois l’UTF-32.

UTF-16

L’UTF-16 est un bon compromis lorsque la place mémoire n’est pas trop restreinte, car la grande majorité des caractères Unicode assignés pour les écritures des langues modernes (dont les caractères les plus fréquemment utilisés) le sont dans le plan multilingue de base et peuvent donc être représentés sur 16 bits.

Toutefois les points de code des 16 plans supplémentaires nécessitent une transformation sur deux codets :

Il est possible de déterminer le début de la séquence de codage à partir d’un point quelconque d’un texte représenté en UTF-16 en effectuant au maximum une lecture supplémentaire, uniquement si ce codet est dans la demi-zone basse. Cette forme est plus économique et plus facile à traiter rapidement que l’UTF-8 pour la représentation de textes contenant peu de caractères ASCII (U+0000 à U+007F).

Toutefois, cette transformation possède deux schémas de codage incompatibles qui dépendent de l’ordonnancement des octets dans la représentation d’entiers sur 16 bits. Pour résoudre cette ambiguité et permettre la transmission entre systèmes hétérogènes, il est nécessaire d’adjoindre une information indiquant le schéma de codage utilisé (UTF-16BE ou UTF-16LE), ou bien de préfixer le texte encodé avec la représentation du point de code valide U+FEFF (assigné au caractère « espace insécable de largeur nulle »), puisque le point de code U+FFFE valide est un non-caractère, interdit dans les textes conformes à Unicode et ISO/IEC10646.

L’autre défaut d’UTF-16 est qu’un texte transformé avec lui et transmis avec l’un ou l’autre des deux schémas de codage contient un grand nombre d’octets nuls ou ayant une valeur en conflit avec les valeurs d’octets réservées par certains protocoles d’échange.

C’est notamment l’encodage qu’utilise la plateforme Java en interne, ainsi que Windows pour ses APIs compatibles Unicode (avec le type "WCHAR"). Toutefois la plateforme Java utilise aussi un format compact spécifique supplémentaire codé sur 8 bits (proche de UTF-8, mais distinct puisque le point de code U+0000 y est représenté par une séquence invalide en UTF-8 de deux octets non nuls) pour certains échanges natifs avec les bibliothèques C de la plateforme supportée ou dans le format interne des fichiers de classes compilées, puisque ce format alternatif (mais portable) ne dépend pas non plus de l’ordonnancement interne des octets composant un entier de plus de 8 bits.

UTF-32

L’UTF-32 est utilisé lorsque la place mémoire n’est pas un problème et que l’on a besoin d’avoir accès à des caractères de manière directe et sans changement de taille (hiéroglyphes).

L’avantage de cette transformation normalisée est que tous les codets ont la même taille, et donc qu’il n’est pas nécessaire de lire des codets supplémentaires pour déterminer le début de la représentation d’un point de code. De plus la lecture ou l’écriture

Toutefois, ce format est particulièrement peu économique (y compris en mémoire) puisqu’il « gaspille » inutilement au moins un octet (toujours nul) par caractère. La taille en mémoire d’un texte joue négativement sur les performances puisque cela nécessite plus de lectures et écritures sur disque en cas de saturation de la mémoire physique, et que cela diminue aussi les performances du cache mémoire des processeurs.

Pour les textes écrits dans les langues modernes actuelles (hormis certains caractères rares du plan idéographique supplémentaire), et n’utilisant donc que les points de code du plan multilingue de base, cette transformation double la quantité mémoire nécessaire par rapport à l’UTF-16.

Comme l’UTF-16, l’UTF-32 possède plusieurs schémas de codage dépendant de l’ordonnancement des octets composant un entier de plus de 8 bits (deux schémas de codage de l’UTF-32 sont normalisés, UTF-32BE et UTF-32LE). Il est donc aussi nécessaire de préciser ce schéma de codage, ou de le déterminer en préfixant le texte par la représentation en UTF-32 du point de code U+FEFF. Comme l’UTF-16, la présence d’octets nuls dans les schémas de codage normalisés de l’UTF-32 le rend incompatible avec de nombreux protocoles d’échange entre systèmes hétérogènes.

Aussi ce format n’est utilisé le plus souvent que très localement à certains traitements en tant que forme intermédiaire plus facile à manipuler, et on lui préfère souvent la transformation UTF-16 souvent plus performante pour traiter et stocker des quantités importantes de textes, la conversion entre les deux étant très simple à réaliser, et très peu couteuse en terme de complexité de traitement.

En fait de très nombreuses bibliothèques de traitement de textes sont écrites uniquement avec l’UTF-16 et sont plus performantes qu’en UTF-32, même lorsque les textes contiennent des caractères des plans supplémentaires (qui restent rares dans la très grande majorité des cas).

On notera toutefois que la transformation en UTF-32 utilise des codets sur 32 bits, dont de très nombreuses valeurs peuvent ne représenter aucun point de code valide (valeurs hors des deux intervalles représentant les points de code valides U+0000 à U+D7FFF et U+E000 à U+10FFFF), donc aucun caractère valide ou réservé (Toute information qui y serait contenue ne peut donc pas être du texte au sens d’Unicode). La transmission de textes utilisant ces valeurs invalides de codets dans un des schémas de codage normalisés de l’UTF-32 est interdite pour tout système conforme à Unicode (il faut utiliser plutôt les points de code à usage privé), puisqu’il sera impossible de les représenter dans une autre transformation UTF avec lesquelles les trois UTF normalisées sont bijectivement compatibles.

GB18030

Il s'agit d'un encodage de l'Unicode qui n'est pas défini par le consortium unicode, mais par l'Administration de Standardisation Administration de Chine populaire.

Les polices de caractères Unicode

Avant de parler de police Unicode, il faut bien comprendre un principe essentiel : dire qu'Unicode code des caractères revient à dire qu'il attribue un numéro à des symboles. Unicode ne code en revanche pas les descriptions des caractères, les glyphes, c'est-à-dire la représentation graphique du caractère. Il n'y a donc pas une bijection entre la représentation du caractère et son numéro comme c'est le cas dans une police ASCII ou latin-1 classique.

Ainsi, le caractère français é peut-il être décrit de deux manières : soit en utilisant directement le numéro correspondant au é, soit en faisant suivre le numéro du 'e' par celui de l'accent aigu sans chasse. Quelle que soit l'option choisie le même glyphe sera affiché. On dira du premier caractère qu'il est précomposé, du second que c'est une composition (deux caractères forment un seul glyphe composé des deux). De nombreux glyphes sont dans ce cas et peuvent être codés de ces deux manières. Le plus souvent, le glyphe précomposé est préférable (c'est le cas pour le grec polytonique, par exemple, lequel, codé en décomposition, peut ne pas être satisfaisant graphiquement : selon les polices de caractères, les différents constituants du glyphe étant parfois mal disposés et peu lisibles).

De même, certains systèmes d'écriture, comme la devânagarî ou les caractères arabes, nécessitent un traitement complexe des ligatures : les graphèmes changent en effet de forme en fonction de leur position et/ou par rapport à leurs voisines (cf. Variante contextuelle et Lettre conjointe).

On comprend donc que le terme de police Unicode doit être utilisé très prudemment. Avoir une police qui représente un certain nombre ou toutes les représentations graphiques que l'on peut obtenir avec Unicode n'est pas suffisant, il faut en plus que le système d'affichage possède les mécanismes de représentation idoines (ce que l'on nomme le moteur de rendu) capable de gérer les ligatures, variantes contextuelles et formes conjointes de certaines écritures. Au contraire, une police qui ne représente que certains caractères mais qui sait comment les afficher mérite mieux le terme de police Unicode.

Le moteur de rendu doit comporter dans certains cas des informations sur les coupures de lettres. Ainsi la lettre allemande s/z, lorsqu'elle se trouve sur une coupure, se traduit en deux s : un avant et un après la coupure.

Détails techniques

Bibliothèques logicielles

La bibliothèque multiplateforme ICU permet de manipuler des données unicodées. Un support d'Unicode spécifique à certaines plateformes (non compatible quant au code-source) est également fourni par les systèmes modernes (Java, MFC, GNU/Linux).

Les types à utiliser pour stocker des variables Unicode, sont les suivants:

Types compatibles avec Unicode dans les langages de programmation
Langage de programmationType pour un seul caractèreType pour tout texte
C char (0) ou wchar_t ou char[4] (1)wchar_t[] ou char[]
C++ char (0) ou wchar_t ou char[4] (1)wchar_t[] ou char[] ou <code>std::wstring</code>
JavaString, char[2] ou int (2)String ou char[]
Bibliothèque ICU (pour C/C++ ou Java)UCharString, UnicodeString
Javascript ou ECMAScriptchar (3)string
C# ou J#charstring
Python unicode

Notes:

Unicode souffre toutefois d'un faible support des expressions rationnelles par certains logiciels, même si des bibliothèques comme ICU et Java semblent les supporter.

Partitionnement

Le partitionnement à jour peut être trouvé sur le site officiel d'Unicode. Cependant, vu le rôle important d'Unicode, (ISO 10646) on décrira ici les principaux blocs de caractères. Les noms français sont les noms officiels de l'ISO/CEI 10646, la norme internationale bilingue qui reprend les mêmes caractères qu'Unicode. Ils sont aussi officiels que les noms anglais.

Il faut noter que l'ancienne norme Unicode 1.0 est obsolète et incompatible avec la norme ISO 10646 et la norme Unicode 1.1 et toutes ses versions ultérieures ; la principale incompatibilité est celle des blocs de caractères Hangul utilisés pour l'écriture de la langue coréenne qui ont changé de position et dont les anciens points de code ont depuis été assignés à d'autres blocs. La table ci-dessous est compatible avec ISO 10646 (toutes versions) et Unicode 1.1 (ou ultérieur)

Note : La casse des noms de bloc n'est pas normative. « Latin de base » est donc équivalent à « LATIN DE BASE ».

Points de codeNom officiel du blocCommentaires
DébutFin
0000FFFFPlan multilingue de base (BMP)
0000007FLatin de basevoir norme ISO 646, code ASCII
0080009FNon-utilisévoir plage non-utilisé norme ISO 8859 et ISO 8859-1
00A000FFSupplément Latin-1voir norme ISO 8859, code ISO 8859-1
0100017FLatin étendu A
0180024FLatin étendu B
025002AFAlphabet phonétique international (API)Alphabet phonétique international
02B002FFLettres modificatives avec chasse
0300036FDiacritiquesvoir Diacritique
037003FFGrec et copte
040004FFCyrilliquevoir Alphabet cyrillique
0500052FSupplément cyrilliquevoir Alphabet cyrillique
0530058FArménienvoir langue Arménien
059005FFHébreuvoir Alphabet hébreu
060006FFArabevoir alphabet arabe
0700074FSyriaquevoir langue Syriaque
078007BFThâna
0900097FDévanâgarî
098009FFBengalivoir langue indienne Bengalî
0A000A7FGourmoukhî
0A800AFFGoudjerate
0B000B7FOriyavoir langue indienne Oriya
0B800BFFTamoulvoir langue indienne Tamoul
0C000C7FTélougouvoir langue indienne Télougou
0C800CFFKannaravoir langue indienne Kannara
0D000D7FMalayalamvoir langue indienne Malayalam
0D800DFFSinghalaisvoir langue indo-européenne Cingalais
0E000E7FThaïvoir langue asiatique Thaï
0E800EFFLaovoir langue asiatique Laotien
0F000FFFTibétainvoir langue asiatique Tibétain
1000109FBirmanvoir langue asiatique Birman
10A010FFGéorgienvoir langue Géorgien
110011FFJamos hangûl
1200137FÉthiopienvoir Alphabet éthiopien
13A013FFChérokî
1400167FSyllabaires autochtones canadiens unifiés
1680169FOgamvoir Écriture oghamique
16A016FFRunesvoir Alphabet runique
1700171FTagalogou tagal, voir langue Tagalog
1720173FHanounóo
1740175FBouhide
1760177FTagbanoua
178017FFKhmervoir langue Khmer
180018AFMongolvoir langue mongol (Монгол хэл, mongγol kele)
1900194FLimbou
1950197FTaï-le
19E019FFSymboles khmersvoir langue Khmer
1D001D7FSupplément phonétique
1E001EFFLatin étendu additionnel
1F001FFFGrec étendu
2000206FPonctuation généralevoir aussi ponctuation
2070209FExposants et indices
20A020CFSymboles monétaires
20D020FFSignes combinatoires pour symboles
2100214FSymboles de type lettre
2150218FFormes numérales
219021FFFlèches
220022FFOpérateurs mathématiquesvoir Opérateurs mathématiques
230023FFSignes techniques divers2336 à 237A = symboles APL
2400243FPictogrammes de commande
2440245FReconnaissance optique de caractèresvoir Reconnaissance optique de caractères
246024FFAlphanumériques cerclés
2500257FFilets
2580259FPavés
25A025FFFormes géométriques
260026FFSymboles divers
270027BFCasseau
27C027EFDivers symboles mathématiques - A
27F027FFSupplément A de flèches
280028FFCombinaisons Braillevoir Braille
2900297FSupplément B de flèches
298029FFDivers symboles mathématiques-B
2A002AFFOpérateurs mathématiques supplémentaires
2B002BFFDivers symboles et flèches
2D302D6FAlphabet Tifinagh et néo-Tifinagh
2E802EFFFormes supplémentaires des clés CJCvoir CJC (chinois, japonais et coréen)
2F002FDFClés chinoises (K'ang-hsi ou Kangxi)voir Dictionnaire de caractères de Kangxi
2FF02FFFDescription idéophonographique
3000303FSymboles et ponctuation CJCvoir ponctuation et CJC (chinois, japonais et coréen)
3040309FHiraganavoir Hiragana (langue japonaise)
30A030FFKatakanavoir Katakana (langue japonaise)
3100312FBopomofovoir Bopomofo (notation taïwanaise et chinoise)
3130318FJamos de compatibilité hangûls
3190319FKanboun
31A031BFBopomofo étenduvoir Bopomofo (notation taïwanaise et chinoise)
31F031FFExtension phonétique katakanavoir Katakana (langue japonaise)
320032FFLettres et mois CJC cerclésvoir CJC (chinois, japonais et coréen)
330033FFCompatibilité CJCvoir CJC (chinois, japonais et coréen) (unités de mesure)
34004DB5Supplément A aux idéophonogrammes unifiés CJCvoir CJC (chinois, japonais et coréen)
4DC04DFFHexagrammes du Classique des mutations ou Yi-king
4E009FA5Idéophonogrammes unifiés CJCvoir CJC (chinois, japonais et coréen)
A000A48FSyllabaire yi des Monts frais
A490A4CFClés yi
AC00D7A3Hangûl
D800DB7FDemi-zone hautenon-caractères, points de code invalides isolément

D800 à D83F : codets hauts utilisés en UTF-16 pour les points de code du plan multilingue supplémentaire
D840 à D87F : codets hauts utilisés en UTF-16 pour les points de code du plan idéographique supplémentaire
D880 à DB3F : codets hauts utilisés en UTF-16 pour les points de code des plans supplémentaires réservés
D840 à D87F : codets hauts utilisés en UTF-16 pour les points de code du plan spécial supplémentaire

DB80DBFFPartie à usage privé de la demi-zone hautenon-caractères, points de code invalides isolément

DB80 à DBBF : codets hauts utilisés en UTF-16 pour les points de code de la zone supplémentaire A à usage privé
DBC0 à DBFF : codets hauts utilisés en UTF-16 pour les points de code de la zone supplémentaire B à usage privé

DC00DFFFDemi-zone bassenon-caractères, points de code invalides isolément

DC80 à DFFD : codets bas utilisés en UTF-16 pour des points de code assignés aux caractères valides ou réservés des plans supplémentaires (assignés, réservés ou à usage privé)
DFFE à DFFF : codets bas pouvant être utilisés en UTF-16 pour la représentation de points de code assignés aux non-caractères en fin de chaque plan, lorsque le codet haut est le dernier assigné dans la demi-zone haute pour chaque plan supplémentaire (assigné, réservé ou à usage privé)

☒E000F8FFZone à usage privé
F900FAFFIdéogrammes de compatibilité CJCvoir CJC (chinois, japonais et coréen)
FB00FB4FFormes de présentation alphabétiques
FB50FDFFFormes A de présentation arabesvoir alphabet arabe
FDD0FDEF non-caractères
FE00FE0FSélecteurs de variante
FE20FE2FDemi-signes combinatoires
FE30FE4FFormes de compatibilité CJCvoir CJC (chinois, japonais et coréen)
FE50FE6FPetites variantes de forme
FE70FEFFFormes B de présentation arabes
FF00FFEFFormes de demi et pleine chasse
FFF0FFFFCaractères spéciaux
FFFEFFFF non-caractères
100001FFFFPlan multilingue supplémentaire (SMP)
100001007FSyllabaire linéaire B ou syllabaire mycénien
10080100FFIdéogrammes du linéaire B
101001013FNombres égéens
103001032FAlphabet italique
103301034FGotiquevoir langue Gotique
103801039FOugaritiquevoir langue Ougaritique
104001044FDéséret
104501047FShavien
10480104AFOsmanya
108001083FSyllabaire chypriote
1D0001D0FFSymboles musicaux byzantins
1D1001D1FFSymboles musicaux occidentaux
1D3001D35FSymboles du Classique du mystère suprême
1D4001D7FFSymboles mathématiques alphanumériques
1FFFE1FFFF non-caractères
200002FFFFPlan idéographique supplémentaire (SIP)
200002A6D6Supplément B aux idéogrammes unifiés CJC
2F8002FA1FSupplément aux idéogrammes de compatibilité CJC
2FFFE2FFFF non-caractères
30000DFFFFPlans supplémentaires réservés
3FFFE3FFFF non-caractères
4FFFE4FFFF non-caractères
5FFFE5FFFF non-caractères
6FFFE6FFFF non-caractères
7FFFE7FFFF non-caractères
8FFFE8FFFF non-caractères
9FFFE9FFFF non-caractères
AFFFEAFFFF non-caractères
BFFFEBFFFF non-caractères
CFFFECFFFF non-caractères
DFFFEDFFFF non-caractères
E0000EFFFFPlan spécial supplémentaire (SSP)
E0000E007FÉtiquettes
E0100E01EFSupplément de sélecteurs de variante
EFFFEEFFFF non-caractères
F000010FFFFPlans supplémentaires à usage privé
☒F0000FFFFDZone supplémentaire A à usage privé
FFFFEFFFFF non-caractères
☒10000010FFFDZone supplémentaire B à usage privé
10FFFE10FFFF non-caractères

Les zones à usage privé indiquées par le symbole ☒ ne contiennent pas les mêmes œils d'une police à l'autre et doivent donc être évités pour le codage de textes destinés aux échanges entre systèmes hétérogènes. Toutefois ces points de codes à usage privé sont valides et peuvent être utilisés dans tout traitement automatisé conforme aux normes Unicode et ISO 10646, y compris entre systèmes différents s'il existe un accord mutuel privé concernant leur usage.

En l'absence d'accord entre les deux parties, des systèmes utilisant ces caractères peuvent rejeter les textes les contenant, car les traitements qu'ils leur font subir pourraient ne pas fonctionner correctement ou causer des problèmes de sécurité; les autres systèmes qui n'attribuent aucune fonction spéciale à ces caractères doivent en revanche les accepter comme valides et les conserver comme partie intégrante des textes, comme s'il s'agissait de symboles graphiques, même s'ils ne savent pas les afficher correctement.

Les non-caractères listés sont des points de code valides, mais ils ne sont pas (et ne seront jamais) assignés à des caractères normalisés. Leur usage dans le codage de textes transmis entre systèmes (même si identiques) est interdit, car il est impossible de les rendre compatibles avec les formes de transformation universelles normalisées (dont UTF-8, UTF-16, UTF-32) les schémas d'encodage correspondants, et les autres encodages normalisés compatibles avec Unicode et ISO 10646 (BOCU-1, SCSU, différentes versions de la norme chinoise GB18030, etc.). Toutefois certains systèmes les génèrent et les utilisent localement, mais pour un traitement strictement interne destiné à faciliter l'implémentation des algorithmes de traitement de textes utilisant les autres caractères normalisés.

Parmi ces derniers non-caractères figurent les points de code valides mais réservés aux demi-zones (privées ou non). Ces points de code ne peuvent pas être utilisés individuellement pour coder un caractère. Ils servent uniquement pour la forme de transformation universelle UTF-16 (et les schémas d'encodage correspondants) pour représenter sur deux codets (à 16 bits chacun) des points de code valides dans un des 16 plans supplémentaires (certaines combinaisons de codets correspondent à des caractères valides de ces plans, standards ou privés, d'autres combinaisons peuvent ne représenter aucun caractère valide car elles correspondraient à des non-caractères de ces plans supplémentaires, et sont donc interdites dans les textes conformes à la norme).

Les autres zones libres (non assignées à un bloc nommé normalisé, ou les points de code laissés libres et réservés dans les blocs nommés existants) sont réservés pour un usage ultérieur dans des versions futures d'Unicode et ISO 10646, mais sont valides. Tout système traitant des textes contenant ces points de code réservés doivent les accepter sans les filtrer. Unicode définit des propriétés par défaut pour les hypothétiques caractères correspondants, afin de préserver la compatibilité des systèmes (conformes à la norme Unicode) avec les futurs textes conformes qui les contiendraient. Aucune application conforme ne doit leur assigner un caractère ou une sémantique spéciale (les zones privées sont destinées à cet usage).

Voir aussi

Liens internes

<div style="clear:both;" />

Liens externes

Références normatives

Références non officielles

Utilisation d’Unicode

Utilitaires pour le support d’Unicode

Articles et discussions

Unicode:Crystal mycomputerPortail de l'informatique – Accédez aux articles de Wikipédia concernant l’informatique.
  
Unicode:Nuvola apps package wordprocessingPortail de l'écriture – Accédez aux articles de Wikipédia concernant les écritures et les alphabets.
  {{{{{3}}}}}
Unicode:Crystal mycomputerPortail de l'informatique – Accédez aux articles de Wikipédia concernant l’informatique.
Unicode:Nuvola apps package wordprocessingPortail de l'écriture – Accédez aux articles de Wikipédia concernant les écritures et les alphabets.
{{{{{3}}}}}{{{{{4}}}}}

<span class="AdQ" id="ru" style="display:none;" />

Catégorie 


Unicode

Rechercher

Rechercher

Rechercher