UCS

Az ISO/IEC 10646 által meghatározott nemzetközi szabvány határozza meg az Universal Character Set (UCS) – az univerzális karakterkészlet – szabványt a karakterkódolásra. A szabvány közel százezer absztrakt karaktert tartalmaz, mindegyikhez egy egyedi név és egy egész szám van rendelve, amit kódnak vagy kódpontnak neveznek.

A karakterek (betűk, számok, szimbólumok, ideogrammák, logogrammák stb.) a világ több nyelvéből, írásrendszeréből származnak, és egyedi kódjuk van az UCS-ben. Kizárólag az UCS az, amelyet folyamatosan bővítenek a benne még nem szereplő írásrendszer jeleivel.

1991-től az Unicode Consortium dolgozik együtt az ISO-val a The Unicode Standard ("Unicode") és az ISO/IEC 10646 együttes kifejlesztésén. A repertoár (lefedett írások, nyelvek és jelek), a karakterek nevei és kódok a Unicode 2.0 változatnál pontosan megegyeznek az ISO/IEC 10646-1:1993 és annak első hét Kiegészítése esetében. A 2000 februárjában nyilvánosságra hozott Unicode 3.0 megfelel az USC ISO/IEC 10646-1:2000 szerinti módosításainak.

Az UCS több, mint 1,1 millió kódot tartalmaz, de csak az első 65 536 (az Alap többnyelvű lap – Basic Multilingual Plane, vagy röviden csak BMP) került a 2000 előtti általánosan használt változatba. Ez a helyzet akkor kezdett változni, mikor a Kínai Népköztársaság 2000-ben megbízást kapott arra, hogy területén az eladott számítógép rendszerek támogassák a GB18030 szabványt, ami azt jelentette, hogy a Kínában eladott számítógép rendszereknek a BMP-n túli kódokat (területeket) is használniuk kellett.

A rendszer készakarva hagy sok kódot szabadon (nincs karakter hozzá rendelve), még a BMP-n belül is. Ez a megoldás biztosítja, hogy a jövőben történő bővítések okozta konfliktusokat minimalizálják a különböző kódolási formák között.