UTF-32

UTF-32 (или UCS-4) е съкращение от Unicode Transformation Format 32 бита. Това е протокол за кодиране на Unicode кодови точки, който използва точно 32 бита за кодова точка. Това прави UTF-32 кодирането с фиксирана дължина, за разлика от всички други Unicode трансформативни формати, които са с променлива дължина. Формата на UTF-32 за кодова точка е директното представяне на числовата стойност на тази точка.

Основното предимство на UTF-32, в сравнение с кодирането с променлива дължина, е че точките се индексират директно. Проучването на N-тата п е постоянна величина. За разлика при кодирането с променлива дължина достъпът до точките трябва да бъде последователен, за да се открие N-тата точка. UTF-32 прави проста подмяна в кода, като ползва числа за индексиране на отделните знаци в низовете, както обикновено се прави за ASCII.

Главният недостатък на UTF-32 е неефективността му спрямо използваното пространство, ползвайки 4 бита за кодова точка. Знаците, които не са BMP (Basic Multilingual Plane: съдържа знаци за почти всички модерни езици, както и голям брой символи), са толкова редки в повечето текстове, че може да се считат за несъществуващи при проблемите с оразмеряването, правейки размера на UTF-32 до два пъти колкото UTF-16 и до четири – UTF-8.


© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search