UTF-16

유니코드에서 使用(사용)하는 인코딩方式(방식)의 하나. 16비트를 單位(단위)로한 可變(가변)길이 인코딩인 故(고)로 UTF-16이라는 이름이 붙었다.

인코딩 方法(방법)

多國語基本平面에 들어간 글字(자)들은 코드포인트 그대로 2바이트로 貯藏(저장)한다. 다만 單位(단위)數(수)가 16비트인만큼 엔디언處理(처리)를 해야 한다. 엔디언이 미리 定(정)해지지 않았다면 BOM이라는 코드로써 自動(자동)으로 把握(파악)하도록 具現(구현)되기도 한다.

서러게이트 雙(쌍)

"유니코드는 모든 文字(문자)가 2바이트"라는 認識(인식)이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. 2바이트(16비트) 固定길이로는 全世界(전세계)에서 쓰였거나 쓰이고 있는 文字體系(체계)를 모두 收錄(수록)하기에는 택도 없이 不足(부족)했기 때문이다. ^[1] 이에 얼마 안 남은 空間(공간)을 '서러게이트 雙(쌍)'이라는 이름으로 豫約(예약)하여, 이 領域(영역)의 코드를 두個(개) 늘어놓는 組合(조합)으로 한 글字(자)를 表現(표현)하게 하였다.

그 結果(결과), 유니코드의 可用(가용) 코드포인트가 U+FFFF에서 U+10FFFF까지로 17倍(배) 擴張(확장)되었다. 그 後(후)로는 擴張(확장)된 '平面(평면)'中(중) 오직 漢字만을 爲해 만들어진 것을 금세 거의 채우고, 平面을 하나 더 割當해서 甲骨文이나 金文, 篆書같은 새로운 글字(자)가 보이는대로 追加(추가)되고 있다. 繪文字가 유니코드에 導入(도입)된 것도 이러한 擴張(확장)이 이루어지지 않았으면 不可能(불가능)했을 것이다.

BMP에서 서러게이트雙(쌍)으로 쓰는 코드포인트 2048個(개)(U+D800 ~ U+DFFF)는 다른 곳에 쓰이지 않고 UTF-16에서만 쓰이도록 豫約(예약)되어 있다.

關聯(관련)文書(문서)

↑ 여기에서 實際(실제)로 쓰인 字形(자형)이 8萬(만)가지는 된다는 漢字가 큰 役割(역할)(?)을 했다. 完成型 한글 11,172字도 만만찮았다(...).

[1] 여기에서 實際(실제)로 쓰인 字形(자형)이 8萬(만)가지는 된다는 漢字가 큰 役割(역할)(?)을 했다. 完成型 한글 11,172字도 만만찮았다(...).

[1]