"UTF-16"의 두 版 사이의 差異

잔글編輯 要約 없음
잔글編輯 要約 없음
 
6番째 줄: 6番째 줄:


=== 서러게이트 雙 ===
=== 서러게이트 雙 ===
[[File:Utf-16.svg|thumb|right]]
"[[유니코드]]는 모든 文字가 2[[바이트]]"라는 認識이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. [[UCS-2|2바이트(16비트) 固定길이]]로는 全世界에서 쓰였거나 쓰이고 있는 [[文字]]體系를 모두 收錄하기에는 택도 없이 不足했기 때문이다. {{*|여기에서 實際로 쓰인 字形이 8萬가지는 된다는 [[漢字]]가 큰 役割(?)을 했다. [[完成型]] [[한글]] [[現代 한글 11172字|11,172字]]도 만만찮았다(...).}} 이에 얼마 안 남은 空間을 '서러게이트 雙'이라는 이름으로 豫約하여, 이 領域의 코드를 두個 늘어놓는 組合으로 한 글字를 表現하게 하였다.
"[[유니코드]]는 모든 文字가 2[[바이트]]"라는 認識이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. [[UCS-2|2바이트(16비트) 固定길이]]로는 全世界에서 쓰였거나 쓰이고 있는 [[文字]]體系를 모두 收錄하기에는 택도 없이 不足했기 때문이다. {{*|여기에서 實際로 쓰인 字形이 8萬가지는 된다는 [[漢字]]가 큰 役割(?)을 했다. [[完成型]] [[한글]] [[現代 한글 11172字|11,172字]]도 만만찮았다(...).}} 이에 얼마 안 남은 空間을 '서러게이트 雙'이라는 이름으로 豫約하여, 이 領域의 코드를 두個 늘어놓는 組合으로 한 글字를 表現하게 하였다.



2023年10月25日(水)10時00分 基準 最新版

유니코드에서 使用(사용)하는 인코딩方式(방식)의 하나. 16비트를 單位(단위)로한 可變(가변)길이 인코딩인 ()로 UTF-16이라는 이름이 붙었다.

인코딩 方法(방법)[編輯]

多國語(다국어)基本(기본)平面(평면)에 들어간 글()들은 코드포인트 그대로 2바이트로 貯藏(저장)한다. 다만 單位(단위)()가 16비트인만큼 엔디언處理(처리)를 해야 한다. 엔디언이 미리 ()해지지 않았다면 BOM이라는 코드로써 自動(자동)으로 把握(파악)하도록 具現(구현)되기도 한다.

서러게이트 ()[編輯]

"유니코드는 모든 文字(문자)가 2바이트"라는 認識(인식)이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. 2바이트(16비트) 固定(고정)길이로는 全世界(전세계)에서 쓰였거나 쓰이고 있는 文字(문자)體系(체계)를 모두 收錄(수록)하기에는 택도 없이 不足(부족)했기 때문이다. [1] 이에 얼마 안 남은 空間(공간)을 '서러게이트 ()'이라는 이름으로 豫約(예약)하여, 이 領域(영역)의 코드를 두() 늘어놓는 組合(조합)으로 한 글()表現(표현)하게 하였다.

結果(결과), 유니코드의 可用(가용) 코드포인트가 U+FFFF에서 U+10FFFF까지로 17() 擴張(확장)되었다. 그 ()로는 擴張(확장)된 '平面(평면)'() 오직 漢字(한자)만을 ()해 만들어진 것을 금세 거의 채우고, 平面(평면)을 하나 더 割當(할당)해서 甲骨文(갑골문)이나 金文(금문), 篆書(전서)같은 새로운 글()가 보이는대로 追加(추가)되고 있다. ()文字(문자)가 유니코드에 導入(도입)될수 있었던 契機(계기)도 이렇게 擴張(확장)이 되지 않았으면 機會(기회)가 없었을 것이다.

BMP에서 서러게이트()으로 쓰는 코드포인트 1024()는 다른 곳에 쓰이지 않고 UTF-16에서만 쓰이도록 豫約(예약)되어 있다.

關聯(관련)文書(문서)[編輯]

  1. 여기에서 實際(실제)로 쓰인 字形(자형)이 8()가지는 된다는 漢字(한자)가 큰 役割(역할)(?)을 했다. 完成型(완성형) 한글 11,172()도 만만찮았다(...).