"UTF-16"의 두 版 사이의 差異

(새 문서: 유니코드에서 使用하는 인코딩方式의 하나. 16비트를 單位로한 可變길이 인코딩인 故로 UTF-16이라는 이름이 붙었다. == 인코딩 方法 == 多國語(다국어)基本(기본)平面(평면)에 들어간 글字들은 코드포인트 그대로 2바이트로 貯藏한다. 다만 單位數가 16비트인만큼 엔디언處理를 해야 한다. 엔디언이 미리 定해지지 않았다면 BOM이라는 코드로써 自動으로 把握하도록 具現되...)
 
잔글編輯 要約 없음
 
(같은 使用者(사용자)中間(중간) () 3()는 보이지 않습니다)
6番째 줄: 6番째 줄:


=== 서러게이트 雙 ===
=== 서러게이트 雙 ===
"[[유니코드]]는 모든 文字가 2[[바이트]]"라는 認識이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. [[UCS-2|2바이트(16비트) 固定길이}} 로는 全世界에서 쓰였거나 쓰이고 있는 字體 系를 모두 收錄하기에는 택도 없이 不足했기 때문이다. {{*|여기에서 實際로 쓰인 字形이 8萬가지는 된다는 [[漢字]]가 큰 役割(?)을 했다. [[完成型]] [[한글]] 11,172字도 만만찮았다(...).}} 이에 얼마 안 남은 空間을 '서러게이트 雙'이라는 이름으로 豫約하여, 이 領域의 코드를 두個 늘어놓는 組合으로 한 글字를 表現하게 하였다.
[[File:Utf-16.svg|thumb|right]]
"[[유니코드]]는 모든 文字가 2[[바이트]]"라는 認識이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. [[UCS-2|2바이트(16비트) 固定길이]] 로는 全世界에서 쓰였거나 쓰이고 있는 [[ 字]]體 系를 모두 收錄하기에는 택도 없이 不足했기 때문이다. {{*|여기에서 實際로 쓰인 字形이 8萬가지는 된다는 [[漢字]]가 큰 役割(?)을 했다. [[完成型]] [[한글]] [[現代 한글 11172字|11,172字]] 도 만만찮았다(...).}} 이에 얼마 안 남은 空間을 '서러게이트 雙'이라는 이름으로 豫約하여, 이 領域의 코드를 두個 늘어놓는 組合으로 한 글字를 表現하게 하였다.


 그 結果, 유니코드의 可用 코드포인트가 U+FFFF에서 U+10FFFF까지로 11 倍 擴張되었다. 그 後로는 擴張된 '平面'中 [[表意文字補充平面|오직 漢字만을 爲해 만들어진 것]]을 금세 거의 채우고, [[表意文字第三平面|平面을 하나 더 割當해서]] [[甲骨文]]이나 [[金文]], [[篆書]]같은 새로운 글字가 보이는대로 追加되고 있다. [[繪文字]]가 유니코드에 導入될수 있었던 契機도 이렇게 擴張이 되지 않았으면 機會가 없었을 것이다.
 그 結果, 유니코드의 可用 [[ 코드포인트]] 가 U+FFFF에서 U+10FFFF까지로 17 倍 擴張되었다. 그 後로는 擴張된 '平面'中 [[表意文字補充平面|오직 漢字만을 爲해 만들어진 것]]을 금세 거의 채우고, [[表意文字第三平面|平面을 하나 더 割當해서]] [[甲骨文]]이나 [[金文]], [[篆書]]같은 새로운 글字가 보이는대로 追加되고 있다. [[繪文字]]가 유니코드에 導入될수 있었던 契機도 이렇게 擴張이 되지 않았으면 機會가 없었을 것이다.


[[BMP]]에서 서러게이트雙으로 쓰는 1024 는 다른 곳에 쓰이지 않고 UTF-16에서만 쓰이도록 豫約되어 있다.
[[BMP]]에서 서러게이트雙으로 쓰는 코드포인트 1024 는 다른 곳에 쓰이지 않고 UTF-16에서만 쓰이도록 豫約되어 있다.


== 關聯文書 ==
== 關聯文書 ==

2023年10月25日(水)10時00分 基準 最新版

유니코드에서 使用(사용)하는 인코딩方式(방식)의 하나. 16비트를 單位(단위)로한 可變(가변)길이 인코딩인 ()로 UTF-16이라는 이름이 붙었다.

인코딩 方法(방법)[編輯]

多國語(다국어)基本(기본)平面(평면)에 들어간 글()들은 코드포인트 그대로 2바이트로 貯藏(저장)한다. 다만 單位(단위)()가 16비트인만큼 엔디언處理(처리)를 해야 한다. 엔디언이 미리 ()해지지 않았다면 BOM이라는 코드로써 自動(자동)으로 把握(파악)하도록 具現(구현)되기도 한다.

서러게이트 ()[編輯]

"유니코드는 모든 文字(문자)가 2바이트"라는 認識(인식)이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. 2바이트(16비트) 固定(고정)길이로는 全世界(전세계)에서 쓰였거나 쓰이고 있는 文字(문자)體系(체계)를 모두 收錄(수록)하기에는 택도 없이 不足(부족)했기 때문이다. [1] 이에 얼마 안 남은 空間(공간)을 '서러게이트 ()'이라는 이름으로 豫約(예약)하여, 이 領域(영역)의 코드를 두() 늘어놓는 組合(조합)으로 한 글()表現(표현)하게 하였다.

結果(결과), 유니코드의 可用(가용) 코드포인트가 U+FFFF에서 U+10FFFF까지로 17() 擴張(확장)되었다. 그 ()로는 擴張(확장)된 '平面(평면)'() 오직 漢字(한자)만을 ()해 만들어진 것을 금세 거의 채우고, 平面(평면)을 하나 더 割當(할당)해서 甲骨文(갑골문)이나 金文(금문), 篆書(전서)같은 새로운 글()가 보이는대로 追加(추가)되고 있다. ()文字(문자)가 유니코드에 導入(도입)될수 있었던 契機(계기)도 이렇게 擴張(확장)이 되지 않았으면 機會(기회)가 없었을 것이다.

BMP에서 서러게이트()으로 쓰는 코드포인트 1024()는 다른 곳에 쓰이지 않고 UTF-16에서만 쓰이도록 豫約(예약)되어 있다.

關聯(관련)文書(문서)[編輯]

  1. 여기에서 實際(실제)로 쓰인 字形(자형)이 8()가지는 된다는 漢字(한자)가 큰 役割(역할)(?)을 했다. 完成型(완성형) 한글 11,172()도 만만찮았다(...).