"유니코드는 모든 文字가 2바이트"라는 認識이 있지만, 이미 옛날 얘기가 되었다 볼 수 있다. 2바이트(16비트) 固定길이로는 全世界에서 쓰였거나 쓰이고 있는 文字體系를 모두 收錄하기에는 택도 없이 不足했기 때문이다. [1] 이에 얼마 안 남은 空間을 '서러게이트 雙'이라는 이름으로 豫約하여, 이 領域의 코드를 두個 늘어놓는 組合으로 한 글字를 表現하게 하였다.
그 結果, 유니코드의 可用코드포인트가 U+FFFF에서 U+10FFFF까지로 17倍擴張되었다. 그 後로는 擴張된 '平面'中오직 漢字만을 爲해 만들어진 것을 금세 거의 채우고, 平面을 하나 더 割當해서甲骨文이나 金文, 篆書같은 새로운 글字가 보이는대로 追加되고 있다. 繪文字가 유니코드에 導入된 것도 이러한 擴張이 이루어지지 않았으면 不可能했을 것이다.
BMP에서 서러게이트雙으로 쓰는 코드포인트 1024個는 다른 곳에 쓰이지 않고 UTF-16에서만 쓰이도록 豫約되어 있다.