HTML基礎教程之計算機編碼(字符集)
計算機編碼(字符集)——了解
為什么要有字符集,是因為計算機只能處理二進制數(shù)據(jù)。為了讓計算機能識別人類語言(0-9、a-z、A-Z、特殊符號),我們就需要對這每一個字符進行“編碼”。所謂“編碼”就是:每一個字符,可以用不同的二進制來表示。
假設:A 用二進制表示 1000, B ?用二進制表示 1001
ASCII編碼:用1個字節(jié)(8位二進制)來表示所有字符,共可以表示 2^8 = 256 。
ANSI編碼:其它國家,都對ASCII編碼進行擴展,用于顯示本國的語言。
ANSI在中文操作系統(tǒng)下,代表gb2312
ANSI在繁體操作系統(tǒng)下,代表big5
ANSI在日文操作系統(tǒng)下,代表JIS
……
用2個字節(jié)(16位二進制)(來表示,共可以表示 2^16 = 65536個字符。
GB2312中共收錄了6763個漢字。
GBK編碼:對GB2312進行擴充,收錄了一些冷門字、罕見字、古漢語等。共收錄2.1萬個漢字。
?
Unicode編碼:計劃將世界上所有字符統(tǒng)一編碼,用4個字節(jié)(32位二進制)來表示一個字符。
它的缺點:編碼表文件太大了,不方便使用。用32位二進制表示一個字符,造成空間極大浪費。
假設:1 ?用Unicode編碼表示 0000000000000000000000000000000000000000000000001
UTF-8:統(tǒng)一轉換格式編碼(多國語言編碼)
不同的字符,它會選擇合適編碼來進行翻譯。
如:1 可以使用ASCII中編碼(8位二進制)
“國”可以使用2個字節(jié)來表示