-
計算機漢字資料庫中的漢字數量由字符集決定,GB2312有6000多個字元,GBK約為1-20000個,GB18030約為60000個。
計算機中漢字資訊的儲存和操作有四種:輸入碼、國標碼、內部碼和字型碼。
輸入碼:包括拼音編碼和字型編碼。 Microsoft拼音ABC是拼音編碼,五筆字體輸入法是字型編碼。
國標碼:又稱漢字交換碼,用於計算機間交換資訊。 用兩個位元組表示,每個位元組的最高位是 0,所以可以表示的漢字數是 2 的 14 的冪,即 16384。
在漢字區號的高低位元組中加上十進位數32(即十六進製數的20),得到國標碼。 例如,字元“中”的國家標準程式碼為 8680(十進位)或 7468(十六進製)。
內部程式碼:漢字內部程式碼用於在裝置和資訊處理系統內儲存、處理和傳輸漢字。 無論使用何種輸入程式碼,它都會在進入計算機後立即轉換為內部程式碼。
規則是在國家標準程式碼的高位元組和低位元組上加上128(十進位)或80(十六進製)。例如,當單詞“中”以十六進製表示時,其編碼應為 f4e8。 這樣做的目的是為了區分漢字編碼和西方的 ascii,因為每個西方字母的 ascii 的高位是 0,漢字編碼的每個位元組的高位是 1。
字型程式碼:表示漢字字形的字型模型資料,因此也稱為字型模式程式碼,是漢字的輸出形式。 它通常用格、向量函式等表示。
當用點陣表示時,字形碼是指該漢字的字形點陣的**。 根據輸出漢字的要求,點格的數量也不同。 簡單的漢字是 16 16 點,改進的漢字是 24 24 點、48 48 點,依此類推。
如果是 24 點 24 點矩陣,則每行 24 個點是 24 個二進位位,儲存一行需要 3 個位元組。 因此,24 行總共占用 3 24 = 72 位元組。 計算公式:
每行 8 行。 因此,對於 48 48 點陣,中文字形所需的儲存空間為 48 8 48 = 6 48 = 288 位元組。
-
根據標準水平,漢字型檔的數量也各不相同。
根據GB2312,其中指定的漢字資料庫包含6,763個常用漢字。
到GB18030年,漢字資料庫已大大擴充套件至70,244個(事實上,不僅“漢字”,而且許多少數民族漢字也被彙總並收集到這個版本的圖書館中)。