-
unicode
一種字元編碼系統,每個字元使用兩個位元組,無論它是否是 ASCII 字元。 此編碼方案受 Microsoft Windows NT 平台支援,並在 32 位 ActiveX 技術中加以利用。 國際標準化組織 (ISO) 字元標準。
Unicode 使用 16 位(2 位元組)編碼方案,允許 65,536 個不同的字元空間。 Unicode 包含標點符號、數學符號、修飾符等的表示形式。
ASCII 字符集。
美國資訊交換標準程式碼的縮寫,是一種 7 位字符集,廣泛用於表示標準鍵盤上的字母和符號。 ASCII 字符集與 ANSI 字符集中的前 128 個字元(0 到 127)相同。 程式碼值的範圍為 0 到 255,表示字母、數字、標點符號和其他字元。
ASCII 程式碼是用於在計算機之間或計算機與外圍裝置之間交換資訊的標準化程式碼。
ANSI 字符集。
Microsoft Windows 使用美國國家標準協會 (ANSI) 8 位字符集,該字符集在鍵盤上最多可以表示 256 個字元。 前 128 個字元表示標準美式鍵盤上的字母和符號。 最後 128 個字元表示特殊字元,例如國際字母表中的字母、重音符號、貨幣符號和分數符號等。
-
分類: 計算機, 網路, >>軟體.
分析:目前,計算機中使用最廣泛的字符集及其編碼是美國國家標準局(ANSI)制定的ASCII碼(美國資訊交換標準程式碼),該程式碼已被國際標準化組織(ISO)定為國際標準,稱為ISO 646標準。 Comic 可用於所有拉丁字母,ASCII 程式碼有 7 位和 8 位兩種形式。
因為 1 個二進位數可以表示 (21=) 2 個狀態; 乙個 2 位二進位數可以表示 (22) = 4 個狀態; 以此類推,乙個 7 位二進位數可以表示 (27=) 128 個狀態,每個狀態都唯一編碼為對應於乙個字元(或控制程式碼)的 7 位二進位程式碼,該字元可以排列成乙個十進位序列號 0 127。 因此,乙個 7 位 ASCII 程式碼用乙個 7 位二進位數編碼,可以表示 128 個字元。
0 32 號和 127 號(共 34 個)是控制字元或通訊字元,如控制字元:lf(換行符)、cr(回車)、ff(換頁)、del(刪除)、bel(響)等;
特定於通訊的字元:SOH(標頭)、EOT(結尾)、ACK(確認)等。
33 126 號(共 94 個)為字元,其中 48 57 號為 0 9 十 ** 位; 65 90 是 26 個大寫字母,97 122 是 26 個小寫字母,其餘的是一些標點符號、操作標記等。
注意:在計算機的記憶體單元中,ASCII碼值占用乙個位元組(8個二進位位),其最高位(B7)用作奇偶校驗位。 所謂奇偶校驗是指用來檢查傳輸過程中是否存在錯誤的方法,一般分為奇數校驗和偶數校驗兩種。
奇數校驗規定:乙個位元組中正確的1個必須是奇數,如果不是奇數,則在最高b7上加1; 偶數檢查規定乙個位元組中的 1 個必須是偶數,如果不是偶數,則將 1 加到最高的 b7。
Unicode程式碼:Unicode程式碼也是國際標準的早期尊重程式碼,它使用雙位元組編碼,與ANSI程式碼不相容。 目前,它被用於網際網絡、Windows系統和許多大型軟體中。
-
因為開孔輥上電的裝置最初只有斷電(0)和上電(1)兩種狀態,所以電腦裡所有複雜的東西歸根結底都是按0和1來排列和組合的,所以為了在電腦上顯示文字,就需要讓文字對應對應的0和1(即 二進位數)。
由於計算機最初是由美國人發明的,因此最早的對應關係是:f(二進位數)=英文字元,其中英文字元包含數字。 這裡的對應關係 f 稱為編碼表(ASCII,1 位元組)。
然而,隨著計算機的普及,計算機開始被各國的人們使用,而只能表示英語和數字的ASCII並不能滿足每個人的需求,例如,它無法顯示中文、韓文、日文等與其他國家不符的語言。 所以我們在中國開發了自己的GB2312程式碼,將中文加入到ASCII碼中(意味著GB2312相容ASCII對應規則,GB2312只是在ASCII的基礎上的擴充套件),同時其他國家也做了同樣的事情,每個國家都有自己的一套程式碼,所以在多語種混合文字中會出現亂碼(因為國家和國家基本不相容)。
那麼,你為什麼不想出乙個與世界上所有語言相容的統一程式碼呢? 於是Unicode應運而生,它將所有語言統一成一組程式碼,這樣只要大家使用這套編碼圖紙,就不會再有亂碼字元了。
但是,隨著Unicode中語言的加入,編碼需要的位元組越來越多(4個位元組),有時英文文件原本只需要1K就用ASCII儲存,但如果使用Unicode,就會增加到4K,這會造成網路傳輸資源的極大浪費, 所以本著經濟的精神,有可變長度的UTF-8編碼,相容ASCII等語言,不會造成太多空間浪費。
現在在儲存的時候,文字一般都是以UTF-8的形式儲存的(因為這樣更節省空間),但是在計算機記憶體中,Unicode編碼還是統一使用的,因為Unicode是固定長度的編碼,固定長度的編碼CPU的處理效率更高。 也就是說,計算機從硬碟中讀取文字,將其編碼格式(UTF-8)轉換為Unicode到CPU進行處理,然後將記憶體中的Unicode編碼文字轉換為UTF-8並儲存在硬碟上。
注意:1 位元組 = 8 位。
-
ASCII碼採用單位元組編碼,所以它的範圍基本上只有英文字母、數字和一些特殊符號,只有256個字元。
表示 Unicode 字元時,通常使用“U+”後跟一組十六進製數字來表示該字元。 在基本多語言平面(縮寫為 BMP)中。 它也被稱為“平面零”,平面0),所有字元均為四位十六進製數(例如u+4ae0,共計超過60,000個字元);零平面以外的字元需要使用五位或六位十六進製數。
舊版本的Unicode標準使用類似的表示法方法,但有一些細微的區別:在Unicode中,“u-”後跟八位數字,而“u+”後跟四位數字。
Unicode 能夠表示世界上的所有位元組。
GBK僅用於對漢字進行編碼,GBK的全稱是“漢字內部程式碼擴充套件規範”,採用雙位元組編碼。
UTF-8(8 位 Unicode 轉換格式)是 Unicode 的可變長度字元編碼,也稱為通用程式碼。 由Ken Thompson於1992年創立。 它現在已標準化為 RFC,以對 1 到 6 個位元組的 Unicode 字元進行編碼。
可以在同一頁面上顯示中文、簡體、繁體和其他語言(如英語、日語、韓語)。
-
1. ASCII碼。
string s = "梁";
gb2312 = "gb2312");
byte gb = ;
此時,GB中有兩個數字:193(11000001)和186(10111010)。
2.非ASCII編碼。
string s = "梁";
gb2312 = "gb2312");
byte gb = ;
此時,GB中有兩個數字:193(11000001)和186(10111010)。
3、unicode
當然,Unicode 是乙個龐大的集合,現在可以容納超過 100 萬個符號。 每個符號的編碼方式都不同。 c 如果要檢視某個漢字的 unicode 編碼,可以使用以下 **:
string s = "梁";
byte unicode = ;
目前,Unicode 中有兩個數字:129 (10000001) 和 104 (1101000)。
-
機器只知道 1 和 0,所以為了能夠用自己的語言與機器交流,人們制定了各種規定二進位字元和句法字元之間的對應關係,即編碼
最早流行的編碼集是ASCII碼,它規定了乙個位元組(8位二進位)中128個字元的編碼(第乙個二進位統一為0,2 7),主要是英文字元。
英語足以使用 ASCII 中指定的 128 個字元但它遠遠不足以代表其他語言,即使它首先使用了二進位,所以有各種中文語言的編碼,比如支援簡體中文的gb2312,支援正體中文的big5。 所以在解析檔案的時候,還需要注意它的編碼格式,否則會是亂碼,因為不同的編碼會有不同的二進位解釋。
Unicode就是在這種背景下誕生的它統一了世界各地的語言符號。它由 u+** 表示,* 是十六進製數。
Unicode 在實際應用中是有問題的,例如:對於多位元組字元命令,如何讓機器知道這是乙個字元而不是多個字元?因此,在與機器的實際互動中,需要將Unicode轉換為格式並使用它,這導致了UTF(UTF,是Unicode TransformationFormat的縮寫,意思是Unicode轉換格式),包括UTF-32、UTF-16、UTF-8等。
規則:每個碼位由四個位元組表示,位元組內容對應於 Unicode 碼位
缺點:浪費空間。如果乙個檔案全部是英文的,則每個字元將浪費三個位元組的空間,因為每個英文字元可以表示乙個位元組。
規則:規則:
-
詳情如下。
字母 A 的 ASCII 編碼是 65,採用十進位和二進位。 世界上所有的語言都統一為一組程式碼,通常為兩個位元組。 字母 A 的 ASCII 編碼為十進位 65,二進位為 0000000001000001(基於 ASCII 編碼,前面加 8 位數字 0); 在漢字中,unicode 編碼為十進位的 20013 和二進位的 0100111000101101。
ASCII(美國資訊交換標準程式碼)是一種基於拉丁字母的計算機編碼系統,主要用於顯示現代英語和其他西歐語言。 它是最常見的資訊交換標準,它於 1967 年首次發布,最後一次更新於 1986 年,以國際標準 ISO 標準的形式進行更新,到目前為止總共定義了 128 個字元。
BCD碼又稱8421碼,就是把十進位數以8421的形式變成二進位,我們都知道十進位系統是由0 9十個數字組成的,用十個數字每個數字都有自己的8421碼: >>>More
所謂蓋飯,就是廚師將新鮮油炸的蔬菜和果汁放在公尺飯上的蓋飯。 流入公尺飯的醬汁的味道非常美味,喜歡用油浸泡公尺飯的人特別喜歡它。 >>>More
莫爾斯電碼是美國畫家、電報發明者莫爾斯先生於1838年發明的一套“點”和“筆”系統,它通過不同的“點”和“筆畫”序列來表達不同的英文字母、數字和標點符號。 1844年,在美國國會的財政支援下,莫爾斯先生開通了第一條從馬里蘭州巴爾的摩到美國首都華盛頓特區的電報線路,使用“摩爾斯電碼”進行通訊,1851年,在歐洲國家有關各方的支援下,莫爾斯電碼被簡化,從此成為國際標準的通訊密碼。 電報的發明和摩爾斯電碼的使用改變了人類社會的面貌。 >>>More