- 相關(guān)推薦
全國計算機應(yīng)用基礎(chǔ)知識:漢字、字符編碼
。1)計算機中的信息單位
計算機中對信息表示的單位有位、字、字長及字節(jié)等,它們是用來表示信息量的大小的基本概念。
、 位:計算機中數(shù)據(jù)存儲的最小單位是一個二進制位,簡稱位,英文為bit,音譯為比特,可用小寫字母b表示。
、 字節(jié):八位二進制位稱為一個字節(jié),英文為Byte,可用大寫字母B表示,是計算機存儲的基本單位。一個字節(jié)的八位二進制數(shù),其位編號自左至右為b7、b6、b5、b4、b3、b2、b1、b0。在計算機中,往往用字節(jié)數(shù)來表示存儲容量,容量可以以KB、MB、GB、TB為單位,它們相互之間的轉(zhuǎn)換關(guān)系如下:
1KB=210B=1024B
1MB=210KB=1024KB
1GB=210MB=1024MB
1TB=210GB=1024GB
、 字:計算機在存儲、傳送或操作時,作為一個整體單位進行操作的一組二進制,稱為一個計算機字,簡稱字。
④ 字長:每個字所包含的位數(shù)稱為字長。由于字長是計算機一次可處理的二進制數(shù)的位數(shù),因此它與計算機處理數(shù)據(jù)的速率有關(guān),是衡量計算機性能的一個重要因素。
。2)字符的編碼。
、 ASCII碼。
計算機只能識別二進制數(shù),因此計算機中的數(shù)字、字母、符號也必須用二進制進行編碼。編碼方法有多種,微型機中普遍采用的是ASCII碼(美國標(biāo)準(zhǔn)信息交換碼),ASCII碼現(xiàn)已被國際標(biāo)準(zhǔn)化組織(ISO)接收為國際標(biāo)準(zhǔn),稱為ISO-646。ASCII碼有7位版本和8位版本兩種,國際上通用的ASCII碼是7位版本。7位版本的ASCII碼包含10個阿拉伯?dāng)?shù)字、52個英文大小寫字母、32個標(biāo)點符號和運算符及34個控制碼,共128個字符,所以可用7位二進制數(shù)表示。7位ASCII碼字符如下圖所示:
要確定一個數(shù)字、字母、符號或控制字符的ASCII碼,可在表中先找出它的位置,然后確定它所對應(yīng)的十進制值或二進制值。例如小寫字母“a”的ASCII碼其十進制值是97,二進制值是1100001B(B表示二進制數(shù)),若轉(zhuǎn)換成十六進制,其值是61H(H表示十六進制數(shù))。從表中可以看出,數(shù)字0~9的ASCII碼是30H~39H(后綴H表示是十六進制數(shù)),大寫字母A~Z的ASCII碼是41H~5AH,小寫字母a~z的ASCII碼是61H~7AH。字符大小的比較就是看它的ASCII碼值的大小。
表中,NUL、BEL、LF、FF、CR、DEL等是控制字符,NUL表示空,BEL是告警符,BS是退格符,LF是換行符,F(xiàn)F是換頁符,CR是回車符,SP是空格符,DEL是刪除符。
、 BCD碼。
用計算機處理數(shù)字時,要進行二進制與十進制的相互轉(zhuǎn)換,這就要用二進制對十進制數(shù)進行編碼,BCD(Binary Coded Decimal)碼是二進制編碼的十進制數(shù)。最常用的BCD碼就是8421BCD碼,
它是用4位二進制數(shù)為一組表示一個十進制數(shù)字,4位二進制數(shù)從左到右其位權(quán)依次為8、4、2、1,它可以組合成16種狀態(tài),對0~9這10個數(shù)字的編碼只取0000~1001這前10種狀態(tài),其余6種狀態(tài)不用。為了能對一個多位十進制數(shù)進行編碼,需要有和十進制數(shù)的位數(shù)一樣多的4位二進制組,按順序分別進行編碼。表1-4表示8421BCD碼與十進制數(shù)的對應(yīng)關(guān)系。
表1-4 BCD碼與十進制數(shù)的對應(yīng)關(guān)系
、 Unicode編碼
ASCII碼提供了128個字符,擴展的ASC碼提供了256個字符,但用來表示世界各國的文字編碼還顯得不夠,還需要表示更多的字符和意義,因此又出現(xiàn)了Unicode編碼。
Unicode是一種16位的編碼,能夠表示65000多個字符或符號。目前世界上的各種語言一般所使用的字母或符號在34000個左右,所以Unicode編碼可以用于任何一種語言。Unicode編碼與現(xiàn)在流行的ASCII碼完全兼容,二者的前256個符號是一樣的。
(3)漢字的編碼
漢字是一種象形文字,字數(shù)極多(現(xiàn)代漢字中僅常用字就有六七千個,總字數(shù)高達5萬個以上),且字形復(fù)雜,每一個漢字都有“音、形、義”三要素,同音字、異體字也很多,這些都給漢字的計算機處理帶來了很大的困難。要在計算機中處理漢字,必須解決以下幾個問題:首先,是漢字的輸入,即如何把結(jié)構(gòu)復(fù)雜的方塊漢字輸入到計算機中去,這是漢字處理的關(guān)鍵;其次,漢字在計算機內(nèi)如何表示和存儲,如何與西文兼容;最后,如何將漢字的處理結(jié)果從計算機內(nèi)輸出。為此,必須將漢字代碼化,
即對漢字進行編碼。對應(yīng)于上述漢字處理過程中的輸入、內(nèi)部處理及輸出這3個主要環(huán)節(jié),每一個漢字的編碼都包括輸入碼、交換碼、內(nèi)部碼和字形碼。在計算機的漢字信息處理系統(tǒng)中,處理漢字時要進行如下的代碼轉(zhuǎn)換:輸入碼→交換碼→內(nèi)部碼→字形碼。以上簡述了對漢字進行計算機處理的基本思想和過程,下面具體介紹漢字的4種編碼。
、 輸入碼。
為了利用計算機上現(xiàn)有的標(biāo)準(zhǔn)西文鍵盤來輸入漢字,必須為漢字設(shè)計輸入編碼。輸入碼也稱為外碼。目前,已申請專利的漢字輸入編碼方案有六七百種之多,而且還不斷有新的輸入方法問世,以至于有“萬碼奔騰”之喻。按照不同的設(shè)計思想,可把這些數(shù)量眾多的輸入碼歸納為四大類:數(shù)字編碼、拼音碼、字形碼和音形碼。其中,目前應(yīng)用最廣泛的是拼音碼和字形碼。
a. 數(shù)字編碼:數(shù)字編碼是用等長的
數(shù)字串為漢字逐一編號,以這個編號作為漢字的輸入碼,如區(qū)位碼、電XX等都屬于數(shù)字編碼。此種編碼的編碼規(guī)則簡單,易于與漢字的內(nèi)部碼轉(zhuǎn)換,但難于記憶,僅適用于某些特定部門。
b. 拼音碼:拼音碼是以漢字的讀音為基礎(chǔ)的輸入碼。拼音碼使用方法簡單,一學(xué)就會,易于推廣,缺點是重碼率較高(因漢字同音字多),在輸入時常要進行屏幕選字,對輸入速度有影響。拼音碼是按照漢語拼音編碼輸入,因此在輸入漢字時,要求讀音標(biāo)準(zhǔn),不能使用方言。拼音碼特別適合于對輸入速度要求不是太高的非專業(yè)錄入人員。
c. 字形碼:字形碼是以漢字的字形結(jié)構(gòu)為基礎(chǔ)的輸入編碼。在微型計算機上廣為使用的五筆字型碼(王碼)是字形碼的典型代表。五筆字型碼的主要特點為輸入速度快,目前最高紀(jì)錄為每分鐘輸入293個漢字(該記錄為XXXX一女兵所保持),如此高的輸入速度已達
到人眼掃描的極限。但這種輸入方法因要記憶字根、練習(xí)拆字,前期學(xué)習(xí)花費的時間較多。此外,有極少數(shù)的漢字拆分困難,給出的編碼與漢字的書寫習(xí)慣不一致。
d. 音形碼:音形碼是兼顧漢字的讀音和字形的輸入編碼。目前使用較多的音形碼是自然碼。
、 交換碼。
交換碼用于漢字外碼和內(nèi)部碼的交換。我國于1981年頒布的《信息交換用漢字編碼字符集·基本集》(代號為GB2312—1980)是交換碼的國家標(biāo)準(zhǔn),所以交換碼也稱為國標(biāo)碼。國標(biāo)碼是雙字節(jié)代碼,即有兩個字節(jié)為一個漢字編碼,每個字節(jié)的最高位為“1”。國標(biāo)GB2312—1980收入常用漢字6763個(其中一級漢字3755個,按拼音順序排列;二級漢字3008個,按部首順序),其他字母及圖形符號(如序號、數(shù)字、羅馬數(shù)字、英文字母、日文假名、俄文字母
和漢語注音等)682個,總計7445個字符。將這7445個字符按94行×94列排列在一起,組成GB2312—1980字符集編碼表,表中的每一個漢字都對應(yīng)于唯一的行號(稱為區(qū)號)和列號(稱為位號),根據(jù)區(qū)位號確定漢字的國標(biāo)碼值,分別用兩個字節(jié)存放。由于篇幅所限,本書未列出GB2312—1980字符編碼表,讀者可參看有關(guān)書籍。
③ 內(nèi)部碼。
內(nèi)部碼是漢字在計算機內(nèi)的基本表示形式,是計算機對漢字進行識別、存儲、處理和傳輸所用的編碼。內(nèi)部碼也是雙字節(jié)編碼,將國標(biāo)碼兩個字節(jié)的最高位都置為“1”,即轉(zhuǎn)換成漢字的內(nèi)部碼。計算機信息處理系統(tǒng)就是根據(jù)字符編碼的最高位是“1”還是“0”來區(qū)分漢字字符和ASCII碼字符的。
、 字形碼。
字形碼是表示漢字字形信息(漢字的結(jié)構(gòu)、形狀、筆畫等)的編碼,用來
實現(xiàn)計算機對漢字的輸出(顯示、打。S捎跐h字是方塊字,因此字形碼最常用的表示方式是點陣形式,有16×16點陣、24×24點陣和48×48點陣等。例如,16×16點陣的含義為:有256個點(16× 16=256)來表示一個漢字的字形信息,每個點有“亮”或“滅”兩種狀態(tài),用一個二進制數(shù)的“1”或“0”來對應(yīng)表示。因此,存儲一個16×16點陣的漢字需要256個二進制位,共32個字節(jié)(256位/8位)。以上的點陣可根據(jù)漢字輸出的不同需要進行選擇,點陣的點數(shù)越多,輸出的漢字就越精確、美觀。漢字的字形點陣要占用大量的存儲空間,通常將其以字庫的形式存放在機器的外存中,需要時才檢索字庫,輸出相應(yīng)漢字的字形。
【全國計算機應(yīng)用基礎(chǔ)知識:漢字、字符編碼】相關(guān)文章:
美術(shù)色彩基礎(chǔ)知識高級灰的應(yīng)用01-17
2023年全國計算機二級公共基礎(chǔ)知識考試試題及答案02-13
計算機應(yīng)用基礎(chǔ)試卷03-09
計算機基礎(chǔ)應(yīng)用試題05-14
計算機基礎(chǔ)知識測試題及答案03-02
計算機應(yīng)用都學(xué)什么04-12