導航:首頁 > 解決方法 > 簡述解決中文漢字編碼問題的兩種常用方法

簡述解決中文漢字編碼問題的兩種常用方法

發布時間:2022-08-18 14:57:48

① 漢字的編碼有幾種各有什麼用途

漢字的編碼分為外碼、交換碼、機內碼、字形碼和地址碼。具體用途如下:

1、外碼(輸入碼)

外碼也叫輸入碼,是用來將漢字輸入到計算機中的一組鍵盤符號。常用的輸入碼有拼音碼、五筆字型碼、自然碼、表形碼、認知碼、區位碼和電報碼等,一種好的編碼應有編碼規則簡單、易學好記、操作方便、重碼率低、輸入速度快等優點,每個人可根據自己的需要進行選擇。

2、交換碼(國標碼)

計算機內部處理的信息,都是用二進制代碼表示的,漢字也不例外。而二進制代碼使用起來是不方便的,於是需要採用信息交換碼。中國標准總局1981年制定了中華人民共和國國家標准GB2312--80《信息交換用漢字編碼字元集--基本集》,即國標碼。

3、機內碼

根據國標碼的規定,每一個漢字都有了確定的二進制代碼,在微機內部漢字代碼都用機內碼,在磁碟上記錄漢字代碼也使用機內碼。

4、漢字的字形碼

字形碼是漢字的輸出碼,輸出漢字時都採用圖形方式,無論漢字的筆畫多少,每個漢字都可以寫在同樣大小的方塊中。通常用16×16點陣來顯示漢字。

5、漢字地址碼

漢字地址碼是指漢字型檔中存儲漢字字形信息的邏輯地址碼。它與漢字內碼有著簡單的對應關系,以簡化內碼到地址碼的轉換。

(1)簡述解決中文漢字編碼問題的兩種常用方法擴展閱讀

1、機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。

2、通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。

3、通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入設備將漢字輸入計算機。

② 編碼方式是什麼

編碼方式就是指通過特定的壓縮技術,將某個視頻格式的文件轉換成另一種視頻格式文件的方式

③ 計算機內部處理漢字所採用的編碼形式

什麼是 Unicode?
歷史上, 有兩個獨立的, 創立單一字元集的嘗試. 一個是國際標准化組織(ISO)的 ISO 10646 項目, 另一個是由(一開始大多是美國的)多語言軟體製造商組成的協會組織的 Unicode 項目. 幸運的是, 1991年前後, 兩個項目的參與者都認識到, 世界不需要兩個不同的單一字元集. 它們合並雙方的工作成果, 並為創立一個單一編碼表而協同工作. 兩個項目仍都存在並獨立地公布各自的標准, 但 Unicode 協會和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 標準的碼表兼容, 並緊密地共同調整任何未來的擴展.

Unicode vs ISO 10646
Unicode 協會公布的 Unicode 標准 嚴密地包含了 ISO 10646-1 實現級別3的基本多語言面. 在兩個標准里所有的字元都在相同的位置並且有相同的名字.

Unicode 標准額外定義了許多與字元有關的語義符號學, 一般而言是對於實現高質量的印刷出版系統的更好的參考. Unicode 詳細說明了繪制某些語言(比如阿拉伯語)表達形式的演算法, 處理雙向文字(比如拉丁與希伯來文混合文字)的演算法和 排序與字元串比較 所需的演算法, 以及其他許多東西.

另一方面, ISO 10646 標准, 就象廣為人知的 ISO 8859 標准一樣, 只不過是一個簡單的字元集表. 它指定了一些與標准有關的術語, 定義了一些編碼的別名, 並包括了規范說明, 指定了怎樣使用 UCS 連接其他 ISO 標準的實現, 比如 ISO 6429 和 ISO 2022. 還有一些與 ISO 緊密相關的, 比如 ISO 14651 是關於 UCS 字元串排序的.

考慮到 Unicode 標准有一個易記的名字, 且在任何好的書店裡的 Addison-Wesley 里有, 只花費 ISO 版本的一小部分, 且包括更多的輔助信息, 因而它成為使用廣泛得多的參考也就不足為奇了. 然而, 一般認為, 用於列印 ISO 10646-1 標準的字體在某些方面的質量要高於用於列印 Unicode 2.0的. 專業字體設計者總是被建議說要兩個標准都實現, 但一些提供的樣例字形有顯著的區別. ISO 10646-1 標准同樣使用四種不同的風格變體來顯示表意文字如中文, 日文和韓文 (CJK), 而 Unicode 2.0 的表裡只有中文的變體. 這導致了普遍的認為 Unicode 對日本用戶來說是不可接收的傳說, 盡管是錯誤的.
ASCⅡ碼
計算機內部採用二進制的方式計數,那麼它為什麼又能識別十進制數和各種字元、圖形呢?其實,不論是數值數據還是文字、圖形等,在計算機內部都採用了一種編碼標准。通過編碼標准可以把它轉換成二進制數來進行處理,計算機將這些信息處理完畢再轉換成可視的信息顯示出來。常用的字元代碼是ASCII碼,它原來是美國的國家標准,1967年被定為國際標准。
ASCII碼由8位二進制數組成,其中最高位為較驗位,用於傳輸過程檢驗數據正確性。其餘7位二進制數表示一個字元,共有128種組合。如回車的ASCII碼為0001101(13),空格的ASCII碼為0100000(32),「0」 的ASCII碼為0110000(48),「A」 的ASCII碼為1000001(65),「a」的ASCII碼為1100001(97)。
Hanzi bianma漢字編碼Chinese character encoding

為漢字設計的一種便於輸入計算機的代碼。由於電子計算機現有的輸入鍵盤與英文打字機鍵盤完全兼容。因而如何輸入非拉丁字母的文字(包括漢字)便成了多年來人們研究的課題。
漢字信息處理系統一般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。不解決這個問題,漢字就不能進入計算機。
漢字進入計算機的三種途徑 分別為:
①機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。
②通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。
③通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入設備將漢字輸入計算機。
機器自動識別漢字和漢語語音識別,國內外都在研究,雖然取得了不少進展,但由於難度大,預計還要經過相當一段時間才能得到解決。在現階段,比較現實的就是通過漢字編碼方法使漢字進入計算機。
漢字編碼的困難點 漢字進入計算機,有許多困難,其原因主要有三點:
①數量龐大:隨著社會的發展,新字不斷出現,死字沒有淘汰,漢字總數不斷增多。一般認為,現在漢字總數已超過6萬個(包括簡化字)。雖有研究者主張規定3000多或4000字作為當代通用漢字,但仍比處理由二三十個字母組成的拼音文字要困難得多。
②字形復雜:有古體今體,繁體簡體,正體異體;而且筆畫相差懸殊,少的一筆,多的達36筆,簡化後平均為9.8筆。
③存在大量一音多字和一字多音的現象:漢語音節416個,分聲調後為1295個(根據《現代漢語詞典》統計,輕聲39個未計)。以1萬個漢字計算,每個不帶調的音節平均超過24個漢字,每個帶調音節平均超過7.7個漢字。有的同音同調字多達66個。一字多音現象也很普遍。
五種類型的編碼法 據粗略統計,現有400多種編碼方案,其中上機通過試驗的和已被採用作為輸入方式的也有數十種之多。歸納起來,不外5種類型:
①整字輸入法:前一階段,一般是將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上。近來,大多是將這些漢字按XY坐標排列在一張字表上,通常叫「 字表法」,或「筆觸字表法」。比如,X25行和Y90列交叉的字為「國」,當電筆點到字表上的「國」字時,機器自動將該字的代碼2590輸入。鍵盤上或字表中字按部首或按音序或按字義聯想而排列。不常用的字作為盤外字或表外字,另行編碼處理。
②字形分解法:將漢字的形體分解成筆畫或部件,按一定順序輸進機器。筆畫一般分成 8種:橫(一)、豎(丨)、撇(丿)、點(丶)、折(□)、彎(□)、叉(十)、方(口)。部件一般歸納出一二百個。由於一般鍵盤上只有42個鍵(包括數字和標點),容納不下這么多部件,因而有人設計中鍵盤,也有人利用部件形體上的相似點或出現概率的不同,而把100多個部件分布在26個字母鍵上。
③字形為主、字音為輔的編碼法:這種編碼法與字形分解法的不同在於還要利用某些字音信息。如有的方案為了簡化編碼規則,縮短碼長,在字形碼上附加字音碼,有的方案為了採用標准英文電傳機,將分解歸納出來的字素通過關系字的讀音轉化為拉丁字母。
④全拼音輸入法:絕大多數是以現行的漢語拼音方案為基礎進行設計。關鍵問題是區分同音字,因而有的方案提出「以詞定字」的方法,還有的方案提出「拼音-漢字轉換法」,即「漢語拼音輸入 ——機內軟體變換(實為查機器詞表)——漢字輸出」系統。
⑤拼音為主、字形為輔的編碼法:一般在拼音碼前面或後面再添加一些字形碼。拼音碼有用現行漢語拼音方案或稍加簡化的,還有的為了縮短碼長而把聲母和韻母都用單字母或單字鍵表示的「雙拼方案」或「雙打方案」。如F鍵既表聲母F,又表韻母ang,連擊兩下,便是Fang「方」字。區分同音字的字形碼也多種多樣。除了大部分採用偏旁部首的信息外,還有採用起末筆或採用語義類別的。
上述各種編碼法,各有短長。例如,字表法的特點是一字一格(鍵),無重碼,直觀性好,操作簡單。缺點是需特製鍵盤,速度較慢。字形分解法的好處是按形取碼,不涉及字音,因而不認識的字(包括生僻字、古字)也同樣可以編碼輸入;但漢字形體結構非常復雜,寫法也有許多差異,分解標准不易統一,因而不少方案規則較多。拼音輸入法(包括拼音-漢字轉換法)的優點是操作簡捷,可以「盲打」,不受漢字簡化、字形改變的影響,符合拼音化方向,並且還便於作進一步信息處理;缺點是不認識的字無法輸入;另外,如果不加字形碼或不用以詞定字法或顯式選擇法,同音字較難處理。
雙軌制編碼 漢語拼音推廣應用,並逐步過渡到漢字和漢語拼音文字並存並用,這是一種雙軌制。漢字信息處理領域中,音碼和形碼的並存並用,同樣是一種雙軌制。因此,不少人認為,採用雙軌制好,理由有以下5點:
①對掌握普通話的人來說,使用音碼比形碼方便,速度比較快。形碼雖然較慢,但能輸入任何漢字(包括古字)。採用雙軌,操作員認識的字可按音輸入,不認識的字按形輸入,會普通話的人可按音輸入,方音重的人可按形輸入。
②對於用字量少的單位,按音輸入無問題,但對用字量多的單位來說,按音輸入就不如按形輸入,因為一般人只能念出一部分漢字。
③按形輸入(尤其是整體輸入)對於中文信息處理的某類工作,如統計漢字,非常適合;但是對於其他類工作,例如統計漢語的音(聲韻調)則無能為力。按音輸入則正相反。雙軌正好是相輔相成。
④有的形碼可以照顧多種漢字(如日本的漢字、南朝鮮的漢字),而音碼能分詞連寫,便於作進一步的信息處理。
⑤適當的雙軌方案,不會增加設備上的麻煩。如不考慮採用整字輸入,一般均可使用現有的小鍵盤。
漢字編碼研究的新發展 除了單軌向雙軌發展之外,還有下列趨勢:
①混合式編碼法。筆觸字表示法中除整體字之外,增加一些部件或字元,可以解決盤外字問題,甚至能具有字形分解法的全部優點。而筆畫方案為了提高速度,一般也增加一些部件或整字。
②充分利用簡碼和詞彙碼。這樣可以提高輸入速度。因而人們為少量出現頻率高的字或詞設計了單字母和雙字母的簡碼。
詞彙碼也是提高速度的手段。有一種形碼方案的詞彙碼是根據每個字的部件規定的,如「漢字編碼」的詞彙碼是43、45、55、13(氵冖糹石)。另一種形碼方案的詞彙碼是利用計算機引導方式輸入的。例如,當「中」字輸入後,一按語詞鍵,屏幕上便顯示出「中國」、「中型」、「中性」、「中華」等雙音詞;選擇「 中國」後,如再按一下語詞鍵,便可顯示出「(中國)話」、「(中國)人民」、「(中國)共產黨、」、「(中國)工農紅軍」等詞或片語。音碼方案的詞彙碼實際上為片語碼,如 ZRG「中華人民共和國」,ZZXY「中國中文信息研究會」。詞彙碼不僅能提高速度,而且也能區別同碼。但是,如果用得太多,也會產生重碼。因此,有必要劃分通用詞彙碼和專業詞彙碼,以減少重碼。
③充分發揮「電腦」的作用,盡量減少「人腦」的負擔。上述計算機引導輸入法就是一例。還有的方案不斷以開窗口方式向操作員提供選擇的范圍。這樣,操作員不必再記憶大量的編碼規則。
編碼工作中的定型化和標准化編碼方案的定型化,即一般所說的選優工作,對計算機的普及應用非常重要。當然,定型或選優並不意味著只定一種或只選一種,而要照顧到多種用戶的需要。關於選優,曾提出多種評定標准,一般包括字碼無二義性、操作方便易學、輸入和處理效率高、存儲節省、傳輸可靠、設備經濟實用、組詞能力強。
編碼方案繁多,需要有一個統一的標准。1981年,國家標准局公布了《信息交換用漢字編碼字元集基本集》(簡稱漢字標准交換碼),共分兩級,一級3755 個字,二級3008個字,共6763個字。這種漢字標准交換碼是計算機的內部碼,可以為各種輸入輸出設備的設計提供統一的標准,使各種系統之間的信息交換有共同一致性,從而使信息資源的共享得以保證。目前,正在制定《信息交換用漢字編碼字元集輔助集》,以滿足少數用字量超過基本集的用戶和台灣、香港等地的需要。

④ 在漢字信息處理中,漢字輸入編碼方法主要分為

計算機中漢字的表示也是用二進制編碼,同樣是人為編碼的。根據應用目的的不同,漢字編碼分為外碼、交換碼、機內碼和字形碼。

1.外碼(輸入碼)

外碼也叫輸入碼,是用來將漢字輸入到計算機中的一組鍵盤符號。常用的輸入碼有拼音碼、五筆字型碼、自然碼、表形碼、認知碼、區位碼和電報碼等,一種好的編碼應有編碼規則簡單、易學好記、操作方便、重碼率低、輸入速度快等優點,每個人可根據自己的需要進行選擇。

2.交換碼(國標碼)

計算機內部處理的信息,都是用二進制代碼表示的,漢字也不例外。而二進制代碼使用起來是不方便的,於是需要採用信息交換碼。中國標准總局1981年制定了中華人民共和國國家標准GB2312--80《信息交換用漢字編碼字元集--基本集》,即國標碼。

區位碼是國標碼的另一種表現形式,把國標GB2312--80中的漢字、圖形符號組成一個94×94的方陣,分為94個「區」,每區包含94個「位」,其中「區」的序號由01至94,「位」的序號也是從01至94。94個區中位置總數=94×94=8836個,其中7445個漢字和圖形字元中的每一個佔一個位置後,還剩下1391個空位,這1391個位置空下來保留備用。

3.機內碼

根據國標碼的規定,每一個漢字都有了確定的二進制代碼,在微機內部漢字代碼都用機內碼,在磁碟上記錄漢字代碼也使用機內碼。

4.漢字的字形碼

字形碼是漢字的輸出碼,輸出漢字時都採用圖形方式,無論漢字的筆畫多少,每個漢字都可以寫在同樣大小的方塊中。通常用16×16點陣來顯示漢字。

5.漢字地址碼

漢字地址碼是指漢字型檔中存儲漢字字形信息的邏輯地址碼。它與漢字內碼有著簡單的對應關系,以簡化內碼到地址碼的轉換。

⑤ 常見的編碼方式

一、ASCII 碼
我們知道,計算機內部,所有信息最終都是一個二進制值。每一個二進制位(bit)有0和1兩種狀態,因此八個二進制位就可以組合出256種狀態,這被稱為一個位元組(byte)。也就是說,一個位元組一共可以用來表示256種不同的狀態,每一個狀態對應一個符號,就是256個符號,從00000000到11111111。

上個世紀60年代,美國制定了一套字元編碼,對英語字元與二進制位之間的關系,做了統一規定。這被稱為 ASCII 碼,一直沿用至今。

ASCII 碼一共規定了128個字元的編碼,比如空格SPACE是32(二進制00100000),大寫的字母A是65(二進制01000001)。這128個符號(包括32個不能列印出來的控制符號),只佔用了一個位元組的後面7位,最前面的一位統一規定為0。

二、非 ASCII 編碼
英語用128個符號編碼就夠了,但是用來表示其他語言,128個符號是不夠的。比如,在法語中,字母上方有注音符號,它就無法用 ASCII 碼表示。於是,一些歐洲國家就決定,利用位元組中閑置的最高位編入新的符號。比如,法語中的é的編碼為130(二進制10000010)。這樣一來,這些歐洲國家使用的編碼體系,可以表示最多256個符號。

但是,這里又出現了新的問題。不同的國家有不同的字母,因此,哪怕它們都使用256個符號的編碼方式,代表的字母卻不一樣。比如,130在法語編碼中代表了é,在希伯來語編碼中卻代表了字母Gimel (ג),在俄語編碼中又會代表另一個符號。但是不管怎樣,所有這些編碼方式中,0--127表示的符號是一樣的,不一樣的只是128--255的這一段。

至於亞洲國家的文字,使用的符號就更多了,漢字就多達10萬左右。一個位元組只能表示256種符號,肯定是不夠的,就必須使用多個位元組表達一個符號。比如,簡體中文常見的編碼方式是 GB2312,使用兩個位元組表示一個漢字,所以理論上最多可以表示 256 x 256 = 65536 個符號。

中文編碼的問題需要專文討論,這篇筆記不涉及。這里只指出,雖然都是用多個位元組表示一個符號,但是GB類的漢字編碼與後文的 Unicode 和 UTF-8 是毫無關系的。

三. Unicode
正如上一節所說,世界上存在著多種編碼方式,同一個二進制數字可以被解釋成不同的符號。因此,要想打開一個文本文件,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。為什麼電子郵件常常出現亂碼?就是因為發信人和收信人使用的編碼方式不一樣。

可以想像,如果有一種編碼,將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼,那麼亂碼問題就會消失。這就是 Unicode,就像它的名字都表示的,這是一種所有符號的編碼。

Unicode 當然是一個很大的集合,現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣,比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字嚴。具體的符號對應表,可以查詢unicode.org,或者專門的漢字對應表。

⑥ 漢字編碼技術的相關名稱解釋及其關系

中文編碼技術詳解:
一、GB2312
ASCII這種字元編碼規則顯然用來處理英文沒有什麼問題,它的出現極大的促進了信息在西方尤其是美國的傳播和交流。但是對於中文,常用漢字就有6000以上,ASCII 單位元組編碼顯然是不夠用。中國國家標准總局發布了GB2312碼即中華人民共和國國家漢字信息交換用編碼,全稱《信息交換用漢字編碼字元集——基本集》,1981年5月1日實施,通行於大陸。GB2312字元集中除常用簡體漢字字元外還包括希臘字母、日文平假名及片假名字母、俄語西里爾字母等字元,未收錄繁體中文漢字和一些生僻字。 EUC-CN可以理解為GB2312的別名,和GB2312完全相同。GB2312是基於區位碼設計的,在區位碼的區號和位號上分別加上A0H就得到了GB2312編碼。
區位碼,國標碼,交換碼,內碼,外碼的解釋:
(1)區位碼:就是把中文常用的符號,數字,漢字等分門別類進行編碼。區位碼把編碼表分為94個區,每個區對應94個位,每個位置就放一個字元(漢字,符號,數字都屬於字元)。這樣每個字元的區號和位號組合起來就成為該漢字的區位碼。區位碼一般用10進制數來表示,如4907就表示49區7位,對應的字元是「學」。區位碼中01-09區是符號、數字區,16-87區是漢字區,10-15和88-94是未定義的空白區。它將收錄的漢字分成兩級:第一級是常用漢字計3755個,置於16-55區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字計3008個,置於56-87區,按部首/筆畫順序排列。
(2)國標碼: 區位碼無法用於漢字通信,因為它可能與通信使用的控制碼(00H~1FH)(即0~31,還記得ASCII碼特殊字元的范圍嗎?)發生沖突。於是ISO2022規定每個漢字的區號和位號必須分別加上32(即二進制數00100000,16進制20H),得到對應的國標交換碼,簡稱國標碼,交換碼,因此,「學」字的國標交換碼計算為:

1
2
3
4
00110001 00000111
+ 00100000 00100000
-------------------
01010001 00100111
用十六進制數表示即為5127H。
(3)交換碼:即國標交換碼的簡稱,等同上面說的國標碼。
(4)內碼:由於文本中通常混合使用漢字和西文字元,漢字信息如果不予以特別標識,就會與單位元組的ASCII碼混淆。此問題的解決方法之一是將一個漢字看成是兩個擴展ASCII碼,使表示GB2312漢字的兩個位元組的最高位都為1。即國標碼加上128(即二進制數10000000,16進制80H)這種高位為1的雙位元組漢字編碼即為GB2312漢字的機內碼,簡稱為內碼。20H+80H=A0H。這也就是常說的在區位碼的區號和位號上分別加上A0H就得到了GB2312編碼的由來。

1
2
3
4
00110001 00000111
+ 10100000 10100000
-------------------
11010001 10100111
用十六進制數表示即為D1A7H。
(5)外碼:機外碼的簡稱,就是漢字輸入碼,是為了通過鍵盤字元把漢字輸入計算機而設計的一種編碼。 英文輸入時,相輸入什麼字元便按什麼鍵,外碼和內碼一致。漢字輸入時,可能要按幾個鍵才能輸入一個漢字。 漢字輸入方案有成百上千個,但是這千差萬別的外碼輸入進計算機後都會轉換成統一的內碼。
總結一下:中國國家標准總局把中文常用字元編碼為94個區,每個區對應94個位,每個字元的區號和位號組合起來就是該字元的區位碼, 區位碼用10進制數來表示,如4907就表示49區7位,對應的字元是「學」。 由於區位碼的取值范圍與通信使用的控制碼(00H~1FH)(即0~31)發生沖突。每個漢字的區號和位號分別加上32(即16進制20H)得到國標碼,交換碼。「學」的國標碼為5127H。由於文本中通常混合使用漢字和西文字元,為了讓漢字信息不會與單位元組的ASCII碼混淆,將一個漢字看成是兩個擴展ASCII碼,即漢字的兩個位元組的最高位置為1,得到的編碼為GB2312漢字的內碼。「學」的內碼為D1A7H。無論你使用什麼輸入法,通過什麼樣的按鍵組合把「學」輸入計算機,「學」在使用GB2312(以及兼容GB2312)編碼的計算機里的內碼都是D1A7H。

二、GBK
GB2312的出現基本滿足了漢字的計算機處理需要,但由於上面提到未收錄繁體字和生僻字,從而不能處理人名、古漢語等方面出現的罕用字,這導致了1995年《漢字編碼擴展規范》(GBK)的出現。GBK編碼是GB2312編碼的超集,向下完全兼容GB2312,兼容的含義是不僅字元兼容,而且相同字元的編碼也相同,同時在字匯一級支持ISO/IEC10646—1和GB 13000—1的全部中、日、韓(CJK)漢字,共計20902字。GBK還收錄了GB2312不包含的漢字部首符號、豎排標點符號等字元。CP936和GBK的有些許差別,絕大多數情況下可以把CP936當作GBK的別名。

三、GB18030
GB18030編碼向下兼容GBK和GB2312。GB18030收錄了所有Unicode3.1中的字元,包括中國少數民族字元,GBK不支持的韓文字元等等,也可以說是世界大多民族的文字元號都被收錄在內。GBK和GB2312都是雙位元組等寬編碼,如果算上和ASCII兼容所支持的單位元組,也可以理解為是單位元組和雙位元組混合的變長編碼。GB18030編碼是變長編碼,有單位元組、雙位元組和四位元組三種方式。

從GB2312到GBK再到GB18030收錄的字元越來越多即可。萬幸的是一直是向下兼容的,也就是說一個漢字在這三個編碼標准里的編碼是一模一樣的。這些編碼的共性是變長編碼,單位元組ASCII兼容,對其他字元GB2312和GBK都使用雙位元組等寬編碼,只有GB18030還有四位元組編碼的方式。這些編碼最大的問題是2個。1.由於低位元組的編碼范圍和ASCII有重合,所以不能根據一個位元組的內容判斷是中文的一部分還是一個獨立的英文字元。2.如果有兩個漢字編碼為A1A2B1B2,存在A2B1也是一個有效漢字編碼的特殊情況。這樣就不能直接使用標準的字元串匹配函數來判斷一個字元串里是否包含某一個漢字,而需要先判斷字元邊界然後才能進行字元匹配判斷。

四、使用繁體的中文社群中最常用的電腦漢字字元集標准叫大五碼(Big5),共收錄13,060個中文字,其中有二字為重覆編碼2003年,Big5被收錄到台灣官方標準的附錄當中,取得了較正式的地位。這個最新版本被稱為Big5-2003。

⑦ 簡述漢字處理中漢字編碼轉換過程

??漢字在計算機上的編碼主要有三種:輸入碼、機,內碼和輸出碼,1.用於輸入的漢字的編碼——輸入碼(外碼)
??計算機上輸入漢字的方法很多,如鍵盤編碼輸入、語音輸入、手寫輸入、掃描輸入等,其中鍵盤編碼輸入是最容易實現和最常用的一種漢字輸入方法。英文等可以用鍵盤上的每個字母鍵來輸入,而輸入漢字則不同,不可能用有限的按鍵來對應每一個漢字,為了讓用戶能直接使用英文鍵盤輸入漢字,於是就有了輸入漢字時使用的漢字輸入碼,它一般由鍵盤上的字母或數字組成,代表某個漢字或某些漢字、片語或句子。當前用於漢字輸入的編碼方案很多,如區位碼、拼音碼、王碼(五筆字型)、自然碼等。2.用於儲存漢字的編碼——機內碼(內碼)
由於漢字輸入碼的編碼方案多種多樣,同一個漢字如果採用的編碼方案不一樣,其輸入碼就有可能不一樣。如果計算機內部存放的是漢字輸入碼本身,就會造成相同漢字在機內可以用不同的編碼表示,這樣顯然不合理,也給計算機內部的漢字處理增加了難度。為了將漢字的各種輸入碼在計算機內部統一起來,就引進了漢字的機內碼。3.用於輸出漢字的編碼——輸出碼(字型碼)
存儲在計算機內的漢字在屏幕上顯示或在列印機上列印出來時,必須以漢字字形輸出,才能被人們所接受和理解。漢字的輸出碼實際上是漢字的字型碼,它是由漢字的字模信息所組成的。漢字是一種象形文字,每個漢字東可以看成一個特定的圖形,這種圖形可以用點陣、向量等方式表示,而最基本的是用點陣表示。所謂點陣方式,就是將漢字分解成由若干個「點」??組成的點陣字型,將此點陣字型至於網狀方格上,每個方各試點陣中的一個「點」。

閱讀全文

與簡述解決中文漢字編碼問題的兩種常用方法相關的資料

熱點內容
兒童粗線插肩袖計算方法 瀏覽:960
銀杏有多少種食用方法 瀏覽:205
小腿怎麼瘦方法最有效 瀏覽:584
佐家花園最佳防疫方法 瀏覽:976
四線復邊機安裝方法 瀏覽:580
有沒有什麼方法快速找到錢 瀏覽:299
你如何看待紀昌的學習方法 瀏覽:791
怎麼用香皂洗臉的方法 瀏覽:136
目前減肥最有效的方法是什麼 瀏覽:695
籃球基本技巧及訓練方法 瀏覽:464
汽車離線使用方法 瀏覽:868
有哪些預防方法 瀏覽:808
假戲真做的正確方法 瀏覽:469
眼睛癢腫紅怎麼治最快方法 瀏覽:350
點穴師的鍛煉方法 瀏覽:193
包子的製作方法和步驟作文 瀏覽:456
投標報價得分計算方法 瀏覽:676
榮耀手機定位怎麼設置在哪裡設置方法 瀏覽:897
正確關機方法和步驟 瀏覽:429
機油爐最新製作方法圖片 瀏覽:301