註冊 | 登入 | RSS Feeds
ZDNet | Taiwan.CNET.com |

廣告:
2008/05/06 13:31:02
Google:Unicode在網路上征服ASCII
ZDNet新聞專區:Stephen Shankland
PlurkFacebook
   

我是這樣看的。在全球資訊網上,羅馬拚音字母正四處逃竄,因為網路上日益充斥著阿拉伯字元、中國方塊字和歐洲的特殊字元符號。

換言之,誠如Google資深國際軟體架構師Mark Davis在他的部落格發文所言,Unicode現在已超越ASCII,成為全球資訊網上最常用的字元編碼方式。幾乎在同時,西歐編碼也被征服了。

Unicode是一種字元編碼標準,能兼容數十種語文,以及標有讀音識別符號的羅馬字母。ASCII則是沿用數十年之久的標準,字元數目以128或256個字元為限,而且很難跨越原有的Remington打字機字元範圍以外。

Davis指出,Unicode在去年12月上旬打敗ASCII和西歐編碼。

他說:「不只是超越,更令人印象深刻的是,這麼快就後來居上。」他邊說邊指著一幅顯示Unicode使用率扶搖直上的圖表。

Google便非常喜愛Unicode網站,每當Google處理網站資料時,就會先轉換成Unicode(如果該網站本來不是用Unicode的話),如此一來可加強國際搜尋功能。

Davis說,目前Google只把資料轉換成5.1版的Unicode,這樣可讓「講馬來話等語言的人士,如今也可搜尋內含這些新字元的文字」。

不過,Unicode比ASCII差的一點是,所需的記憶空間至少比儲存羅馬拚音字元大一倍。(唐慧文/譯)

 
 

thumbs Upthumbs Down
+0
推薦
0/0 票
 

 
加入我的圖書館 訂閱關鍵字
加入網路書籤> 加入funP | 加入Google書籤 | 加入Yahoo!奇摩分享書籤 | 加入twitter | 加入facebook | 加入plurk |
友善列印 | 轉寄朋友


回應   對本則報導有任何意見或看法嗎?歡迎留言
7.匿名 於 2008/05/08 13:22 回應
套個簡單的例子, 無論是幾個人口的家庭, 只要是買個大冰箱, 即使是超過所有人的日常需求, 大家也會不知不覺將它塞得滿滿的, 用 Unicode 就至少使網路頻加了二, 三, 四倍, 如果有時要另外 UUENCODE, BASE64, TLS/SSL 改裝一下 data, 就嚇死人了, 還是用 UTF-8 比較划算
讚?讚0 個人喜歡這個留言
 
6.Fantasy 於 2008/05/08 09:20 回應
關於效能問題,個人持保留態度
雖然電腦硬體設備這十幾年有很大的進步
但試問有人覺得電腦開機變很快嗎?
有人覺得換Vista後電腦使用有變很快嗎?
我想很多人的答案絕對是否定的
這是為什麼?答案就是軟體跟著也改變了

舉例來說,假使我們同樣讀取10MB的資料
那麼CPU、硬碟變快,網路變快的話
我們讀取資料的速度絕對是變快的
但假設這10MB的ASCII資料轉變成40MB的Unicode呢?
相對CPU、硬碟與網路整體速度並沒有加快四倍的話
很可能我們得到的結果就不見得變快了

記得以前Windows3.1安裝後也才佔兩、三百MB空間
現在的Vista安裝後動輒2∼3GB的空間
很多人抱怨即使更換新電腦,開機反而比XP慢
這就是很多人忽略了前後讀取資料的差異問題

我想如果您是公司MIS人員很可能會常碰到一個怪現象
公司網路從原本512Kbps換成2Mbps或4Mbps後
如果公司沒有對網路做管制的話反而塞車可能更嚴重
追查結果才發現,之前網路不夠快
所以大家都不會去下載大的檔案或資料
等到發現公司網路頻寬變大之後
就開始一堆人猛下載一大堆圖片或影片資料

結論是,電腦升級後速度真的變快嗎?
如果您的使用方式與讀取資料量不變的話
那絕對肯定是會的
只是想想我們國家高速公路變兩條、三條...很多條之後
過年、過節返鄉就不會遇到塞車嗎....
呵呵....大家心知肚明吧∼
讚?讚0 個人喜歡這個留言
 
5.匿名 於 2008/05/07 16:02 回應
2樓說的卡實在啦

電腦速度不知道成長了幾倍
容量也是成長了數倍
連adsl的速度也快幾倍了
讚?讚0 個人喜歡這個留言
 
4.Fantasy 於 2008/05/07 11:10 回應
除了UTF-8之外,現在的DB都還有UTF-16與UTF-32等字元集
相對越後面可容納的字數越多,相對佔的空間就可能越大
(因UTF-8有可能用3或4Bytes,所以不一定UTF-32會比較大)
由於ASCII只需要1Bytes來代表字元
所以如資料庫改成UTF-32的話恐怕大小不僅成長兩倍
而且連搜尋的速度都可能受到蠻大的影響

對Unicode有興趣的可以參考這篇說明
連結
讚?讚0 個人喜歡這個留言
 
3.faye2022 於 2008/05/06 20:54 回應
用 UTF-8 吧, 大小就沒差, 用 Unicode (LE/BE) 當然會兩倍, 鬼扯才用 Unicode 2 byte, Unicode 最多可到 4 byte 哩
讚?讚0 個人喜歡這個留言
 
2.wumin 於 2008/05/06 20:14 回應
大小沒差別吧,現在硬碟容量不斷突破,加上網路速度不斷提昇,這些影響只會愈來愈小,與其處理一堆惱人的亂碼問題,這些根本就不是問題。
讚?讚0 個人喜歡這個留言
 
1.匿名 於 2008/05/06 19:03 回應
對 大小真的差很多
有一次把一個文字檔案轉成unicode
大小突然大了一倍多 嚇死我了
讚?讚0 個人喜歡這個留言
 


留下你的意見
會員 * 帳號:
* 密碼:
  1. 欄位可選填,若全不填,則顯示為「匿名」。
  2. 不支援html語法
非會員

*姓名:
*E-Mail:

Blog:
  重新載入驗證碼
* 驗證碼: 記住我