CÁC DẠNG CHỮ
VIỆT TRÊN INTERNET Bác sĩ Nguyễn Phước Bảo Quý Bác sĩ Nguyễn Văn Đức Lời mở đầu: bài này chỉ nhắc đến các vấn đề liên quan một cách sơ sài cốt để chúng ta nắm được cốt lõi của vấn đề. Muốn biết thêm chi tiết về tiếng Việt Unicode xin quá bộ đến http://www.google.com và tìm những nhóm từ "Vietnamese Unicode" hay "tiếng Việt Unicode" sẽ thấy. (Google hoàn toàn hỗ trợ Unicode). Tổng quát Nếu quý bạn muốn biết vì sao chữ Việt Unicode sẽ trở thành giải pháp duy nhất cho mọi người Việt-Nam khắp nơi trên thế giới, bất kể chính kiến, chúng ta hãy nhìn lại lịch sử bộ chữ viết ASCII (American Standard Character Information Interchange) trên Internet và các lối viết chữ Việt như VNI, VPS, VISCII, ABC (TCVN), BK-HCM, v.v... Giống như cái điện thoại do Alexander Bell chế ra, dù ở bất cứ nơi đâu trên thế giới, để máy computer này có thể nói chuyện với máy computer kia được (dù là PC hay Linux hay Macintosh hay Silicon Graphics hay Cray, v.v...), hễ nhắc đến ASCII code 65, máy nào cũng hiểu ngay đó là mẫu tự A, còn code 97 là a, v.v... Nói cách khác, để mọi người có thể liên lạc với nhau, các điện thoại phải tuân thủ một tiêu chuẩn nhất định. Vì Latin abc chỉ có 24 mẫu tự, cộng thêm 24 chữ cái hoa chỉ mới là 48, thừa chỗ để chứa thêm những ký hiệu thông thường như !@#%^&*() và ký hiệu +-x /<> , v.v... mà vẫn dư xăng để chứa vào một bảng mã 8-bit (28 = 256). Tuy nhiên, vì các ký hiệu chính này được sắp vào 128 số đầu hay 7-bit (27 = 128) cho nên máy có thể loại bớt (stripped) đi hàng số thứ tám trong hệ nhị phân để khỏi tốn chỗ (ví dụ: viết 1011001 thay vì 01011001), vào cái thời mà bộ nhớ (memory) và dĩa cứng (hard disk) còn hết sức mắc mỏ. Bạn có thể thấy với hệ thống chuyển điện thư (mail-server) 7-bit, sẽ chuyển sai ngay lập tức thông số 11001101 thành 1001101 vì hàng 1 đầu tiên sẽ bị vứt đi (may mà các hệ thống chuyển thư của HotMail, Yahoo và AOL nay đã chuyển qua hệ 8-bit.). Phần dưới của bảng mã (từ 128 đến 255) là để cho những ký tự é è ã, v.v... cho chữ Pháp/ Ý/ Bồ Đào Nha, v.v... Chữ tiếng Anh không cần dùng đến. Nhu cầu chữ Việt đòi hỏi cao hơn là chỉ những mẫu tự Latin thường để viết chữ Anh hay thậm chí chữ Pháp (é, è chẳng hạn), thành ra những công ty như VNI hay Hội Chuyên Gia Việt-Nam (VPS) phải tự chế ra những chữ như ấ, ở, ứ, v.v... không có trong bảng mã ASCII thường. Những chữ này thường nằm ở bảng ASCII dưới (vị trí 128-255), và phải chấp nhận xoá đi một vài ký hiệu mà ASCII ít dùng. Chữ Việt của chúng ta có đến 178 ký tự riêng biệt (kiểu thường lẫn hoa, chứ không phải 134 như có bài đã lẫn lộn) trong đó bao gồm 34 phụ âm như bBcCdDđĐ và 144 các nguyên âm với dấu. Bạn không tin ư? Này nhé: mỗi thanh nguyên âm chính như a e i o u kéo theo năm biến âm với dấu như a á à ả ã ạ vị chi là 6 chữ cái riêng biệt. Chưa hết a lại còn cho thêm â ă, e thì thêm ê, o cho ô và ơ. Thậm chí y cũng thành ý ỳ ỷ ỹ ỵ , v.v... Tổng cộng 12 nguyên âm: a ă â e ê i o ô ơ u ư y cho ta 6 x 12 = 72 và 17 phụ âm thành 89 chữ cái, cộng thêm dạng hoa tiếng Việt chúng ta có đúng 178 ký tự riêng biệt. Các dạng chữ Việt trên Internet 1. VPS: Chữ Việt mến yêu = Ch» ViŒt m‰n yêu Dạng chữ Việt VPS do Hội Chuyên Gia Việt Nam (Vietnamese Professional Society) sáng chế. Để có thể biểu hiện hết 178 chữ cái này trong một bảng 8-bit, Hội Chuyên Gia Việt Nam phải xoá bớt đi những ký hiệu ít dùng để có chỗ cho chữ Việt. Điều này đôi khi làm máy hay các chương trình khác bị hỏng vì các thông số này đôi khi được dùng làm mệnh lệnh thảo chương (command or printer code) hay formatting code: ví dụ "smart quote" hay bị lầm thành À và Ả chẳng hạn. Microsoft Word cũng lầm giữa dấu hiệu chấm xuống hàng (¶ : paragraph end) với mẫu tự ộ vì trùng lặp. [Tương tự, hệ thống phông chữ ABC hay TCVN (tiêu chuẩn Việt-Nam), rất thông dụng ở trong nước, cũng thường bị lỗi với chữ ư]. Để giảm thiểu vấn đề này, bảng mã VPS bao gồm 2 phần, chữ thường và chữ hoa.
2. VNI: Chữ Việt mến yêu = Chöõ Vieät meán yeâu Công ty VNIsoft thì lại phát triển chữ Việt cách khác: ghép chữ thường với dấu, thành ra với dạng chữ VNI, khi bạn dùng chức năng xoá, máy sẽ xoá từng dấu một thay vì xoá hết nguyên âm và các dấu cùng một lúc. Vì phải biểu hiện dấu đi theo cùng nguyên âm cho nên với VNI, khi đánh hay hoán chuyển bạn có thể bị một mớ ô trống (blank space) giữa các mẫu tự, nhất là với những browser hay email mà encoding không hiểu cái đặc thù của VNI nầy. Cái hay của giải pháp VNI là bảng mã nhỏ hơn nhiều nhờ ghép dấu (vì thế mà không cần thêm bảng mã HOA riêng biệt như VPS). Với VPS hay TCVN hay Unicode, hoán chuyển qua lại rất dễ vì mỗi chữ cái có một thông số tương đương (one-to-one relationship), nhưng với VNI thì không, ví dụ: ầ = aà vì à được VNI dùng để biểu diễn ^`, tương tự ồ là oà hay ề là eà, v.v… Cái khổ của tất cả những dạng chữ VPS/VNI/VISCII/TCVN này là chúng không chịu làm việc với nhau, vì mỗi chữ cái sẽ là một thông số riêng trong bảng mã. Muốn đọc dạng chữ nào thì bạn phải có kiểu chữ (font) của dạng chữ đó sẵn trong máy và phải biết cách dùng nó. Nói gì xa, nếu bạn nhận một bài trong Word và người gởi dùng font VPS-Helvetica trong khi bạn chỉ có font VPS-Times trong máy là đã bị hiển thị trật vuột rồi. Bạn phải biết thắp sáng toàn bài và đổi font (kiểu chữ) qua VPS-Times, v.v…, không thì cả bài sẽ như là mật mã. Nếu bạn đến một trang web dùng font VISCII, bạn phải biết tải xuống rồi thiết kế encoding thì browser mới đọc được. Chao ôi là nhiêu khê, và đó là nếu bạn nhận ra được kiểu font, còn không thì đúng là chịu phép với "In-Trật-Nết" (Internet). Phiên bản Macintosh hay Unix của những dạng chữ Việt này thì eo ôi lại còn nhiều trật vuột hơn nữa [do sự khác biệt giữa big-endian và litle-endian encoding và vì PC dùng CR (character return) thay vì EOL (end of line) chẳng hạn].
3. Chữ Việt không dấu và VietNet (VIQR): Trước khi các dạng chữ VPS, VNI… ra đời, để liên lạc trên Internet, cũng như điện tín ngày trước, nhiều người dùng chữ Việt không dấu, và chúng ta phải đoán phát mệt với những chữ như "vo de" là "vỡ đê" hay "vợ đẻ"; "nha tho" là "nhà thờ" hay "nhà thổ"; "phu nu dam dang" là "phụ nữ đảm đang” hay “phụ nữ dâm đãng"; "cuoi" là "cười", "cưới" hay "cưỡi"... Chữ Việt chúng ta mà thiếu cái dấu là rơi vào tình trạng "sai một ly đi một dặm". Dạng chữ Việt không dấu nay ngày càng ít người dùng, có dùng cũng chỉ nên dùng trong những thư ngắn ngủi vài dòng. Dạng chữ VietNet (hay VIQR, Vietnamese Internet Quotable Readable) sử dụng các ký hiệu và chữ cái thông thường của ASCII hầu biểu hiệu chữ Việt theo quy ước đánh dấu hàng ngang tiếp ngay theo chữ cái, chẳng hạn như ơ là o+ hay o* , ấ là a^’,ắ là a(‘, ả là a?, đ là dd hay d- ,v.v... (Nhu liệu UniKey có phương pháp đánh * thay vì + cho ơ ư, v.v…, cũng như hoán chuyển từ VIQR về Unicode). VietNet (VIQR) chỉ là một giải pháp thô thiển, cho dấu vào abc của ASCII để biểu diễn ký tự Việt (Chữ Việt mến yêu = Chu+~ Vie^.t me^'n ye^u), đọc không quen thì hơi mệt mắt vì nó còn có hỗn danh là chữ Việt râu ria. VIQR không phải là một dạng chữ in (font) chính thống như VPS, VNI…, nhưng có cái lợi lớn nhất là máy ai cũng đọc được chẳng cần cài đặt thêm font gì cả. Những bạn nào đã quen gõ kiểu VIQR thì sẽ rất thích dùng Unicode, vì khi dùng nhu liệu UniKey để đánh máy thế này: "Chu+~ Vie^.t me^'n ye^u", máy sẽ hiển thị ra thế này: "Chữ Việt mến yêu", và nếu bạn biết cách dùng đúng font và encoding, người nhận cũng sẽ đọc thấy đúng “Chữ Việt mến yêu".
4. Giải pháp Unicode: Ở hải ngoại thì hai dạng chữ VNI và VPS tranh giành ảnh hưởng (các dạng chữ VISCII/VNU tuy miễn phí song vẫn không có tiếng bằng). Trong nước cũng chẳng khá gì hơn, dầu TCVN-3 (Ch÷ ViÖt mÕn yªu) được nhà nước đặt làm tiêu chuẩn, nhất là trong các tài liệu, văn kiện trao đổi giữa các cơ quan, nó chỉ thông dụng nhất ở miền Bắc. Hai dạng BK-HCM 1 và 2 của Đại học Bách Khoa - Sài gòn được người miền Nam chuộng hơn. BK-HCM 1 (Chù Vièt män yãu ) tương tự như VPS (chữ cái dựng sẵn - precomposed font), BK-HCM 2 (Chûä Viïåt mïën yïu ) thì lại dùng lối ghép chữ và dấu (tổ hợp - combined font) y hệt như VNI. Từ 15 năm nay, các chuyên gia computer trên thế giới cũng hết sức quan tâm về một giải pháp thống nhất cho các ngôn ngữ trên thế giới, kể luôn cả những ký hiệu đặc biệt cho Toán Lý Hoá, v.v... Các công ty lớn như Adobe, Aldus, Apple, IBM, Microsoft, HP, Sun... bỏ tiền ra thành lập một tổ chức vô vụ lợi "The Unicode Consortium" để đặt ra tiêu chuẩn cho mọi hệ thống computer trên thế giới hiển thị font để khi một người Việt hay Nhật hay Nga từ góc biển này gởi thư đi đến một chân trời khác, người nhận sẽ đọc được đúng như người viết nguyên thủy. Thay vì sử dụng bảng mã 8-bit chỉ có đủ chỗ cho 256 ký hiệu, tiêu chuẩn Unicode 1.0 (ra đời năm 1991) thiết lập bảng mã 16-bit (216) đủ chỗ cho 65,536 ký tự. Với bảng mã 16-bit Unicode này người ta có dư chỗ để cho vô nguyên hết mớ chữ Tàu, chữ Nhật, chữ Nga, chữ Hy-lạp, chữ Ả-rập, chữ Kampuchea, v.v… Sợ còn chưa đủ, tiêu chuẩn mới nhất là Unicode 3.2.0 với bảng mã 21-bit mở rộng có đến trên một triệu ký tự và trong tương lai sẽ dùng bảng chuẩn 32-bit để có đủ chỗ chứa luôn chữ viết của người hành tinh giống như tiêu chuẩn địa chỉ in-trật-nết chuẩn IP6 (internet protocol six) sẽ gồm luôn địa chỉ từ các hành tinh khác như Hoả tinh, Mộc tinh, v.v... Vì địa vị chủ đạo của các ngôn ngữ Latin như Anh, Pháp, Đức, v.v... các ngôn ngữ thuộc nhóm này được chú ý nhất và đứng đầu bảng gọi là nhóm Extended Latin (Latin mở rộng) nằm trong 9999 vị trí đầu. Bạn nên nhớ các thông số biểu diễn các ký tự càng gần về đầu bảng thì giá trị càng nhỏ, dễ dàng hơn trong việc nén hay hoán chuyển từ dạng này qua dạng khác, độ dài của hồ sơ cũng nhỏ hơn để gởi đi: ví dụ giả sử nếu họ để chữ ă của ta vào vị thứ 50989 thì mỗi lần biểu hiện chữ ă máy phải tìm đến vị trí 50989 lâu hơn là vị trí 259 như hiện tại. Còn khi gởi đi thì rõ ràng 50989 tốn chỗ hơn là 259 nhiều. Chữ cái Việt có giá trị lớn nhất trong bảng Unicode là ỹ = ỹ. Chúng ta nên cám ơn các vị cố đạo hồi xưa đã dùng chữ Latin để ghi lại ngữ âm tiếng Việt cho chúng ta có được cái vị trí thuận lợi trong bảng Unicode ngày nay. Unicode đã được ứng dụng trong PC từ Windows 95 (bx hay 2nd edition) trở lên, thành ra với Win95 bạn đã có thể nhận và đọc e-mail viết bằng chữ Việt Unicode, hay lên mạng đọc chữ Việt Unicode dễ dàng. Sun/ Linux/ Unix cũng thế: XML đặt nền tảng trên hệ thống Unicode. Macintosh cũng áp dụng Unicode từ OS 8.6 trở đi, chỉ hiềm là Microsoft nhất định không chịu hỗ trợ Unicode trong các chương trình cho Mac, may mà có hiệp sĩ Mozilla (xin xem chương về Macintosh và Unicode), còn OSX thì không hề có vấn đề gì cả. Unicode, dạng chữ của tương lai Với các ưu thế: 1. Tiêu chuẩn được đặt ra và thúc đẩy áp dụng do cộng đồng tin học quốc tế 2. Tất cả mọi hệ thống computer và chương trình hiện nay đều hỗ trợ Unicode 3. Font Unicode đã được thiết lập sẵn trong máy bạn 4. Hầu hết các trang nhện Việt ngữ đều đã chuyển qua Unicode Unicode sẽ dễ dàng được sự hậu thuẫn và chấp nhận của mọi người Việt trong và ngoài nước, sẽ là dạng chữ tương lai trên Internet. Vì các fonts Unicode đã có sẵn và được hỗ trợ trong mọi máy computer thời nay, dần dần mọi người đều phải biết sử dụng Unicode để giản tiện và thống nhất, khỏi phải cài đặt một lô một lốc bao nhiêu là kiểu chữ khác nhau, nhất là khi đằng sau Unicode lại có sự hỗ trợ của toàn thế giới với những công ty đứng đầu công nghệ thông tin như Adobe, Apple, IBM, Microsoft, Sun, v.v... Quan trọng hơn nữa, vì nó là tiêu chuẩn quốc tế, nên chúng ta bắt buộc phải dùng hầu theo kịp với mọi người trên thế giới. Bạn chỉ cần học hỏi một ít nguyên tắc về việc sử dụng chữ Việt Unicode là có thể hiên ngang bước vào xa lộ thông tin với đầy tự tin, và biết chắc người nhận thư sẽ đọc đúng các chữ Việt mến yêu bạn gửi đến họ qua Internet.
|