Cách đọc chữ Việt
trong các tài liệu điện tử

Bài của Lê Quang Văn
(Trung Tâm In Việt / Inverness Technologies )

Tài liệu điện tử là tên gọi chung của tất cả những tập tin soạn từ các chương trình biên soạn (Word Processor) với máy điện toán để phổ biến qua các phương tiện điện tử. Phương tiện điện tử gồm máy điện toán, Internet, Intranet, Extranet, truyền thanh, truyền hình, phương tiện truyền thông cầm tay cố định hay di động, các dụng cụ đo lường, v.v. . . .
Vì phạm vi sử dụng bao quát như trên nên việc đọc tài liệu bằng Việt ngữ rất quan trọng và cần thiết. Bài này trình bày những nguyên tắc đọc các tài liệu Việt ngữ cho các ứng dụng trên. Chúng ta sẽ lần lượt xét đến việc dùng nhiều loại "phon" (font) chữ Việt để đọc các kiểu chữ khác nhau, đến trường hợp dùng một loại phon chữ duy nhất để đọc tài liệu thực hiện với nhiều kiểu chữ khác nhau, sau cùng là kỹ thuật đọc bất cứ tập tin chữ Việt mà không cần phải có phon chữ Việt trong máy. Qua ba trường hợp trên chúng ta sẽ có dịp thảo luận về tính chất tương tác (interactive) của bản văn. Trong phần kết luận chúng tôi sẽ trình bày những áp dụng thực tiễn của các kỹ thuật này.
Trong tương lai chúng ta sẽ phổ biến tài liệu Việt ngữ đi khắp nơi trên thế giới nên việc đọc chữ Việt mà không cần phon chữ Việt là một kỹ thuật rất quan trọng và tân kỳ, không những tiết giảm được ngân khoản mua và thiết kế phon chữ mà còn đơn giản hóa vấn đề tương hợp giữa các loại phon, thí dụ phon VNI, VNU, VPS, VISCII, v.v. . .
Chúng ta sẽ dùng rất nhiều dụng cụ điện tử trong nhiều lãnh vực khác nhau, từ y tế đến giáo dục, trong nghiên cứu cũng như tại các hãng xưởng. Chữ Việt sẽ phải được dùng trong các dụng cụ điện tử, do đó việc đọc tài liệu trong các dụng cụ này mà không cần phon chữ Việt sẽ đem lại nhiều lợi ích quan trọng. Lợi ích thực tiễn nhất là các dụng cụ này không cần có bộ lưu trữ lớn để chứa phon chữ Việt và chương trình đọc chữ Việt.

1- Dùng phon chữ Việt thích nghi với phon dùng để thực hiện tài liệu:
Đây là kỹ thuật đơn giản nhất. Thí dụ máy điện toán của bạn có cài đặt (install) phon chữ VNI, đương nhiên bạn sẽ đọc được tài liệu soạn với phon chữ VNI. Kỹ thuật này tuy đơn giản nhưng đã gặp nhiều khó khăn trong thực tế. Trong vòng ba năm qua, hàng ngàn trang nhà (home page) chữ Việt được phổ biến trên Internet. Những trang nhà này dùng nhiều loại phon chữ khác như VNI, VNU, VISCII, VPS, v.v. . . Do đó bạn chỉ có thể đọc được một số trang nhà dùng cùng loại phon chữ Việt mà bạn có trong máy. Bạn cũng có thể cài đặt nhiều loại phon chữ Việt của nhiều nguồn gốc khác nhau. Nếu làm như vậy, máy bạn phải có chỗ chứa khá lớn, chưa kể việc tạo ra sự không tuơng hợp giữa các loại phon. Nếu có nhiều loại phon chữ khác nhau, bạn phải cấu hình (configuration) lại chương trình đọc (browser) để đọc trang nhà thích nghi.
Một sáng kiến mới nhất (tháng 6/1997) là chương trình biến đổi phon (Font Converter) do Thu Nguyễn thực hiện trên trang nhà VietMate. com.
Thí dụ máy bạn chỉ có phon VNI mà bạn muốn đọc trang nhà: "http://www.smartt.com/ ~vanle/GiaTrangTHDL.html" thực hiện với phon chữ Việt VNU, thì bạn phải theo các bước sau:
- Đánh chữ  http://www.vietmate.com/  để đến trang nhà của VietMate.com;
- Trong vòng 5 đến 10 giây, tùy trường hợp, chương trình đọc trang nhà Netscape hay Internet Explorer sẽ đưa bạn đến trang nhà của VietMate. com;
- Phần trên cùng của trang nhà này cho biết chương trình biến đổi phon chữ có thể đổi qua lại các loại phon sau: VNI, VNU, VISCII, VPS. Trong thí dụ này bạn yêu cầu đổi từ phon VNU (của trang nhà muốn xem) ra phon chữ VNI (mà bạn có trong máy).
- Ngay dưới đó là một khung cửa để bạn đánh chữ của trang nhà mà bạn muốn xem. Trong thí dụ này là: "http://www.smartt.com/~vanle/ GiaTrangTHDL.html"
 Sau khi đánh xong hàng chữ trên, bạn ấn mao (mouse) ở chữ View It. Trong chốc lát trang nhà này sẽ hiện ra trên máy và bạn sẽ đọc được đầy đủ với phon VNI, mặc dù tài liệu này do chúng tôi soạn với phon VNU.
Với thể thức trình bày trên, bạn có thể đọc được bất cứ trang nhà nào với phon VNI có trong máy của bạn. Một số trang nhà không cho biết phon chữ Việt nào đã được dùng, bạn phải đoán và thử nhiều lần với chương trình biến đổi phon.
Chúng tôi có điện thư với Thu Nguyễn để khen ngợi sự đóng góp của anh và đề nghị những ứng dụng khác nhau của chương trình biến đổi này, thí dụ dùng cho Intranet, Extranet, Giáo dục từ xa (Distance Learning), v.v. . . . Thu Nguyễn cho biết là anh đang hoàn chỉnh chương trình này cũng như bổ sung những chi tiết cho phần hướng dẫn. Theo chúng tôi được biết Thu Nguyễn đã dùng ngôn ngữ Java để thực hiện chương trình biến đổi phon chữ này.
Ưu điõểm của việc dùng phon thích nghi để đọc bài trong các trang nhà là tính chất tương tác cao. Người sử dụng có thể được hướng dẫn đến các móc nối khác. Kỹ thuật này rất thích hợp cho Internet, Intranet và Extranet, nhưng không tiện lợi cho dụng cụ điện tử, hay tài liệu điện tử phổ biến rời lẻ mà chúng tôi sẽ trình bày trong các phần sau.
Cũng cần lưu ý là trong bộ Java JDK ấn bản 1.1, có saün phần giúp thực hiện chữ Việt cũng như biến đổi phon chữ Việt.
Công ty VNI có chương trình WebEye để giúp đọc chữ Việt trên các trang nhà thực hiện với các phon khác hơn là VNI.
Trào lưu quốc tế hóa liên mạng đã khiến các công ty thực hiện chương trình đọc trang nhà cải thiện sản phẩm để giúp người dùng đọc được tập tin trong trang nhà với ngôn ngữ khác hơn là Anh ngữ. Chúng tôi đã thử nghiệm vài chương trình đọc trang nhà (khác hơn là Netscape và Internet explorer), như Tango. Tuy hỗ trợ việc đọc chữ Việt với phon chữ VISCII, VPS, Tango không có đủ tính chất của Netscape và Internet Explorer ấn bản 4.0.
Trong tương lai với đà gia tăng của số thảo chương viên người Việt chúng ta sẽ có nhiều chương trình biến đổi khác nữa.
Từ ba năm qua, chúng tôi theo dõi những tiến triển của tin học với chủ đích dựa trên những phát kiến mới của thế giới để dùng cho Việt ngữ. Kết quả của những tìm hiểu đó đã giúp chúng tôi thực hiện được việc đọc chữ Việt (và cả các loại chữ khác) mà không cần phải có bất cứ phon chữ Việt nào cũng như không cần bất cứ chương trình biến đổi nào. Một hình thức mà chúng tôi vẫn thường gọi là off the shelf: Hãy lấy những gì thiên hạ làm để thỏa mãn nhu cầu của mình mà không phải tốn kém nghiên cứu hay thử nghiệm. Sự tiến bộ về tin học quá nhanh và đa dạng, nếu có cơ hội theo dõi thì sẽ tìm ra rất nhiều phương tiện và kỹ thuật cho sự phát triển văn hóa Việt Nam. Đọc chữ Việt mà không cần phon chữ Việt cũng như Việt hóa (Vietnamization) các chương trình điện toán là những áp dụng sẽ trình bày trong phần sau.

2- Không cần có phông chữ Việt mà vẫn đọc được tài liệu chữ Việt:
Hai kỹ thuật chính đã được sử dụng tùy theo tính chất tương tác của tài liệu.
Kỹ thuật thứ nhất dưa trên TrueDoc của Bitstream. Kỹ thuật thứ hai Font Embedding do Microsoft.
A) TrueDoc do Bitstream: Từ nhiều năm qua, Bitstream đã cầu chứng một kỹ thuật tân kỳ để "chụp hình" phon chữ và truyền các ảnh chụp của phon này cùng với tài liệu. Một trong những công ty đầu tiên đã áp dụng kỹ thuật TrueDoc là Common Ground. Năm 1994, Common Ground đã mua kỹ thuật này để thực hiện chương trình Common Ground. Hiện nay Common Ground đã được công ty Hummingbird (Ontario, Canada) mua lại. Từ hai năm qua chúng tôi đã dùng chương trình Common Ground để thực hiện tài liệu điện tử Việt ngữ để phổ biến trên Internet và qua các đĩa (floppy disk); kỹ thuật này cũng sẽ được dùng để thực hiện các CD-ROM Việt ngữ.
Đại cương khi soạn tài liệu Việt ngữ chúng tôi dùng chương trình biên soạn (thí dụ Microsoft Word) và phon chữ Việt. Khi hoàn tất, chúng tôi in thành tài liệu điện tử có tên đặc biệt là Digital Paper, với gốc (extension) DP hay gốc EXE. Bản văn với gốc DP được phổ biến trên Internet hay trong các đĩa mềm hay CD-ROM. Người sử dụng chỉ cần có chương trình đọc thích nghi (Miniviewer) là có thể đọc được chữ Việt, mặc dù trên máy điện toán không có bất cứ một loại phon chữ Việt nào! Thật là tiện lợi! Tuy nhiên phải công nhận là tính chất tương tác của tập tin này không được đầy đủ như tập tin với "ngôn ngữ đánh dấu siêu văn bản" (Hypertext Markup Language). Gần đây Hummingbird đã cố gắng cải thiện chương trình Commond Ground để có được tính tương tác cao đồng thời bổ túc các mối nối (link).
Trước đây muốn đọc các tập tin có gốc DP của CommonGround, các chương trình đọc trang nhà (browser) phải dùng một loại chương trình xem gọi là viewer, như Miniviewer. Bất tiện của viewer là phải ra ngoài chương trình Netscape hay Internet Explorer. Từ năm 1996 trở đi các chương trình đọc đươc "lồng" (embed) bên trong chương trình đọc trang nhà, do đó không phải ra ngoài Netscape hay Internet Explorer; loại chương trình này có tên là Plug-ins. Để phân biệt Viewer và Plug-ins, hãy tưởng tượng một người cận thị, mỗi khi muốn đọc sách phải mang kiếng cận (ở bên ngoài con mắt) đó là trường hợp của viewer. Nhưng người cận thị cũng có thể đọc sách nhờ có mang contact lens (ở trong con mắt), đó là trường hợp của Plug-ins.
Chương trình đọc mới nhất (7/1997) của Hummingbird để đọc tập tin có gốc DP dựa trên ngôn ngữ Java.
Ngoài Digital Paper của Common Ground, chúng tôi cũng đã dùng Adobe Exchange để thực hiện tài liệu Việt ngữ để phổ biến trên liên mạng hay qua đĩa mềm. Người đọc không cần có phon chữ Việt mà vẫn đọc được tập tin Việt ngữ (có gốc DPF) với Adobe Reader hay Adobe Plug-ins phổ biến miễn phí. Tập tin của Adobe Exchange có kích thứớc nhỏ hơn so với tập tin gốc DP của Common Ground và có nhiều tính chất tân kỳ hơn, như móc nối với trang nhà, hoạt họa (animation) hay có thể lồng bên trong tập tin thực hiện với ngôn ngữ đánh dấu đa văn bản.
Ngoài hai công ty quan trọng trên hiện có hơn hai mươi công ty khác dùng kỹ thuật TrueDoc dưới hình thức này hay hình thức khác mà chúng ta có thể khai thác để phục vụ cho Việt ngữ.
Một phát hiện khá thích thú là có nhiều "máy quét" (scanner) với nhu liệu thích nghi để "chụp" tài liệu viết tay bằng chữ Việt để phổ biến qua các phương tiện điện tử, PaperPort do Visioneer là thí dụ điễn hình.
B) Communicator ấn bản 4 với TrueDoc: Nhận thấy sự hữu ích của chương trình đọc của Common Ground dựa trên TrueDoc, công ty Netscape đã thương lượng với công ty Bitstream để "lồng" kỹ thuật này vào chương trình đọc trang nhà. Nhờ đó mọi người có thể đọc được các tập tin chữ Việt từ bất cứ máy điện toán nào và không cần phải có bất cứ một phon chữ Việt nào! Với Communicator 4, việc đọc chữ Việt trở thành giản dị. Dĩ nhiên khi thực hiện các tập tin Việt ngữ, người thực hiện phải dùng các phon chữ Việt và phương tiện đặc biệt để "chụp" các phon rồi bố trí tập tin trên liên mạng (Internet).
Khi tải xuống (download) (2) tập tin chữ Việt "Viet.html", một tập tin "Viet.pfr"về phon chữ Việt đi theo để giúp hình thành chữ Việt trong máy người sử dụng. Tùy theo số phon, kiểu phon dùng trong tập tin mà tập tin phon sẽ lớn hay nhỏ, do đó sẽ ảnh hưởng đến thời gian tải xuống. Nhiều tập tin có thể dùng chung tập tin về phon chữ. Thí dụ trong bài này chúng tôi chỉ dùng hai loại phon nên tập tin về phon chỉ lối 28 Kbyte.
C) Microsoft và kỹ thuật "lồng phông" (Font Embedding): Trong khi công ty Netscape dùng TrueDoc, thì công ty Microsoft dùng kỹ thuật "lồng phông" và "nén" tập tin. Kỹ thuật này có trong Word, Excel và PowerPoint . Thực hiện xong, lưu tập tin với đặc tính Embed True Type Font. Người đọc nhận được tập tin có thể xem đầy đủ chữ Việt mặc dù trên máy điện toán không có loại phon chữ đã được dùng bởi người thực hiện. Hai vấn đề được đặt ra:
- Khác với TrueDoc, việc "lồng phon" có thể vi phạm bản quyền của nhà thực hiện phon, do đó Microsoft có thực hiện một chương trình ngắn để giúp kiểm tra xem nhà thực hiện phon chữ có cho phép "lồng phon " không?
- Số chương trình có khả năng "lồng phon" còn rất ít, ngay cả Microsoft chỉ mới có ba chương trình Word, Excel và PowerPoint.
Sau thành công của Communicator 4.0 với Dynamic Font, Microsoft sẽ phải tìm ra kỹ thuật tân kỳ hơn để đối lại. Chúng ta hãy chờ để khai thác tiến bộ này.
Chúng tôi đã dùng kỹ thuật TrueDoc và Font Embedding để thực hiện tập tin chữ Việt để phổ biến trên phương tiện điện tử, kể cả Internet. Nếu bạn dùng Communicator 4.0 có thể xem chữ Việt, mặc dù trong máy điện toán không có bất cứ phon chữ Việt nào hay không có loại phon mà chúng tôi đã dùng.
Với kỹ thuật TrueDoc, xem bài:
"http://www.smartt.com/~vanle/ fontvnivnu.htm"
Lưu ý là fontvnivnu.htm tuy ngắn nhưng có nhiều phon do đó tập tin về phon khá lớn, lối 220 Kbyte, phải cần 30 đến 35 giây mới đọc được chữ Việt
Với kỹ thuật "lồng phon ", xem bài:
"http://www.smartt.com/~vanle/ fontembedding.htm"

3- Áp dụng thực tiễn của kỹ thuật đọc chữ Việt không cần phon chữ:
a- Áp dụng thực tiễn và quan trọng nhất là việc thực hiện những trang nhà với đầy đủ tính chất về phon chữ Việt và tính chất tương tác của ngôn ngữ đánh dấu đa văn bản.
Hiện đã có những chương trình hỗ trợ phon chữ động (Dynamic Font) để thực hiện quảng cáo (flyer) mà chúng ta có thể dùng chữ Việt với âm thanh, hoạt họa và phim ảnh, có thể gởi theo điện thư (email). Kỹ thuật này mở ra những áp dụng tân kỳ cho Việt ngữ. Digiflyer Designer của Digiflyer Europe BV là một sản phẩm điển hình. Chúng ta có thể dùng Digiflyer để gởi Cẩm nang cho người sử dụng, PostCard, mẫu hàng, đến người sử dụng qua điện thư.
b- Kỹ thuật Đẩy (Push technology) là một kỹ thuật chúng ta có thể dùng để đưa tài liệu thích nghi cho từng nhóm người. Điện thư là một hình thức đơn giản của Push Technology. Bạn gởi điện thư cho người nhận tức là bạn đã "đẩy" tin tức đi đến người nhận. Khi dùng Kỹ thuật Kéo (Pull Technology), với chương trình đọc trang nhà, chúng ta phải đi tìm tài liệu trên liên mạng để đem xuống máy mình, vừa tốn thì giờ mà không chắc đạt được kết quả. Với Kỹ thuật Đẩy, người dùng chỉ cần đăng ký vấn đề muốn có, nhà cung cấp sẽ đưa đến tận máy mỗi giờ, mỗi ngày hay mỗi khi có sự thay đổi. Hiện có hơn mười nhà cung cấp miễn phí thông tin, quan trọng nhất là PointCast và NetCaster. PointCast hiện có trên 1 triệu người đăng ký. Chúng ta có thể dùng Kỹ thuật Đẩy để chuyển tài liệu đến sinh viên, hay cho Giáo dục Từ Xa (Distance Learning) như PointCast đang dùng cho sinh viên Cao đẳng. Dĩ nhiên Pointcast và các công ty thực hiện Kỹ thuật Đẩy đã phải sống nhờ vào tiền thu được do quảng cáo hay từ các nhà bảo trợ.
c- Thực hiện các phương tiện để phục vụ cộng đồng người Việt trong các cơ sở nước ngoài. Điển hình cho áp dụng này là việc lập thư mục tại các thư viện công cộng. Các thư viện hiện đang dùng Communicator 4.0, chúng ta có thể thực hiện các thư mục về sách chữ Việt rồi để trên liên mạng hay trong máy phục vụ (server) của thư viện mà không cần phải cài đặt bất cứ một chương trình biên soạn, chương trình đọc hay phon chữ Việt nào! Thực hiện tài liệu Việt ngữ tại cơ quan công cũng như các công ty tư mà người Việt thường liên hệ sẽ giúp đỡ cộng đồng chúng ta một cách hữu hiệu.
d- Việt hóa (Vietnamization) phần mềm: Hiện nay chúng ta đã có một số phần mềm do thảo chương viên người Việt thực hiện, đặc biệt là Windows 95 ấn bản Việt ngữ do Microsoft thực hiện. Tuy chúng ta chưa có đủ từ về tin học bằng Việt ngữ, nhưng việc Việt hóa phần mềm là một công việc rất quan trọng cần phải thực hiện, dù sớm hay muộn. Khi nói đến việc Việt hóa phần mềm, chúng tôi muốn đề cập đến việc chuyển sang Việt ngữ phần Giúp đỡ (Help), phần Hướng dẫn (Tutorial), phần Mặt Tiếp Giáp (User Interface). Công việc này sẽ phải do người Việt chúng ta chủ động vì có liên hệ đến văn hóa và phong tục Việt nam. Thí dụ cách đề ngày tháng, tiền tệ, cách trình bày vấn đề, v.v... Kỹ thuật đọc chữ Việt không cần phon trình bày trên sẽ góp phần trong việc soạn thảo và phổ biến phần Giúp đỡ và Hướng dẫn. Riêng về phần Mặt Tiếp Giáp chúng tôi đang dùng chương trình Jargon. Nói chung thị trường Địa phương hóa (Localization) hiện đang phát triển rất nhanh, đặc biệt là việc đổi dịch tự động (Automatic Translation) các trang nhà trên Internet, từ Anh ngữ sang ngôn ngữ của châu Âu, châu Á (Nhật, Trung quốc, Đại hàn), châu Phi, và ngược lại.
Chúng tôi không hi vọng thị trường Việt ngữ sẽ bộc phát trong vòng 2, 3 năm nữa, nhưng việc Việt hóa cần thời gian và nhất là cần tìm xem kỹ thuật nào thích hợp cho hoàn cảnh nước nhà.
 Do phạm vi giới hạn, bài này chỉ mới đề cập đến những nét chính của vấn đề.
Chúng tôi tha thiết nhận được những phê bình cũng như những hợp tác để triển khai đề tài. Nếu quí bạn cần thêm chi tiết hay mọi tin tức liên quan đến vấn đề, xin liên lạc với chúng tôi qua địa chỉ sau:
Lê Quang Văn
Trung tâm In Việt (Inverness Technologies)
7115-143A Street
Surrey, BC Canada V3W 0Y3
 Tel:  604-596-6992
Fax:  604-596-9698
Email:  vanle@smartt.com
          lequangvan@hotmail.com
Internet: http://www.smartt.com/~vanle/Index.html              http://www.cybercity.hko.net/vancouver/vanle              http://www.trailerpark.com/flamingo/vanle