電脳春秋 – 〈第 25 回〉  世界の文字を統合することは可能なのだろうか


電脳春秋

執筆:H.F

〈第 25 回〉  世界の文字を統合することは可能なのだろうか

あちこちのホームページを見ていると、どうしてもうまく表示できないページがある。メールも、本文が化けてしまって、何を伝えたかったのかさっぱり分らないことがある。文字化けは、もう日常的である。

『 文字はなぜ化けるのか 』 という帯の文字コードの研究書が販売されるくらいだから、文字を正しく表示するのは難しい。日本語の表示や入力には幾つもの文字体系があるのが問題で、 1 つしか無ければ発生しなかったのであるが、複数の体系がそれぞれ普及してしまった。さらに、インターネットの普及で、異なる文字コードのコンピュータが相互接続されて、混乱に拍車がかかった。

世界の文字を見ていくと、欧米には多数の言語があるとはいえ、基本はアルファベットであり、ロシア語になっても、文字数は数十で、大文字小文字を別々に数えても、大した数ではない。アクセント記号などもあるので、それらを考慮しても、せいぜい 200 個程度で収まる。

ところが、日本、中国、台湾の漢字は、少なく見積もっても数千ある。人名、地名、さらには文献作成なども考慮すると、すぐに数万文字必要になってしまう。要するに、欧米の文字と比較すると、 100 倍程文字数が多い。それに、実際にどれだけの漢字が存在するかなど、実は誰も知らない、知ることもできない世界である。

コンピュータソフトを世界で普及させようと思うと、それぞれの国の言語別にプログラムを変更するのは大変な作業である。だから、コンピュータ上で世界の文字を統合し、どの言語も表示や入力できる世界共通の万能文字コードを作れば大変便利になるという考えで、ユニコードという統合文字体系が作られた。このとき、中国、台湾、日本など東アジアの漢字は統合された。

いままでは、どの言語のどの文字体系かはデータを分析すればだいたい判別できた。ユニコードでは漢字は統合されているのであるが、実際に漢字のデザインは国によって基準が違うので、表示するときはどの国の字体を用いるかが重要になってくる。たとえば、「平」という字は、国によって字体が異なる。

実は、記号はもっと困った動きをする。今まで作っていた文章をユニコードに変換すると、文字化けすることは少なくない。ユニコードにした文章が、自分のコンピュータでは正常に見えても、相手のコンピュータで正常に見えるとは言い切れない。

ユニコードは、最初なかなか広まらなかったが、最近徐々に広まりつつある。そして、多数の人々が使うようになったため、問題点も知られるようになった。文字はとにかく奥の深い世界であるが、我々が文字、とくに漢字や多数の記号を利用する以上、文字のトラブルは避けて通ることができない。コンピュータが使われだしたころ、日本も英語あるいはローマ字にしてしまえばという話があったそうだが、日本人はまだまだ漢字を使い続けるだろう。