2012/10/31

Ubuntu 10.04 ラテン文字フォントのグリフ一覧

ラテン語(イタリア発祥)は死語に近い状態なのに、ラテン文字はドイツ語やフランス語、英語など多数の言語を記述するために広く利用されているようです。元は対の言語と文字だったと思いますが、この違いはなんなんでしょう。文字は言語の媒体に過ぎないということの証明でしょうか。

さて、ユニコードに収録されているラテン文字のグリフ一覧です。Ubuntu 10.04 搭載フォントにあるグリフだけ表示できるという制限がありますが、字形を確認するために作りました。表示されたグリフは搭載フォントからの寄せ集めですが、表示順序はユニコードラージフォントの DeJave Sans が最優先なので、大部分はその収録グリフだろうと思われます。(表示順序は FontConfig システムで指定されています)

↓「NUL(U+0000)」から始まる制御文字にグリフはありませんが、略語のグリフ(U+2400から)が Arial Unicode フォント(Ubuntu 非搭載)に収録されていたので参考のため位置を変えて表示しました。小さくて見づらいですが、横幅を保てる点で便利です。(U+0080以降の略語グリフは見当たりませんでした。)

グリフの範囲(七つ)は、使用頻度の高い順に並んでいるようです。
範囲 使用頻度 バージョン Note
基本ラテン文字 必須(機器の制御・OSの設定など) Unicode 1.0 ASCII互換(7bit長)
ラテン1補助 非常に高い Unicode 1.0 制御文字含む
ラテン文字拡張A 高い(大抵の欧文を記述できる) Unicode 1.0 - 1.1
ラテン文字拡張B ↓低い Unicode 1.0 - 3.0 カナの「ヱ」レベル?
ラテン文字拡張追加 Unicode 1.1 - 5.1
ラテン文字拡張C Unicode 5.0 - 5.1
ラテン文字拡張D Unicode 5.1 - 6.1 未使用領域あり
ASCII互換の「基本ラテン文字」と「ラテン1補助」の範囲は、「制御文字(字形なし)」「記号」などを含んでいます。制御文字はコンピュータなどの操作に欠かせないですし、アラビア数字も世界中で使われていると思います。記号も然り。よって、ラテン文字以外のフォントでも収録される機会が多いのだと思いました。

「ラテン文字拡張B(〜U+024F)」までのグリフは連続で収録されていますけど、これは同時期にユニコードに割り当てられたためのようです。携帯電話の「人口カバー率」のような考え方では、「ラテン文字拡張A(〜U+017F)」までで大抵の需要は満たせるようでしたので、「ラテン文字拡張B」以降はあまり使われることのないグリフとみてよさそうでした。これを100%にするために、時間を掛けて更に拡張しているようです。(ユ:「収集家として当たり前のことをやっているだけです」)

「ラテン文字拡張D」の範囲には「空白」が目立ちます。コード化されていないグリフは登録できないので時期的な理由が大きいですが、フォントに収録する段階でグリフの取捨選択は製作者の判断で「不要」と判断されたものも空白なんだと思います。それなりのフォントを追加すれば全部の字形を確認できるかもしれませんけど、私の場合はまったく必要ないのでこのままで問題なしです。

ユニコードは「世界規模の文字集合」です。古代文字や利用されていない文字、麻雀牌などの図形や特殊な記号までも収録していました。博物館的なので、字形の全てを確認してみたい気持ちを少し持ったんですが、Ubuntu のフォントを増やすほどに面倒になる部分のことを思い出したので「収集は止めとこう」と思います。