3.2 Unicode の使用
世界中の多様なアプリケーションをサポートするため、DOI 名には、人間が読める形式で表記、印刷、または表示されることを意図した任意の Unicode 文字を使用できます。
この柔軟性により、DOI 名の表現や交換において曖昧さが生じます。例えば、次のようになります。
- 文字「Á」(ラテン大文字の A にアキュート付き)は、単独でエンコードすることも、文字「A」(ラテン大文字の A に結合文字 ◌́(結合アキュートアクセント)を付けてエンコードすることもできます。
- DOI 名をマシン間で交換するためにバイト列へシリアル化する際、複数のエンコード形式(UTF-8、UTF-16、または UTF-32)を使用できます。
- グリフ「Å」は、オングストローム記号または上付きリング付きラテン大文字の A のいずれかに対応します。
これらの問題を回避するため、本書では DOI 名の構文を Unicode コードポイントのシーケンスとして指定します。各コードポイントは0から0x10FFFF までの整数で構成され、Unicode におけるエンコードの基本単位となります。