3.2 Unicode の使用

世界中の多様なアプリケーションをサポートするため、DOI 名には、人間が読める形式で表記、印刷、または表示されることを意図した任意の Unicode 文字を使用できます。

この柔軟性により、DOI 名の表現や交換において曖昧さが生じます。例えば、次のようになります。

文字「Á」（ラテン大文字の A にアキュート付き）は、単独でエンコードすることも、文字「A」（ラテン大文字の A に結合文字 ◌́（結合アキュートアクセント）を付けてエンコードすることもできます。
DOI 名をマシン間で交換するためにバイト列へシリアル化する際、複数のエンコード形式（UTF-8、UTF-16、または UTF-32）を使用できます。
グリフ「Å」は、オングストローム記号または上付きリング付きラテン大文字の A のいずれかに対応します。

これらの問題を回避するため、本書では DOI 名の構文を Unicode コードポイントのシーケンスとして指定します。各コードポイントは0から0x10FFFF までの整数で構成され、Unicode におけるエンコードの基本単位となります。