データベースで扱うことが出来る文字は,Unicode文字(ISO-10646-1)である.
英語と日本語(および日本語の読み)をサポートする.
- ○英語:
- 本来の英語および主にISO-8859-1の文字集合で表現される文字列の両方を意味する.
- 「英語」は情報の公開時にワールドワイドに通用する言語を意味している.
人名や論文題名がLatin系の言語で表記されており,かつそれがワールドワイドに受け入れられる場合にはそれが対象となる.
- ○日本語:
- 和文およびUnicode文字集合で表現される文字列を意味する.(ただし,Unicodeの“Private Use Area” に定義される文字; 外字,機種依存文字,半角片仮名文字は含まない)
- 「日本語」は情報の公開時に日本国内で通用する言語を主に意味している.
たとえば,多くの場合英語以外の論文題名は日本語であるが,そうでない場合,かつそれが日本国内で受け入れられる場合にはそれが対象となる.
- ○日本語の読み:
- 平仮名(`あ'〜`ん') と 片仮名(`ア'〜`ヶ') および 長音(`ー') と空白(' ')のみで表される.
- 「日本語」の部分に記述された文字列の読みである.
- 特別な場合を除いて,「日本語の読み」は情報の排列を決定するために用いる.
言い替えると,「○○1」,「○○2」,「○○3」などの場合には,「○○」の部分だけの読みを記入し,「1」「2」「3」の読みは記入しない方が好まれる.
(辞書排列に一致する)
現在,定義されている型を「Type Definition」に示す.
データベース上での登録情報は,全てXMLによるテキスト形式で保存されるため,型定義は実際のストレージ上のでのデータの保存形式を意味するものではない.
データ型は登録情報として期待される情報の属性を表しており,登録されたデータを型定義の要求する書式に変更したり,有効性の確認や表示上の補足を行なうときに参照される.
例えば,型がDATEであれば,西暦年月日に書式を合わせ,存在しない日付のチェックを行ない,また,表示を「西暦○○年○月○日」のようにするというように参照する.