地方在住IT系ニート

bkds

Unicodeのメモ

はじめに

氏名の比較をしたくなるケースがあります。 ですが、ユーザが自由に記入できるようなサイトの場合、記号が入力されてしまうようなケースがあります。 今回は、アルファベット、ひらがな、カタカナ、漢字以外を排除する方法をメモします。 Unicodeを用いて実現していきます。

Unicodeとは

Unicode(ユニコード)とは、文字コードの標準規格です。 Unicodeに収録されている文字は、こちらを参照してください。

基本的な文字コードは下記のようになるようです。

判定方法

判定方法はとてもシンプルで、文字列から1文字ずつ上記で記載したコードの範囲に一致するかを確認するだけです。

「あかさたな」は「U+3042U+304BU+3055U+3066U+306A」で表現できるので、すべてひらがなの範囲に収まっていることがわかります。

JavaやGoなどのプログラミング言語は、Unicodeを扱うライブラリが標準でありますので、それらを利用した判定ができます。 ユーザごとにUnicodeグループを作成できるので独自のグループ判定も可能になります。

<-- Back to home
にほんブログ村 IT技術ブログ IT技術メモへ PVアクセスランキング にほんブログ村