正規表現で漢字を取り出す

8月 13th, 2017

漢字を取り出したい!!

・・・が、これはひらがな、カタカナの場合に比べてものすごく難しい。

[亜-熙]

というのを見かけたが、これはうまく行かなかった。「上」等が入っていない。上記はシフトJIS用らしい。

気を取り直してさらに調査して見つけたのが

[一-龥]

やってみたところ、まずまず動いている。ただ、これでは含まれない漢字(JIS第三水準、第四水準漢字等)もあるようなので、がっつりとやりたければ、下記になるらしい。

[\u2E80-\u2FDF々〇〻\u3400-\u4DBF\u4E00-\u9FFF\uF900-\uFAFF\u20000-\u2FFFF]

部首なんかも入っているっぽい…

とりあえず忘れないようにメモということで。

No related posts.

Comments are closed.