正規表現でひらがなやカタカナを取り出す

8月 13th, 2017

pythonで、ひらがなやカタカナを取り出すときのパターン。

カタカナで一番よくあるのは、
[ァ-ン]

でもこれだと、「ー」が入っていないので、例えば「ドーナツ」などは「ド」「ナツ」(findallで取り出した時)と分けて取り出されてしまう。後、「ヴ」にも反応しない。

[ァ-ヾ]
にするという方法もあるが、これだと中黒「・」が含まれてしまう。個人的事情によりこれは含めたくない。

というわけで、こんな風にしてみた。
[ァ-ヴー]

具体的には↓な感じになる。
katakana=re.compile(r’[ァ-ヴー]+’)

どこまでを範囲に含めるかは、Unicode表(?)を見て決めるのがよさげ。
片仮名 (Unicodeのブロック)

ひらがなの場合も上記と同様。
[ぁ-ん]
がよくあるやり方。「う」に点々は、ひらがなの場合ちょっと厄介なので、私は含めず、
[ぁ-んー]
で使用。どこまで必要かは状況によるので、表を見て決めると良いかと。
平仮名 (Unicodeのブロック)

関連記事

  1. 変数はraw stringが使えない(涙)
  2. 予めコンパイルしてキーワードチェックしたら
  3. 正規表現コンパイルする?しない?

Comments are closed.