Twitterのタグを取り出す正規表現について

今回はツイッターのツイートからタグを取り出す正規表現について話したいと思います。
ググれば出そうなものですがシックリくるものが意外と見つからなかったので書きたいと思います。
結論から言うと以下のようになりました。

\B#\w*[一-龠_ぁ-ん_ァ-ヴーa-zA-Za-zA-Z]+\w*

実行結果:

はい。
結論だけ知りたかった方はこれより先を読んで頂く必要はありません。

自分が気がついたツイッターのタグの仕様について
・半角数字だけの場合機能しない
・タグの文字数制限は100文字
・タグがスペースなしで重なっていた場合機能しない
・日本語対応
といった感じでしょうか。

正規表現についてあまり詳しくないのでわかりませんが、
\Bはスペースの有無
wは単語の構成
[]内は対象文字
大まかにこんな感じでしょうか。
100文字の制限はかけていません。

とりあえず上記のもので取り出せると思います。
何か間違いや不備がありましたらご連絡下さい。

Be the first to comment

Leave a Reply

あなたのメールアドレスは公開されません。