Rubyで分かち書き
ちょっと分かち書きの需要があったので、todesking/okuraを使わせてもらうことにした。
# Gemfile source "https://rubygems.org" # ver 0.0.1のgemだと`Tagger#wakati`が動かなかったのでmasterを指定している gem "okura", github: 'todesking/okura'
# sample.rb require 'okura/serializer' dict_dir = 'lib/okura-dic' # mecabの辞書を元に生成しておく tagger = Okura::Serializer::FormatInfo.create_tagger dict_dir text = '分かち書き対象のテキストです...慈悲はない...' p tagger.wakati(text)
$ bundle exec ruby sample.rb #=> ["BOS/EOS", "分かち書き", "対象", "の", "テキスト", "です", ".", ".", ".", ".", "慈悲", "は", "ない", ".", ".", ".", "BOS/EOS"]
参考
Rubyによる形態素解析エンジンokura 0.0.1をリリースしました
バージョン0.0.xのうちは、インタフェースや辞書フォーマットは頻繁に変更される予定です。
ある程度安定したら0.1.0出します。
辞書ファイルのコンパイル方法もこちらで。