Rubyで分かち書き

fukayatsu Advent Calendar 2013 - 8日目

ちょっと分かち書きの需要があったので、todesking/okuraを使わせてもらうことにした。

# Gemfile
source "https://rubygems.org"

# ver 0.0.1のgemだと`Tagger#wakati`が動かなかったのでmasterを指定している
gem "okura", github: 'todesking/okura'
# sample.rb

require 'okura/serializer'

dict_dir = 'lib/okura-dic' # mecabの辞書を元に生成しておく
tagger   = Okura::Serializer::FormatInfo.create_tagger dict_dir

text = '分かち書き対象のテキストです...慈悲はない...'
p tagger.wakati(text)
$ bundle exec ruby sample.rb
#=> ["BOS/EOS", "分かち書き", "対象", "の", "テキスト", "です", ".", ".", ".", ".", "慈悲", "は", "ない", ".", ".", ".", "BOS/EOS"]

参考

Rubyによる形態素解析エンジンokura 0.0.1をリリースしました
バージョン0.0.xのうちは、インタフェースや辞書フォーマットは頻繁に変更される予定です。
ある程度安定したら0.1.0出します。

辞書ファイルのコンパイル方法もこちらで。