ありえない物書き道具。

Google 日本語入力 – Google
またまたとんでもない物がGoogleから。今朝から話題大沸騰中のGoogle日本語入力
これは、かな漢字変換システムというジャンルのソフトで、ATOKとかことえりとか、少し前に話題になったかわせみとかと同種の物。読みで入力された日本語の文を、漢字仮名交じり文に変換する役割を持つ。
このジャンルのソフトはおおざっぱに分けると二つの要素から成り立っていて、まず一つ目が、読みのみの文書から構造を把握するロジック部分。もう一つは、その構造に当てはめるための語彙を格納した、辞書部分。現在最高峰のATOKは、この両方に長年の蓄積を元にした精巧な仕組み、データを持つ故に高精度な変換を実現してくれる。


さて、今回リリースされたGoogle日本語入力は、Google Japan Blogに書かれているように、前者にも後者にも、彼らが持つ莫大な量の日本語文書を処理し、そこから導き出されるモデルやデータを使っているんだそう。

Google 日本語入力は桁違いの語彙力を持っています。Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます。

この威力は、実際に使ってみるとすぐにわかる。
たとえば、ウチのtwitterからいくつかピックアップして、打ち込んでみる。変換候補の一発目をそのまま確定させます。

http://twitter.com/yune_kotomi/status/5557883016
ATOK: 読書びよりのサイドバーに個人ブログの広告が出てる。
Google: 読書日和のサイドバーに個人ブログの広告が出てる。

http://twitter.com/yune_kotomi/status/4940094272
ATOK: 動物系の番組ではひだまりのサントラを使うなんて言うレギュレーションがあるんでしょうか。
Google: 動物系の番組ではひだまりのサントラを使うなんていうレギュレーションがあるんでしょうか。

http://twitter.com/yune_kotomi/status/6224081730
ATOK: CrunchPad志望って、ユーザ主導のハードウェアはぽしゃるって法則でモアるんかな。M難とかとか。
Google: CrunchPad脂肪って、ユーザ主導のハードウェアはポシャるって法則でもあるんかな。Mなんとかとか。

http://twitter.com/yune_kotomi/status/6142464484
ATOK: カケラの樹のキャッチコピーが変わったのに気づいたヒトはいたんだろうか。
Google: かけらの木のキャッチコピーが変わったのに気づいた人はいたんだろうか。


Google日本語入力は、ついさっきインストールした物。対してATOKは、ずっと使い続けててウチの言葉遣いをかなり学習している。加えて、普段着のいい加減な話し言葉を変換させて、この精度。これは、ATOKにかなり迫ってると言えると思う。


ATOKは、伝統のある、長年の経験に裏打ちされた職人技が創り出した製品。それに迫る勢いの精度をたたき出すGoogle日本語変換は、莫大な物量と高度な理論、統計モデルに裏打ちされた物。
こんなふうに、熟練の職人芸で作られるモノを高度な機械処理の産物が凌駕していく*1構図って、いつかどこかで見た風景な気がする。

*1:今はまだ追いついてないか、互角レベルだけれど