要約文生成機能の精度向上。

先日のメンテナンスで、月燈火の文書要約エンジンを新しくしました。アルゴリズムは前と同じTF-IDFで変わってないけど文の分割部とか細かな改良を入れてます。併せて単語出現頻度表も新しい物に入れ替えてます。元になるコーパスの文書数は10万を越えました。
ただ、エンジンのアルゴリズムは変化がなくコーパスの増分も2割程度なので、これだけでは劇的な精度向上はしません。月燈火の文書要約には実際の要約処理の前に取得したHTML文書から本文を抽出する処理があり、この部分にも大幅な変更を加えました。
今回の更新でこの機能をサイボウズラボのPathtraqで使われているExtractContent.rbというライブラリに交換しました。これ、かなり精度の高い本文抽出機能を提供してくれる。現在使用している要約エンジンは特徴語を元に要約文を生成する構造上、ノイズ要因*1に弱いのですが、このおかげでソースからのノイズ要因が格段に減ったため提示される要約文の精度が格段に上がりました。

なお、今回更新した文書要約エンジンは近いうちにカケラの樹へも導入し、公開も行う予定です。

*1:本文以外の内容。広告やメニューリストなど。