読んだ気になりたい。

今日の井原 - 文章要約プログラムを書いてみよう! Archives
ふと思いついて、この記事を参考に文章要約エンジンを書いてみました。TF/IDFをそのまま適用した、簡単なシステム。
テキスト処理(入門)
TF/IDF算出はこの記事を参考に。実装言語はRuby形態素解析器はMeCabを使いました。コーパスは無作為抽出したblogからエントリのみ9万弱(プレーンテキストで300MB強)を使用しました。ヘッダ・フッタ・サイドバーなんかは全て除外してあるので品質は高いはず。

結果。

すっごく面白かったよ!……コメンタリーが。数年前の作品だから比べるのも酷なんだろうけど、現在の技術でならもっとフォトリアリスティックな映像が出来るんじゃない?と。この点、同じフル3DCG映画でもAPPLESEEDはよくできてた。フォトリアリスティックな映像を志向するかわりに、トゥーンシェーディングで普通のアニメーションの感覚を求めつつ、CGのダイナミックな動きも同時に追っかける。で、いまいちぱっとしないんだけどコメンタリーモードに切り替えると面白い。後、ちょっとくすっとしたのが、コメンタリーでしょっちゅう「このデータは重くてどうのこうの」とかなんとか。

なかなか。要点押さえられてるんじゃない?

 伺かの閉鎖性、ライトユーザ不在(これはuedaさんも気にしてましたね)は、ゴーストを「広める」の条項の不在に繋がっているんじゃないか、というお話。九重龍さんの記事を読んで思ったことを中心に書いている。 大昔の偽春菜は、「可能な限り他の人にも偽春菜を広めよ」と初回起動で言っていた。伺かのような「本質的には必需品じゃない」場合は、特に大変だ。頭の整理による、表現するもの自体の深化:副次的効果。これは、伺か業界の閉鎖性を打破するのに、非常に有効なはずだ。

これもなかなか。「ライトユーザの確保」を主題にしてるのだから、最後の一節を落としたのはマイナスポイント。

気晴らしにどこかへ行こうかな、とは思ったものの、外はかんかん照りの太陽が待ち受けています。今回つくづく思ったことは、本読みってスキルですよね。これは字が読めるとか物知りだとか、そういう話ではなくて、活字と何時間も向き合うことのできる能力のことです。昔は、図書室の座敷童と異名を取ったことすらあったのに*1、落ちたものです。

ちょっとはしょりすぎ。

道頓堀極楽商店街内、喫茶「コロンビア」の巨大パフェ「富士山」に、約1年ぶりに挑戦してきた。今回のパーティーはいとうべん太さん、畝傍さん、ケノさん、私、鳴沢さん、ぽなさんの6人。前回は同じ6人でも屈強な男ばかり+バックアップメンバーがいたのに対し、今回は意欲は旺盛なれど、「普通のパフェ一個でも完食難しい」という方も交えた、バックアップメンバーなし。今回は、「アイスは別腹」とのたまううねねー畝傍さんのラッシュが光る登山だった。

まんべんなく客観的描写ばかり拾い出してる。大意は取れてるね、これも。


で、このエントリを最初に書いて、品質にちょっとがっかりしつつしばらく別のことやってたらふと気づいた。
要約の粒度を文にしていて、各文ごとに重要度のスコアを振って、最後にそのスコアで降順ソートして上位3割を取る仕掛けなんです。ところが降順にしないといけないのに昇順ソートしてた!
慌てて書き直して要約を取り直してみるとこの結果。品質一気にアップ。当たり前、最初は重要じゃない文ばっかり取ってたんだから。まさしく、
これはひどい