もっと賢く、中身を掴む。

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
こちらの記事で述べられている、YSTを使ったTF/IDF算出手法を以前開発した文章要約エンジンに組み込み、実験してみました。
このバージョンでの要約結果は次のようになりました。

今更感がひしひしとするんだけど、3DCGフリークとしては是非観ておかなければならんでしょ、って事で観ました。……コメンタリーが。映像、確かにかなりリアルではあるんだけど惜しい感ばりばりで、なんだか中途半端。数年前の作品だから比べるのも酷なんだろうけど、現在の技術でならもっとフォトリアリスティックな映像が出来るんじゃない?CG映像で致命的なのは、なんだか中途半端にリアルって事なんだろうと思う。この点、同じフル3DCG映画でもAPPLESEEDはよくできてた。フォトリアリスティックな映像を志向するかわりに、トゥーンシェーディングで普通のアニメーションの感覚を求めつつ、CGのダイナミックな動きも同時に追っかける。わっかりにくいし説明台詞もぱらぱらとあって気持ちのいい流れではないんだけど、そんなに致命的にダメでもないんじゃないかな。で、いまいちぱっとしないんだけどコメンタリーモードに切り替えると面白い。興味深いって事ね。莫大な制作費と技術が惜しげもなく投入されてる野心的なプロジェクトって事がよく分かる。CG技術に興味が有ればこれは必見なんじゃないかな。エンドロールでAMD64のロゴが出ない!*2:現在でも3DCGなんて凄まじく重たい処理ですけどちなみにAPPLESEEDAMDのチップで制作されたらしく、エンドロールでロゴが出てきてにやっとした覚えが。

 伺かの閉鎖性、ライトユーザ不在(これはuedaさんも気にしてましたね)は、ゴーストを「広める」の条項の不在に繋がっているんじゃないか、というお話。 大昔の偽春菜は、「可能な限り他の人にも偽春菜を広めよ」と初回起動で言っていた。実はこれ、重要なことなんじゃないかと最近思う。 人に何かを広める、布教するというのはけっこう大変なことだ。伺かのような「本質的には必需品じゃない」場合は、特に大変だ。 * 新規ユーザの獲得:当初の狙った効果。新しい視点を持つ人が入ってくることはよいことだ。 * 頭の整理による、表現するもの自体の深化:副次的効果。 ゴーストを作る人は、この2つの効果を念頭に置きつつ、この懐かしき「広める」条項を頭に留めておくと良いだろう。さらに新しいユーザを獲得できたら、「既存のユーザと違う視点の感想」という、とてつもない宝物が得られるかもしれない。これは、伺か業界の閉鎖性を打破するのに、非常に有効なはずだ。

そんな、どこかの都市伝説のおばあさんのような気分を、十二分に味合わせてくれためまいが、ようやく立ち去ってくれました。なんとか、体の調子は回復へ向かっているみたいです。今回つくづく思ったことは、本読みってスキルですよね。マンガは別として、活字本って、スキルがないと読めません。これは字が読めるとか物知りだとか、そういう話ではなくて、活字と何時間も向き合うことのできる能力のことです。めんどうなことに、このスキルって、使わないとあっという間にさびつきます。もう長いこと課題に関係しない本はほとんど読んでいなかったせいで、ラノベの文庫本ですら、一気に読み切るのが苦痛になっていたほどです。昔は、図書室の座敷童と異名を取ったことすらあったのに*1、落ちたものです。

道頓堀極楽商店街内、喫茶「コロンビア」の巨大パフェ「富士山」に、約1年ぶりに挑戦してきた。今回のパーティーはいとうべん太さん、畝傍さん、ケノさん、私、鳴沢さん、ぽなさんの6人。前回は同じ6人でも屈強な男ばかり+バックアップメンバーがいたのに対し、今回は意欲は旺盛なれど、「普通のパフェ一個でも完食難しい」という方も交えた、バックアップメンバーなし。時間は1時間ほど掛かったが、めでたく完食。今回は、「アイスは別腹」とのたまううねねー畝傍さんのラッシュが光る登山だった。終了後の様子を見るに、全員のダメージは許容範囲だったようだ。

以前の結果もそれなりにいい感じだったから今回劇的に品質アップしたわけではないけれど、自前で単語出現頻度表を用意せずとも高精度の要約が出来るようになってる。ただし、キャッシュしてるとはいえ全単語に対して検索APIコールを行うわけで、動作速度は泣ける。全単語がキャッシュヒットするならいいけど、そう言うわけにはいかないし。


ソースは以前のバージョンと同じページから入手できます。
文章要約エンジン - 雨上がりの青空を探して。