そんなこと、聞きたくなかった。

以前から、機械文書要約をいろいろと試したりしてるんだけど、こういう簡単なアルゴリズムでもソースによっては結構うまくいく。説明文とか、ニュース記事だとうまくいくのが多くて、うまくいきづらいのはエッセイとかそういうの。エッセイとかだと、人がやっても要約は難しいし、そもそも要約して圧縮できるものかというとそうでないことも多い。
ところで、今まで使ったようなアプローチは文章の内容には関知しない。ソースがニュース記事だろうと、エッセイだろうと、物語だろうとお構いなしに同じ手法で文章を処理し、要約文を生成する。内容を判別しない仕組みだから当然なんだけど、この乱暴な方法だと困ったことが起こりうる。エッセイとか物語がソースの場合、重要(と思われる)な部分をそのまま抜き出すのは最良とはいえない。むしろ避けるべきだったりする。要約文は本文の前に読むケースが主なのに、そこで「犯人は○○」とやられてしまうと、困る。これがニュース文なら何の問題はないんだけど、推理小説で最後まで犯人が分からないタイプの文章だと、とても困る。
この問題に対処するには、どういう手法を使えばいいだろうか。
一番簡単そうなのは、要約対象のソースに全文を使わない。全文から先頭を取り出し、その部分のみソースとして要約処理を行う。これなら、佳境になって初めて明かされる内容は要約文に入らない。ただしこれだと、ニュース文で最後の方に核心が書いてある場合、要約品質が下がる。
この問題への対応は、ニュース文とかネタばれを気にしなくていいソースに対しては全文を使い、ネタばれ注意なソースに対しては先頭のみを使えばよい。だから文章のタイプが分かれば問題はなくなるんだけど、それをソフトウェアでどう実現するか。