Hola. Actualmente mi tesis trata de generar resumenes automaticos de texto, por lo cual entiendo la posible complejidad de la tarea. Creo que la mejor opcion es usar Lucene (Java) para generar las matrices de frecuencia de terminos (TF) o las frecuencias inversas por documento (IDF). Una vez obtenidas estas matrices, ya es cuestion de encontrar el mejor clasificador (ej: Tree-Classifier) que genera las reglas de separacion, o tambien se puede hacer una extraccion de caracteristicas principales para cada clase. Estas reglas de separacion de clases (favorable-desfavorable) es lo que buscas.
Yo te puedo ayudar con esta tarea.