Wie funktioniert die Software LiSA?

marawinter Literaturbetrieb

Wie funktioniert die Software LiSA? (Artikel 2)

Thema QualiFiction: Artikel 1 

Computer können nicht lesen, aber sie können Texte erfassen und in Kategorien einteilen, z.B. in Wörter, Kapitel, Sätze etc.  Geübte Leser und Verleger oder Literaturagenten „fühlen“, wenn ein Text sich stimmig oder falsch entwickelt. Computer können das nicht fühlen, aber sie können Muster erkennen, die Menschen nicht sehen. So wie ein Spam-Programm mit der Zeit immer zielsicherer erkennt, ob eine neue Mail Spam ist oder nicht, so lernen auch die Computer mit jedem weiteren verarbeiteten Manuskript besser, Texte zu analysieren. Und Je mehr Merkmale eines erfolgreichen Textes ein Computer kennt, desto eher kann er neue Texte in „erfolgreich“ und „nicht erfolgreich“ kategorisieren.

Die Treffsicherheit der Software liegt bei knapp 80 %, das bedeutet, dass LiSA von 100 getesteten Manuskripten 80 korrekt als erfolgreich oder nicht erfolgreich einstuft. Damit liegt die Software bestimmt nicht schlechter als ein Mensch, der 100 Manuskripte einschätzen muss.

Die Software LiSA analysiert einen Text und teilt ihre Ergebnisse in mehrere Kategorien ein.

Es gibt die Themenanalyse, die Sentimentanalyse, Stil& Statistik, Figuren und Beziehungen und Scoring. Jeder dieser Bereiche ist nochmal in Unterkategorien (wie Satzlänge, thematische Exklusivität, Wortartenverwendung u.a.) unterteilt.

Um das eigene Manuskript besser vergleichen zu können, sind die Beispielromane „Passagier 23“ von Sebastian Fitzek und „Das Lavendelzimmer“ von Nina George in der Bibliothek gespeichert. Ich habe drei Manuskripte analysieren lassen. Aufgrund der vielen Unterkategorien und der umfangreichen Ergebnisse stelle ich nur ein paar ausgewählte Beispiele meiner Analysen vor.

Mein momentan noch unveröffentlichter Roman mit dem Arbeitstitel „VV“ ist folgendermaßen bewertet worden:

  • Genre: 100% allgemeine Belletristik (stimmt), 1% historischer Roman (stimmt nicht, aber okay, 1% kann man vernachlässigen…)
  • Top Themen: Kindheit und Familie (5,8%), Jugendliche Welt (5,1%), Teenagersprache (4,5%), Intimität (4%), Alltagsmanagement (3,9%). Das Thema „Kleinkinder“ steht mit 3,3% auf Platz 8. Wenn ich dieses gegen Platz 3 (Teenagersprache) tauschen könnte, würde ich der Einteilung und Gewichtung komplett zustimmen.
  • Die thematische Exklusivität wird mit 64,3% als hoch angegeben (Bestseller-Mittel: 40,5%)
  • Mittlere Satzlänge von 9,0 Wörtern (Bestseller-Mittel 9,8 Wörter)
  • Ermittlung der Erzählperspektive: zu 62,7% ein Ich-Erzähler (korrekt)

 

Nun der Versuch mit meinem kürzlich veröffentlichten Krimi „Das geheime Kapitel“.

LiSA stufte meinen Roman „Das geheime Kapitel“ als 100% „allgemeine Belletristik“ und als 90% „Kriminalroman“ ein. Passt.

Die thematische Exklusivität wird als „moderat“ eingestuft. Was bedeutet das? LiSA erklärt: „Ein Wert im eher rechten Bereich weist dabei auf einen ungewöhnlichen oder innovativen Themencocktail hin. Umgekehrt spiegelt sich ein thematisch eher bekanntes oder gewohntes Setup in einem Wert weiter links wider.“

Doch bevor man jetzt von der Einstufung enttäuscht ist, sollte man sich die Vergleichswerte bei den Bestsellern von Fitzek und George zu Gemüte führen. Denn bei „Passagier 23“ wird die thematische Exklusivität als „gering“ eingestuft. „Außergewöhnlicher“ bedeutet also keinesfalls „besser“. Eher im Gegenteil, je außergewöhnlicher ein Thema, desto weniger Leser interessieren sich erstmal dafür. Bestseller sind ja Manuskripte, die so viele unterschiedliche Menschen wie möglich ansprechen.

LiSA erklärt die Sentimentsanalyse:

„Das ‚Sentiment‘ ist ein Wert auf einer Skala von -1.0 bis +1.0. Positive Sätze wie ‚Die Sonne schien und ich war vergnügt‘ besitzen ein positives Sentiment, während Ausdrücke wie ‚Der Mörder schlug brutal zu‘ einen negativen Sentimentwert aufweisen. Aufgezeigt wird die Entwicklung des Sentiments entlang der Romanhandlung. Für gewöhnlich liegt die Kurve dabei vorwiegend im leicht negativen Bereich. Dies ist auf einen literarischen Grundkonflikt zurückzuführen, der die Aufgabe hat, die Handlung voranzutreiben.“

Mein Manuskript beginnt in der Grundspannung, geht kurzfristig in den Harmoniebereich und fällt dann in Kurven immer weiter in ab bis in den Dramabereich. Am Ende geht es wieder leicht nach oben zurück in den Grundspannungsbereich. Das passt genau zur Entwicklung der Geschichte, keine Einwände.

Die Software erstellt eine anschauliche Tabelle der Figurenbeziehungen und eine Tabelle mit den 50 häufigsten Wörtern. Beispiel:

Jetzt kommt die Analyse der Erzählperspektive:

„Mit hoher Wahrscheinlichkeit handelt es sich bei dem Erzähler des Werks um einen Ich-Erzähler“, schlussfolgert die Software.

Und das ist jetzt ein Problem, denn in dem Roman gibt es zwei sich abwechselnde Ich-Erzählerinnen. Die Software ist nicht in der Lage, das zu erkennen.

Und dieser Punkt versagt auch bei der Figurenkonstellation, denn die Software erkennt nicht, dass die Figur „Ich“ teilweise mit der Figur „Anna“ und teilweise mit der Figur „Silke“ identisch ist. Daher ist das Personengefüge, obwohl abgesehen von diesem Punkt sehr anschaulich dargestellt, einfach falsch.

Daher funktioniert die Analyse anhand meines Manuskripts „Das geheime Kapitel“ nicht und ich breche sie an dieser Stelle ab.

Wünschenswert wäre bei einer Weiterentwicklung die Option, einzelne Namen mit der Figur „Ich“ zusammenlegen zu können. Zumindest bei Romanen, die durchweg von einer Figur in der ersten Person erzählt sind, sollte auf diese Weise eine falsche Doppelung der Figuren zu vermeiden sein.

Mein Fazit folgt im dritten Teil der Artikelserie.

Thema QualiFiction: Teil 1  Teil 2

 

Zum Roman:

Zu QualiFiction: