Natürliche Sprache aus künstlicher Intelligenz

Das alte Lied … neue Hilfsmittel?

Das Volumen an Kommunikation jeglicher Art, die in immer kürzeren Bearbeitungszyklen und möglichst ressourcensparend verfasst und übersetzt werden muss, nimmt stetig zu. Bei dieser Entwicklung spielt die Prozessoptimierung eine fundamentale Rolle. Unterstützung kann in der Regel in Softwareapplikationen gefunden werden. Beim Verfassen der Kommunikation, z. B. von technischen Marketingtexten, kann etwa die Textprüfungssoftware TextLab Abhilfe schaffen. Diese wurde in Kooperation mit der Universität Hohenheim konzipiert und verfügt über verschiedenste Ressourcen zur Textanalyse. Ziel der Software ist es, den Text verständlicher zu gestalten, indem auf ggf. schwer verständliche Textstellen hingewiesen wird und Verbesserungsvorschläge gemacht werden.

Eine weitere Möglichkeit zur Verbesserung englischer Ausgangstexte bietet ASD-STE 100 Simplified Technical English. Das umfangreiche Regelwerk mit seinem eingeschränkten Vokabular stellt jedoch für viele Firmen einen unübersichtlichen Regelwald dar, den es mit Vorsicht und Bedacht zu navigieren gilt. Auch hier sind schon früh Prüfprogramme entwickelt worden (z. B. BSEC von Boeing), die allerdings nur in beschränktem Masse und unter bestimmten Voraussetzungen effektiv arbeiten können.

Ein Domino-Effekt

Verständlichere und vereinfachte Ausgangstexte können auch bei der Übersetzung zu verschlankten Prozessen und kürzeren Durchlaufzeiten führen, insbesondere falls der Einsatz Maschineller Übersetzung (MÜ) möglich ist.

Kommt MÜ in Übersetzungsprozessen zum Einsatz, ist ein darauffolgendes, sogenanntes Post-Editing in verschiedenen Abstufungen üblich. Diskutiert wurde bei der diesjährigen Tagung daher auch über mögliche Abrechnungs- und Bezahlungsmodelle der im PE angefallenen Aufwände (z. B. edit-distance based, also basierend auf den tatsächlich gemachten Änderungen/Korrekturen) und über Alternativen der Qualitätsbetrachtung von MÜ-generiertem Output mithilfe künstlicher Intelligenz.

Wenn du einen Text benötigen - Nachdenkliches zum automatisierten Journalismus

Mit einer halbwegs passablen Sprachausgabe wird ein moderner Fahrstuhl, Lift oder Aufzug noch ein wenig mehr barrierefrei. Das ist gut, denkt der Autor im konkreten Fall, auch wenn er nach Möglichkeit einen Bogen um wild drauflos brabbelnde technische Vorrichtungen macht. Und dann sollten diese doch eher auf uns Menschen hören als umgekehrt, und zwar im Klang unserer jeweiligen Muttersprache. Während der Wortschatz einer solchen Anwendung doch eher begrenzt ist und sich (was die Texterzeugung betrifft) wohl auch ohne den Einsatz von KI-Systemen bewältigen lässt, sind "da draussen" ein paar Urheber von Texten im Umlauf, über die nachzudenken lohnenswert erscheint.

Gemeint sind template-basierte Ansätze zur automatisierten Texterzeugung, wie sie für verschiedene Text-Genres bereits getestet und eingesetzt werden. Templates bestehen aus Texteinheiten in natürlicher Sprache, in denen Variablen als Landeplätze für die von der jeweiligen Anwendung eingesteuerten, strukturierten Daten dienen. Einzelne Wörter und Phrasen können zufällig gegen Synonyme ausgetauscht werden. Vom Anwender vorgegebene Berechnungen auf der Grundlage dieser Daten (x grösser y, x seit y Tagen fallend etc.) können entlang eines Entscheidungsbaums Wörter, Phrasen und grössere Texteinheiten austauschen. Wenn es in Stuttgart am Dienstag eine durchschnittlich geringere Feinstaubbelastung der Luft gibt als noch am Montag und beide Werte weit unter dem festgelegten Maximum liegen, dann wurden z. B. "erfreulich geringe x Mikrogramm" gemessen.   

Dieses Beispiel (Bericht "Feinstaub im Stadtbezirk Stuttgart-Ost") stammt von der Website der AX Semantics GmbH aus Stuttgart, deren CBDO Frank Feulner einen gut besuchten Fachvortrag auf der Tekom JT gehalten hat. Die im Vortrag und auf der Website zitierte Studie "WHEN REPORTERS GET HANDS-ON WITH ROBO-WRITING: Professionals Consider Automated Journalism’s Capabilities and Consequences" von Neil Thurman et al., Professor am Institut für Kommunikationswissenschaft und Medienforschung der LMU in München, beschreibt nicht nur die Einschränkungen der Natural Language Generation (NLG) auf spezifische Textsorten und Gegenstände, sondern reisst auch die sozialen und ethischen Aspekte an, die mit der Entlassung von Millionen automatisch generierter, ggf. personalisierter Texte in das Internet in den Blickpunkt geraten:

Wer ist der Urheber des Textes? Wer haftet für den Inhalt? Wie steht es mit der Objektivierbarkeit und Nachvollziehbarkeit? Welche Konsequenzen ergeben sich für den Einsatz im e-Commerce?

Eine höhere Qualität und Verlässlichkeit der zielsprachlichen Übersetzungen solcher Texte entsteht, wenn diese direkt in der Zielsprache generiert werden, anstatt sie maschinell zu übersetzen. Die fachgerechte Übersetzung von NLG-Templates mit ihren Verzweigungen, Abhängigkeiten und Synonyme stellt prinzipiell dieselben Anforderungen an den Sprachdienstleister wie das Übersetzen de-kontextualisierter Information aus einem CMS/einem Redaktionssystem.

Alte Bekannte

Natürlich haben wir auch in diesem Jahr einen Besuch der organisierten Toolpräsentationen nicht ausgelassen und uns über die aktuellsten Entwicklungen im Bereich von Trados Studio 2019 und Across Language Server v7 informiert. Für beide CAT-Tools gibt es Positives zu berichten, etwa eine Verbesserung des Alignment-Tools in Trados Studio mit dem SR1. Across setzt auf ein verbessertes Project Handling, z. B. durch eine flexiblere und präzisere Qualitätssicherung, mehr Übersichtlichkeit über Projektanhänge und in Projekten enthaltene Kommentare und die lange gewünschte Möglichkeit, mehrere Aufgaben auf einmal im Editor öffnen zu können. Es sind definitiv Fortschritte zu verzeichnen, die dann mit Release der Software im Tagesbetrieb überprüft werden müssen.

Einige Hersteller von Redaktionssystemen scheinen sich nach unserer Beobachtung intensiver mit den nun spürbaren Sättigungseffekten in einem doch recht eingegrenzten Marktsegment auseinanderzusetzen. Dies wird erkennbar durch gezielte Zukäufe von Anbietern komplementärer Software, durch Zusammenschlüsse mit Dienstleistungsunternehmen und Beteiligungen von Investoren. Mehrere Anbieter einfacher und kostengünstiger Redaktionslösungen haben in den letzten zwei Jahren den Abstand zu den führenden Anbietern in Bezug auf Funktionalität der Standardkonfiguration verringern können, so dass nun das Heer der chronisch unentschlossenen, potentiellen Kunden ebenfalls etwas abschmilzt. Genauere Informationen hierzu erwarten wir von der für 2019 angekündigten Neuauflage der „Tekom-Studie zu Content-Management-Systemen“. 

Fazit

Nicht immer benötigt die Tekom JT gänzlich neue Themen, um Erkenntnisse zu liefern. Die Botschaft diesmal schien zu sein: Es wird intensiv gearbeitet an und mit Standards (iiRDS, leichtes Abflauen des DITA-Hype); KI-Themen wie maschinelle Übersetzung (MÜ/MT), automatische Texterzeugung (NLG) und Augmented Reality werden (noch) näher an den Markt gebracht.

Wie sehen Sie das?

laura.beverungen[at]neo-comm.ch

victor.linnemann[at]neo-comm.ch

Quelle Bild: www.tekom.de