Verschlagwortung mit maschinellem Lernen

20.12.2018

Machine Learning ist derzeit wieder in aller Munde: IBMs Watson hat die Jeopardy-Champions besiegt und Googles AlphaGo gewann gegen die Weltranglistenersten des asiatischen Spiels Go. Im Bereich Bild- und Videoverarbeitung werden allerhand Objekte zuverlässig erkannt. Kann man das nun auch für Textverarbeitung einsetzen und automatisch Schlagworte generieren?

Verschlagwortung mit Machine Learning bei C.H.Beck

Proof of Concept

Als Proof of Concept haben wir dazu unsere Gerichtsurteile in BeckRS hergenommen. In den Bestandsdaten sind dort alle Dokumente bereits mit Schlagworten versehen. Hierbei bietet sich Überwachtes Lernen an, insbesondere Künstliche Neuronale Netze. Dem sogenannten "Model" werden die Eingabedaten (Rohdokumente) gezeigt und die gewünschten Ausgabedaten (Schlagworte) erwartet. Dabei kam hauptsächlich Tensorflow zum Einsatz, eine einsteigerfreundliche Open Source Bibliothek von Google.

Im Detail gab es auch einiges an Vorverarbeitung: da Neuronale Netze erstmal nur Zahlen verstehen mussten die Texte zunächst mit Techniken des Natural Language Processing erfasst werden. Als Software wurde verwendet u.a. Natural Language Toolkit, fastText und Solr.

Nach einem zeitaufwändigen Lernprozess steht das Model für schnelle Vorhersagen bereit.

Ergebnis

Tests ergeben mit einer Sicherheit von >95% die richtigen Schlagworte. Beispielsweise waren zu einem Dokument die menschlichen vergebenen Schlagworte "Eigentumswohnung" und "Trittschalldämmung", die Vorhersage lieferte:

99% Trittschallschutz
99% Traumeigentumswohnung
97% Trittschalldämmung
96% Mängelbeseitigung
96% Zweck
96% Eigentumswohnung
95% Sache
95% Senat
95% Stelle
95% Recht

 

Allgemeinplätze wie "Recht" werden dann in einem Nachbearbeitungsschritt herausgefiltert.

Fazit

Am Ende hat uns maschinelles Lernen überzeugt. Gerade bei vielen Bestandsdaten liefert überwachtes Lernen zufriedenstellende Ergebnisse, auch wenn ein wenig Aufwand in das Pre- und Postprocessing gesteckt werden muss.

Weitere Meldungen

FTEP 2019 – von künstlicher Intelligenz in der Verlagswelt bis zur Praxis

Für unsere diesjährige Fachtagung am 19. September 2019 haben wir wieder interessante Themen für Sie zusammengestellt. Nach dem bewährten Konzept verteilen sich die Vorträge auf zwei Sparten. Diesmal steht das Thema künstliche Intelligenz im Mittelpunkt. Daneben bieten wir Erfahrungsberichte aus der Praxis des Publizierens und strategische Beiträge. Kompetente Referenten beleuchten unterschiedlichste Facetten dieser übergeordneten Themengebiete. Holen Sie sich aus den Vorträgen wertvolle Anregungen für Ihre tägliche Arbeit.

FTEP 2019 – von künstlicher In...