Verschlagwortung mit maschinellem Lernen

20.12.2018

Machine Learning ist derzeit wieder in aller Munde: IBMs Watson hat die Jeopardy-Champions besiegt und Googles AlphaGo gewann gegen die Weltranglistenersten des asiatischen Spiels Go. Im Bereich Bild- und Videoverarbeitung werden allerhand Objekte zuverlässig erkannt. Kann man das nun auch für Textverarbeitung einsetzen und automatisch Schlagworte generieren?

Verschlagwortung mit Machine Learning bei C.H.Beck

Proof of Concept

Als Proof of Concept haben wir dazu unsere Gerichtsurteile in BeckRS hergenommen. In den Bestandsdaten sind dort alle Dokumente bereits mit Schlagworten versehen. Hierbei bietet sich Überwachtes Lernen an, insbesondere Künstliche Neuronale Netze. Dem sogenannten "Model" werden die Eingabedaten (Rohdokumente) gezeigt und die gewünschten Ausgabedaten (Schlagworte) erwartet. Dabei kam hauptsächlich Tensorflow zum Einsatz, eine einsteigerfreundliche Open Source Bibliothek von Google.

Im Detail gab es auch einiges an Vorverarbeitung: da Neuronale Netze erstmal nur Zahlen verstehen mussten die Texte zunächst mit Techniken des Natural Language Processing erfasst werden. Als Software wurde verwendet u.a. Natural Language Toolkit, fastText und Solr.

Nach einem zeitaufwändigen Lernprozess steht das Model für schnelle Vorhersagen bereit.

Ergebnis

Tests ergeben mit einer Sicherheit von >95% die richtigen Schlagworte. Beispielsweise waren zu einem Dokument die menschlichen vergebenen Schlagworte "Eigentumswohnung" und "Trittschalldämmung", die Vorhersage lieferte:

99% Trittschallschutz
99% Traumeigentumswohnung
97% Trittschalldämmung
96% Mängelbeseitigung
96% Zweck
96% Eigentumswohnung
95% Sache
95% Senat
95% Stelle
95% Recht

 

Allgemeinplätze wie "Recht" werden dann in einem Nachbearbeitungsschritt herausgefiltert.

Fazit

Am Ende hat uns maschinelles Lernen überzeugt. Gerade bei vielen Bestandsdaten liefert überwachtes Lernen zufriedenstellende Ergebnisse, auch wenn ein wenig Aufwand in das Pre- und Postprocessing gesteckt werden muss.

Weitere Meldungen

Tag der Berufe

Eine kleine Berufsmesse wurde kürzlich an der Realschule Maria Stern in Nördlingen veranstaltet. Circa 20 Firmen bauten Informationsstände in der schuleigenen Turnhalle auf, an denen die Schüler der 8. und 9. Jahrgangsstufe direkt in Kontakt mit regionalen Firmen und Arbeitgebern treten und Fragen zu Ausbildung und Beruf stellen konnten.

Tag der Berufe
Das Geheimnis der perfekten Loseblatt-Produktion

Loseblatt ist eine sehr traditionelle Produktionsart, der schon oft das Ende prophezeit wurde. Doch das Produkt Loseblatt ist aus unserer Sicht lebendiger denn je. Für uns verzeichnet es sogar ein Wachstum. Das mag daran liegen, dass wir ein sehr großes Leistungsspektrum im Bereich Loseblatt haben. Immer mehr Kunden vertrauen darauf.

Das Geheimnis der perfekten Lo...