Verschlagwortung mit maschinellem Lernen

20.12.2018

Machine Learning ist derzeit wieder in aller Munde: IBMs Watson hat die Jeopardy-Champions besiegt und Googles AlphaGo gewann gegen die Weltranglistenersten des asiatischen Spiels Go. Im Bereich Bild- und Videoverarbeitung werden allerhand Objekte zuverlässig erkannt. Kann man das nun auch für Textverarbeitung einsetzen und automatisch Schlagworte generieren?

Verschlagwortung mit Machine Learning bei C.H.Beck

Proof of Concept

Als Proof of Concept haben wir dazu unsere Gerichtsurteile in BeckRS hergenommen. In den Bestandsdaten sind dort alle Dokumente bereits mit Schlagworten versehen. Hierbei bietet sich Überwachtes Lernen an, insbesondere Künstliche Neuronale Netze. Dem sogenannten "Model" werden die Eingabedaten (Rohdokumente) gezeigt und die gewünschten Ausgabedaten (Schlagworte) erwartet. Dabei kam hauptsächlich Tensorflow zum Einsatz, eine einsteigerfreundliche Open Source Bibliothek von Google.

Im Detail gab es auch einiges an Vorverarbeitung: da Neuronale Netze erstmal nur Zahlen verstehen mussten die Texte zunächst mit Techniken des Natural Language Processing erfasst werden. Als Software wurde verwendet u.a. Natural Language Toolkit, fastText und Solr.

Nach einem zeitaufwändigen Lernprozess steht das Model für schnelle Vorhersagen bereit.

Ergebnis

Tests ergeben mit einer Sicherheit von >95% die richtigen Schlagworte. Beispielsweise waren zu einem Dokument die menschlichen vergebenen Schlagworte "Eigentumswohnung" und "Trittschalldämmung", die Vorhersage lieferte:

99% Trittschallschutz
99% Traumeigentumswohnung
97% Trittschalldämmung
96% Mängelbeseitigung
96% Zweck
96% Eigentumswohnung
95% Sache
95% Senat
95% Stelle
95% Recht

 

Allgemeinplätze wie "Recht" werden dann in einem Nachbearbeitungsschritt herausgefiltert.

Fazit

Am Ende hat uns maschinelles Lernen überzeugt. Gerade bei vielen Bestandsdaten liefert überwachtes Lernen zufriedenstellende Ergebnisse, auch wenn ein wenig Aufwand in das Pre- und Postprocessing gesteckt werden muss.

Weitere Meldungen

Socken, Krawatten oder lieber gar nichts schenken?

Jedes Jahr wieder steht man vor der schweren Entscheidung. Was soll man seinen Liebsten schenken? Freut sich der Partner wirklich immer noch über die 15te kreativ gestaltete Krawatte und ist es eine gute Idee, der Partnerin wirklich gar nichts zu schenken, weil man sich doch aus Vernunftgründen gemeinsam dafür entschieden hat, bei dem Weihnachtswahnsinn nicht mitzumachen. Unsere Auszubildenden wollten es genau wissen und haben eine Umfrage in Media.Solutions gestartet, bei der mehr als 80 Kolleginnen und Kollegen teilgenommen haben.

Socken, Krawatten oder lieber ...
Neues und Wichtiges bei MediaSolutions

Für das Jahr 2019 haben wir eine Reihe wichtiger Themen vor uns, mit denen wir uns bei C.H.Beck.Media.Solutions beschäftigen werden. Das Spektrum reicht dabei von der Prozessoptimierung, die wir zusammen mit unseren Kunden durch unser Tool flowproduction vorantreiben werden bis hin zum Einsatz von Künstlicher Intelligenz und maschinellem Lernen. Höhepunkt des Jahres wird ist aber in jedem Fall unsere Fachtagung.

Neues und Wichtiges bei MediaS...
Und wie sind Ihre guten Vorsätze für das Jahr 2019?

Wenn ein neues Jahr beginnt, dann nehmen das viele Leute zum Anlass, sich gute Vorsätze für dieses beginnende Jahr zu geben. Das können ganz kleine Dinge sein, wie öfter mal Danke zu sagen oder mehr zu lächeln. Oder auch ganz große Vorsätze, die das persönliche Leben deutlich verändern, wie zum Beispiel der Klassiker aller Vorsätze „mit dem Rauchen aufhören“. Wir wollten es genauer wissen und haben unsere Kollegen gefragt, was denn ihre Vorsätze für das Jahr 2019 sind. Das Ergebnis ist spannend. Aber noch spannender ist die Antwort auf die zweite Frage, nämlich was von den Vorsätzen für das Jahr 2018 nicht eingehalten wurde.

Und wie sind Ihre guten Vorsät...