Künstliche Intelligenz – Begriffserklärung

01.07.2019

Model, Feature, Neuronale Netze? Im KI-Umfeld fallen häufig Begriffe, welche für selbstverständlich gehalten werden – für Außenstehende jedoch wie „Böhmische Dörfer" klingen. Hier finden Sie einige Begriffserklärungen:

 

Feature

Beschreibende Eigenschaften der Eingabedaten. Dies können die Pixelwerte eines Bildes sein, die Anzahl der Ausrufezeichen in einem Text oder die Verkaufszahlen der letzten Monate. Einfache Projekte haben wenige Features, während anspruchsvolle aus Millionen Features bestehen.

 

Label

Hierbei handelt es sich um die Ausgabedaten, welche vorhergesagt werden sollen, beispielsweise eine Ziffer bei Texterkennung oder die Verkaufszahlen des nächsten Quartals.

 

Model

Ein Model beschreibt den Zusammenhang zwischen Features und Labels. Man unterscheidet grob zwei Ansätze:

  • Überwachtes Lernen (supervised learning) trainiert ein Model zunächst mit Bestandsdaten, danach kann es zu bisher unbekannten Eingabedaten Vorhersagen liefern.
  • Unüberwachtes Lernen (unsupervised learning) gruppiert die Daten in Kategorien, beispielsweise Kunden anhand diverser Eigenschaften aufteilen.

 

Künstliches Neuronales Netz (artificial neural network)

Dies ist ein Model, welches vom biologischen Vorbild inspiriert ist. Auf der linken Seite ist die Eingabeschicht, hier kommen die Features rein. Dazwischen kann es beliebig viele versteckte Schichten geben: Jedes einzelne Neuron gewichtet die Werte der vorigen Schicht unterschiedlich und kombiniert diese. In der Ausgabeschicht befinden sich schließlich die Label. Die häufig mehr als 100.000 Gewichte werden nicht vom Menschen eingestellt, sondern durch einen iterativen Prozess „gelernt", in dem man dem Model immer wieder die Bestandsdaten zeigt und es durch mathematische Verfahren seine Gewichte so anpasst, dass die Features die richtigen Label erzeugen.

 

Trainings- und Test-Set

Lernt das Model auf alle Bestandsdaten, wird es diese irgendwann sehr gut kennen, ist dann aber möglicherweise nicht für unbekannte Daten geeignet. Aus diesem Grund teilt man seine Bestandsdaten zu 80/20 in ein Trainings- und ein Test-Set auf. Gelernt wird nur auf dem Trainings-Set, bis dieses vom Model beherrscht wird. Kontrolliert wird mit dem Test-Set, da diese Daten bisher nicht für das Model sichtbar waren.

 

Overfitting

Man könnte meinen, einem Model müssen nur genug Freiheitsgrade (z.B. Knoten im Neuronalen Netzwerk) gegeben werden und es kann alles lernen. Leider lernt es aber nur die Trainingsdaten auswendig und kann nichts mit unbekannten Daten anfangen.

Weitere Meldungen

Neues und Wichtiges bei MediaSolutions

Für das Jahr 2019 haben wir eine Reihe wichtiger Themen vor uns, mit denen wir uns bei C.H.Beck.Media.Solutions beschäftigen werden. Das Spektrum reicht dabei von der Prozessoptimierung, die wir zusammen mit unseren Kunden durch unser Tool flowproduction vorantreiben werden, bis hin zum Einsatz von Künstlicher Intelligenz und maschinellem Lernen.

Neues und Wichtiges bei MediaS...