Deep Learning (auch als Deep Structured Learning oder hierarchisches Lernen bezeichnet) gehört zu einer breiteren Familie von Methoden des maschinellen Lernens, die auf künstlichen neuronalen Netzen basieren. Das Lernen kann überwacht, semi-überwacht oder unbeaufsichtigt sein.
Deep Learning-Architekturen wie Deep Neural Networks, Deep Believe Networks, Recurrent Neural Networks und Convolutional Neural Networks wurden in Bereichen wie Computer Vision, Spracherkennung, Verarbeitung natürlicher Sprache, Audioerkennung, Filterung sozialer Netzwerke, maschinelle Übersetzung, Bioinformatik und Arzneimitteldesign eingesetzt medizinische Bildanalyse-, Materialinspektions- und Brettspielprogramme, bei denen Ergebnisse erzielt wurden, die mit menschlichen Experten vergleichbar und in einigen Fällen diesen überlegen sind.
Künstliche Neuronale Netze (ANNs) wurden durch Informationsverarbeitung und verteilte Kommunikationsknoten in biologischen Systemen inspiriert. ANNs haben verschiedene Unterschiede zu biologischen Gehirnen. Insbesondere neigen neuronale Netze dazu, statisch und symbolisch zu sein, während das biologische Gehirn der meisten lebenden Organismen dynamisch (plastisch) und analog ist.
Deep Learning ist eine Klasse von Algorithmen für maschinelles Lernen, bei denen (pp199 – 200) mehrere Ebenen verwendet werden, um schrittweise übergeordnete Features aus der Rohdateneingabe zu extrahieren. Beispielsweise können bei der Bildverarbeitung niedrigere Ebenen Kanten identifizieren, während höhere Ebenen die für einen Menschen relevanten Konzepte wie Ziffern, Buchstaben oder Gesichter identifizieren können.
Die meisten modernen Deep-Learning-Modelle basieren auf künstlichen neuronalen Netzen, insbesondere auf Convolutional Neural Networks (CNN). Sie können jedoch auch Aussagenformeln oder latente Variablen enthalten, die in tiefen generativen Modellen wie den Knotenpunkten in Deep-Belief-Netzen und Deep schichtweise organisiert sind Boltzmann-Maschinen.
Beim vertieften Lernen lernt jede Ebene, ihre Eingabedaten in eine etwas abstraktere und zusammengesetzte Darstellung umzuwandeln. In einer Bilderkennungsanwendung kann die Roheingabe eine Matrix von Pixeln sein; die erste Darstellungsschicht kann die Pixel abstrahieren und Kanten codieren; die zweite Schicht kann Anordnungen von Kanten zusammensetzen und codieren; die dritte Schicht kann eine Nase und Augen kodieren; und die vierte Schicht kann erkennen, dass das Bild ein Gesicht enthält. Wichtig ist, dass ein intensiver Lernprozess selbst lernen kann, welche Funktionen auf welcher Ebene optimal platziert werden müssen. (Dies beseitigt natürlich nicht vollständig die Notwendigkeit der Handabstimmung; z. B. können unterschiedliche Anzahlen von Schichten und Schichtengrößen unterschiedliche Abstraktionsgrade ergeben.)
Das Wort "tief" in "tiefes Lernen" bezieht sich auf die Anzahl der Schichten, durch die die Daten transformiert werden. Genauer gesagt, Deep-Learning-Systeme weisen eine erhebliche Tiefe des Credit-Assignment-Path (CAP) auf. Die GAP ist die Kette von Transformationen von Eingabe zu Ausgabe. CAPs beschreiben potenziell kausale Zusammenhänge zwischen Input und Output. Bei einem vorwärtsgerichteten neuronalen Netzwerk entspricht die Tiefe der CAPs der des Netzwerks und ist die Anzahl der ausgeblendeten Schichten plus eins (da auch die Ausgangsschicht parametrisiert ist). Für wiederkehrende neuronale Netze, in denen sich ein Signal mehr als einmal durch eine Schicht ausbreiten kann, ist die CAP-Tiefe möglicherweise unbegrenzt. Kein allgemein vereinbarter Schwellenwert für Tiefe trennt flaches Lernen von tiefem Lernen, aber die meisten Forscher stimmen darin überein, dass tiefes Lernen eine höhere GAP-Tiefe als 2 beinhaltet. CAP der Tiefe 2 hat sich in dem Sinne als universeller Approximator erwiesen, dass es jede Funktion emulieren kann. Darüber hinaus tragen mehr Schichten nicht zur Funktionsannäherungsfähigkeit des Netzwerks bei. Tiefe Modelle (CAP> 2) können bessere Merkmale als flache Modelle extrahieren. Daher helfen zusätzliche Ebenen beim effektiven Erlernen der Merkmale.
Deep-Learning-Architekturen können mit einer gierigen Schicht-für-Schicht-Methode erstellt werden. Deep Learning hilft dabei, diese Abstraktionen zu entwirren und herauszufinden, welche Funktionen die Leistung verbessern.
Bei beaufsichtigten Lernaufgaben eliminieren Deep-Learning-Methoden das Feature-Engineering, indem sie die Daten in kompakte Zwischendarstellungen übersetzen, die den Hauptkomponenten ähneln, und Schichtstrukturen ableiten, die Redundanz in der Darstellung beseitigen.
Deep-Learning-Algorithmen können auf unbeaufsichtigte Lernaufgaben angewendet werden. Dies ist ein wichtiger Vorteil, da unbeschriftete Daten häufiger vorkommen als die beschrifteten Daten. Beispiele für tiefe Strukturen, die unbeaufsichtigt trainiert werden können, sind neuronale Geschichtskompressoren und tiefe Glaubensnetzwerke.
Tiefe neuronale Netze werden im Allgemeinen im Sinne des universellen Approximationssatzes oder der probabilistischen Folgerung interpretiert.
Der klassische universelle Approximationssatz befasst sich mit der Kapazität von vorwärtsgerichteten neuronalen Netzen mit einer einzelnen verborgenen Schicht endlicher Größe zur Approximation kontinuierlicher Funktionen. In 1989 wurde von George Cybenko der erste Beweis für Sigmoid-Aktivierungsfunktionen veröffentlicht und von Kurt Hornik verallgemeinert, um Mehrschichtarchitekturen in 1991 voranzutreiben. Neuere Arbeiten haben auch gezeigt, dass die universelle Approximation auch für nicht begrenzte Aktivierungsfunktionen wie die gleichgerichtete Lineareinheit gilt.
Der universelle Näherungssatz für tiefe neuronale Netze betrifft die Kapazität von Netzen mit begrenzter Breite, aber die Tiefe darf wachsen. Lu et al. bewiesen, dass wenn die Breite eines tiefen neuronalen Netzwerks mit ReLU-Aktivierung streng größer ist als die Eingabedimension, das Netzwerk sich jeder integrierbaren Lebesgue-Funktion annähern kann; Wenn die Breite kleiner oder gleich der Eingabedimension ist, ist das tiefe neuronale Netzwerk kein universeller Approximator.
Die probabilistische Interpretation stammt aus dem Bereich des maschinellen Lernens. Es enthält Schlussfolgerungen sowie die Optimierungskonzepte für Schulungen und Tests in Bezug auf Anpassung bzw. Verallgemeinerung. Insbesondere betrachtet die probabilistische Interpretation die Aktivierungs-Nichtlinearität als eine kumulative Verteilungsfunktion. Die probabilistische Interpretation führte zur Einführung von Aussetzern als Regularisierer in neuronalen Netzen. Die probabilistische Interpretation wurde von Forschern wie Hopfield, Widrow und Narendra eingeführt und in Umfragen wie der von Bishop populär gemacht.
Zurück nach oben