Maschinelles Lernen (ML) ist die wissenschaftliche Untersuchung von Algorithmen und statistischen Modellen, mit denen Computersysteme eine bestimmte Aufgabe ausführen, ohne explizite Anweisungen zu verwenden. Stattdessen stützen sie sich auf Muster und Schlussfolgerungen. Es wird als Teilmenge der künstlichen Intelligenz angesehen. Algorithmen für maschinelles Lernen erstellen ein mathematisches Modell auf der Grundlage von Beispieldaten, die als "Trainingsdaten" bezeichnet werden, um Vorhersagen oder Entscheidungen zu treffen, ohne explizit für die Ausführung der Aufgabe programmiert zu sein. 2 Algorithmen für maschinelles Lernen werden in einer Vielzahl von Anwendungen verwendet, z B. E-Mail-Filterung und Computer Vision, bei denen es schwierig oder unmöglich ist, einen herkömmlichen Algorithmus zur effektiven Ausführung der Aufgabe zu entwickeln.
Das maschinelle Lernen ist eng mit der rechnergestützten Statistik verknüpft, bei der Vorhersagen mithilfe von Computern erstellt werden. Das Studium der mathematischen Optimierung liefert Methoden, Theorie und Anwendungsbereiche für das maschinelle Lernen. Data Mining ist ein Studienbereich des maschinellen Lernens und konzentriert sich auf die explorative Datenanalyse durch unbeaufsichtigtes Lernen. Maschinelles Lernen wird in seiner Anwendung für alle geschäftlichen Probleme auch als Predictive Analytics bezeichnet.
Der Name Maschinelles Lernen wurde in 1959 von Arthur Samuel geprägt. Tom M. Mitchell gab eine allgemein zitierte, formellere Definition der im Bereich des maschinellen Lernens untersuchten Algorithmen: "Ein Computerprogramm soll aus der Erfahrung E in Bezug auf eine Aufgabenklasse T und das Leistungsmaß P lernen, wenn es bei Aufgaben ausgeführt wird in T, gemessen durch P, verbessert sich mit der Erfahrung E. Diese Definition der Aufgaben, bei denen es um maschinelles Lernen geht, bietet eine grundlegend operative Definition, anstatt das Feld in kognitiven Begriffen zu definieren. Dies folgt Alan Turings Vorschlag in seiner Arbeit "Computing Machinery and Intelligence", in der die Frage "Können Maschinen denken?" wird durch die Frage "Können Maschinen das tun, was wir (als denkende Einheiten) können?" ersetzt. In Turings Vorschlag werden die verschiedenen Merkmale, die eine Denkmaschine besitzen könnte, und die verschiedenen Implikationen bei der Konstruktion einer solchen Maschine aufgedeckt.
Maschinelles Lernen wird in verschiedene Kategorien eingeteilt. Beim überwachten Lernen erstellt der Algorithmus ein mathematisches Modell aus einem Datensatz, der sowohl die Eingaben als auch die gewünschten Ausgaben enthält. Wenn die Aufgabe beispielsweise bestimmen würde, ob ein Bild ein bestimmtes Objekt enthält, würden die Trainingsdaten für einen überwachten Lernalgorithmus Bilder mit und ohne dieses Objekt (die Eingabe) enthalten, und jedes Bild würde eine Bezeichnung (die Ausgabe) haben, die angibt, ob es enthielt das Objekt. In besonderen Fällen ist der Eingang möglicherweise nur teilweise verfügbar oder auf spezielle Rückmeldungen beschränkt. Teilüberwachte Lernalgorithmen entwickeln mathematische Modelle aus unvollständigen Trainingsdaten, bei denen ein Teil der Probeneingabe keine Beschriftungen aufweist.
Klassifizierungsalgorithmen und Regressionsalgorithmen sind Arten von überwachtem Lernen. Klassifizierungsalgorithmen werden verwendet, wenn die Ausgaben auf einen begrenzten Satz von Werten beschränkt sind. Bei einem Klassifizierungsalgorithmus, der E-Mails filtert, ist die Eingabe eine eingehende E-Mail und die Ausgabe der Name des Ordners, in dem die E-Mail abgelegt werden soll. Für einen Algorithmus, der Spam-E-Mails identifiziert, wäre die Ausgabe die Vorhersage von entweder "Spam" oder "kein Spam", dargestellt durch die booleschen Werte true und false. Regressionsalgorithmen werden nach ihren kontinuierlichen Ausgaben benannt, was bedeutet, dass sie einen beliebigen Wert innerhalb eines Bereichs haben können. Beispiele für einen kontinuierlichen Wert sind die Temperatur, Länge oder der Preis eines Objekts.
Beim unbeaufsichtigten Lernen erstellt der Algorithmus ein mathematisches Modell aus einem Datensatz, der nur Eingaben und keine gewünschten Ausgabebezeichnungen enthält. Unbeaufsichtigte Lernalgorithmen werden verwendet, um die Struktur in den Daten zu finden, wie z. B. Gruppieren oder Gruppieren von Datenpunkten. Unbeaufsichtigtes Lernen kann Muster in den Daten erkennen und die Eingaben wie beim Feature-Lernen in Kategorien gruppieren. Die Dimensionsreduktion ist der Prozess der Reduzierung der Anzahl von "Merkmalen" oder Eingaben in einem Datensatz.
Aktive Lernalgorithmen greifen auf die gewünschten Ausgaben (Trainingsetiketten) für einen begrenzten Satz von Eingaben zu, basierend auf einem Budget, und optimieren die Auswahl von Eingaben, für die Trainingsetiketten erworben werden. Bei interaktiver Verwendung können diese einem menschlichen Benutzer zur Kennzeichnung vorgelegt werden. Verstärkungslernalgorithmen erhalten Feedback in Form einer positiven oder negativen Verstärkung in einer dynamischen Umgebung und werden in autonomen Fahrzeugen oder beim Lernen, ein Spiel gegen einen menschlichen Gegner zu spielen, verwendet Das Computerprogramm erhält eine Reihe von Dokumenten in natürlicher Sprache und findet andere Dokumente, die ähnliche Themen behandeln. Algorithmen für maschinelles Lernen können verwendet werden, um die nicht beobachtbare Wahrscheinlichkeitsdichtefunktion bei Dichteschätzungsproblemen zu finden. Meta-Lernalgorithmen lernen ihre eigene induktive Vorspannung basierend auf früheren Erfahrungen. In der Entwicklungsrobotik generieren Roboter-Lernalgorithmen ihre eigenen Sequenzen von Lernerfahrungen, die auch als Lehrplan bezeichnet werden, um durch selbstgesteuerte Erforschung und soziale Interaktion mit Menschen kumulativ neue Fähigkeiten zu erwerben. Diese Roboter nutzen Leitmechanismen wie aktives Lernen, Reifung, motorische Synergien und Nachahmung.
Arthur Samuel, ein amerikanischer Pionier im Bereich Computerspiele und künstliche Intelligenz, prägte bei IBM den Begriff "Maschinelles Lernen" in 1959. Ein repräsentatives Buch der maschinellen Lernforschung während 1960s war das Nilsson-Buch über lernende Maschinen, das sich hauptsächlich mit maschinellem Lernen zur Klassifizierung von Mustern befasste. Das Interesse des maschinellen Lernens im Zusammenhang mit der Mustererkennung setzte sich während der 1970 fort, wie im Buch von Duda und Hart in 1973 beschrieben. In 1981 wurde ein Bericht über die Verwendung von Lehrstrategien erstellt, damit ein neuronales Netzwerk die Erkennung von 40-Zeichen (26-Buchstaben, 10-Ziffern und 4-Sonderzeichen) von einem Computerterminal aus lernt. Als wissenschaftliches Unterfangen ist maschinelles Lernen aus der Suche nach künstlicher Intelligenz hervorgegangen. Schon in den Anfängen der KI als akademische Disziplin waren einige Forscher daran interessiert, Maschinen aus Daten lernen zu lassen. Sie versuchten, das Problem mit verschiedenen symbolischen Methoden und sogenannten "neuronalen Netzen" anzugehen. Dies waren hauptsächlich Perzeptrone und andere Modelle, die sich später als Neuerfindungen der verallgemeinerten linearen Modelle der Statistik herausstellten. Probabilistisches Denken wurde auch angewendet, insbesondere in der automatisierten medizinischen Diagnose: 488
Eine zunehmende Betonung des logischen, wissensbasierten Ansatzes verursachte jedoch eine Kluft zwischen KI und maschinellem Lernen. Probabilistische Systeme wurden von theoretischen und praktischen Problemen der Datenerfassung und -repräsentation geplagt. 488 Bei 1980 dominierten Expertensysteme die KI, und die Statistik war in Ungnade gefallen. Die Arbeit am symbolischen / wissensbasierten Lernen wurde in der KI fortgesetzt, was zu einer induktiven Logikprogrammierung führte. Die statistischere Forschungslinie befand sich jedoch außerhalb des eigentlichen KI-Bereichs für die Mustererkennung und das Abrufen von Informationen: 708–710; Die Forschung an 755-Neuronalen Netzen wurde etwa zur gleichen Zeit von der KI und der Informatik eingestellt. Auch diese Linie wurde von Forschern aus anderen Disziplinen wie Hopfield, Rumelhart und Hinton außerhalb des AI / CS-Bereichs als "Connectionism" fortgeführt. Ihr Haupterfolg war Mitte der 1980 mit der Neuerfindung der Backpropagation: 25
Maschinelles Lernen, das als separates Feld neu organisiert wurde, begann in den 1990s zu florieren. Das Feld änderte sein Ziel von künstlicher Intelligenz zu lösbaren praktischen Problemen. Es verlagerte den Fokus weg von den symbolischen Ansätzen, die es von der KI geerbt hatte, hin zu Methoden und Modellen, die aus der Statistik und der Wahrscheinlichkeitstheorie entlehnt waren. Es profitierte auch von der zunehmenden Verfügbarkeit digitalisierter Informationen und der Möglichkeit, diese über das Internet zu verbreiten.
Maschinelles Lernen und Data Mining verwenden häufig die gleichen Methoden und überlappen sich erheblich. Während sich das maschinelle Lernen auf die Vorhersage konzentriert, die auf bekannten Eigenschaften basiert, die aus den Trainingsdaten gelernt wurden, konzentriert sich Data Mining auf die Entdeckung (zuvor) unbekannter Eigenschaften in den Daten (dies ist) den Analyseschritt der Wissensentdeckung in Datenbanken). Data Mining verwendet viele Methoden des maschinellen Lernens, jedoch mit unterschiedlichen Zielen. Andererseits werden beim maschinellen Lernen auch Data-Mining-Methoden als "unbeaufsichtigtes Lernen" oder als Vorverarbeitungsschritt zur Verbesserung der Lerngenauigkeit eingesetzt. Ein Großteil der Verwirrung zwischen diesen beiden Forschungsgemeinschaften (die häufig separate Konferenzen und separate Zeitschriften haben, wobei die ECML-PKDD eine wichtige Ausnahme darstellt) beruht auf den Grundannahmen, mit denen sie arbeiten: Beim maschinellen Lernen wird die Leistung in der Regel im Hinblick auf die Fähigkeit zu bewertet bekanntes Wissen reproduzieren, während bei Knowledge Discovery und Data Mining (KDD) die Schlüsselaufgabe die Entdeckung von bisher unbekanntem Wissen ist. Unter Berücksichtigung des bekannten Wissens wird eine nicht informierte (nicht überwachte) Methode leicht von anderen überwachten Methoden übertroffen, während bei einer typischen KDD-Aufgabe überwachte Methoden aufgrund der Nichtverfügbarkeit von Trainingsdaten nicht verwendet werden können.
Maschinelles Lernen ist auch eng mit der Optimierung verbunden: Viele Lernprobleme werden als Minimierung einiger Verlustfunktionen in einer Reihe von Beispielen formuliert. Verlustfunktionen drücken die Diskrepanz zwischen den Vorhersagen des zu trainierenden Modells und den tatsächlichen Probleminstanzen aus (beispielsweise möchte man Instanzen bei der Klassifizierung eine Bezeichnung zuweisen, und Modelle werden so trainiert, dass sie die vorab zugewiesenen Bezeichnungen einer Gruppe von korrekt vorhersagen Beispiele). Der Unterschied zwischen den beiden Feldern ergibt sich aus dem Ziel der Verallgemeinerung: Während Optimierungsalgorithmen den Verlust eines Trainingssatzes minimieren können, geht es beim maschinellen Lernen darum, den Verlust an unsichtbaren Proben zu minimieren.
Maschinelles Lernen und Statistik sind in methodischer Hinsicht eng miteinander verwandte Bereiche, unterscheiden sich jedoch in ihrem Hauptziel: Die Statistik zieht Populationsschlussfolgerungen aus einer Stichprobe, während maschinelles Lernen verallgemeinerbare Vorhersagemuster findet. Laut Michael I. Jordan haben die Ideen des maschinellen Lernens, von methodischen Prinzipien bis hin zu theoretischen Werkzeugen, eine lange Vorgeschichte in der Statistik. Er schlug auch den Begriff Data Science als Platzhalter vor, um das gesamte Feld zu bezeichnen.
Leo Breiman unterschied zwei statistische Modellierungsparadigmen: das Datenmodell und das algorithmische Modell, wobei "algorithmisches Modell" mehr oder weniger die Algorithmen für maschinelles Lernen wie Random Forest bedeutet.
Einige Statistiker haben Methoden des maschinellen Lernens übernommen, die zu einem kombinierten Bereich führen, den sie statistisches Lernen nennen.
Ein Kernziel eines Lernenden ist es, seine Erfahrungen zu verallgemeinern. Verallgemeinerung in diesem Zusammenhang ist die Fähigkeit einer Lernmaschine, neue, unsichtbare Beispiele / Aufgaben genau zu bearbeiten, nachdem sie einen Lerndatensatz erlebt hat. Die Trainingsbeispiele stammen aus einer allgemein unbekannten Wahrscheinlichkeitsverteilung (die als repräsentativ für den Raum des Auftretens angesehen wird), und der Lernende muss ein allgemeines Modell für diesen Raum erstellen, das es ihm ermöglicht, in neuen Fällen ausreichend genaue Vorhersagen zu treffen.
Die rechnergestützte Analyse von Algorithmen für maschinelles Lernen und deren Leistung ist ein Zweig der theoretischen Informatik, der als rechnergestützte Lerntheorie bekannt ist. Da die Trainingssätze endlich sind und die Zukunft ungewiss ist, gibt die Lerntheorie in der Regel keine Garantie für die Leistung von Algorithmen. Stattdessen sind wahrscheinlichkeitstheoretische Leistungsgrenzen weit verbreitet. Die Bias-Varianz-Zerlegung ist eine Möglichkeit, den Generalisierungsfehler zu quantifizieren.
Für die beste Leistung im Kontext der Verallgemeinerung sollte die Komplexität der Hypothese mit der Komplexität der den Daten zugrunde liegenden Funktion übereinstimmen. Wenn die Hypothese weniger komplex als die Funktion ist, hat das Modell die Daten unterschritten. Wenn die Komplexität des Modells als Reaktion erhöht wird, verringert sich der Trainingsfehler. Wenn die Hypothese jedoch zu komplex ist, unterliegt das Modell einer Überanpassung, und die Verallgemeinerung wird schlechter.
Zusätzlich zu den Leistungsgrenzen untersuchen Lerntheoretiker die zeitliche Komplexität und Durchführbarkeit des Lernens. In der rechnergestützten Lerntheorie wird eine Berechnung als durchführbar angesehen, wenn sie in polynomieller Zeit durchgeführt werden kann. Es gibt zwei Arten von Zeitkomplexitätsergebnissen. Positive Ergebnisse zeigen, dass eine bestimmte Klasse von Funktionen in Polynomzeit gelernt werden kann. Negative Ergebnisse zeigen, dass bestimmte Klassen in der Polynomzeit nicht gelernt werden können.
Zurück nach oben