Deutsch

Leitfaden für Server-Cluster

Veröffentlicht am 06. Okt 2022 by
2.6k

FS Rack Server

Ein Server ist ein Computer, der dazu dient, Anfragen zu verarbeiten und Daten über das Internet oder ein lokales Netz an einen anderen Computer zu liefern. Mit dem Wort „Server“ ist in der Regel ein Webserver gemeint, auf dem Webseiten über das Internet durch einen Client wie einen Webbrowser abgerufen werden können. Es gibt jedoch verschiedene Arten von Servern, einschließlich lokaler Server, z. B. Dateiserver, die Daten in einem Intranet-Netzwerk speichern.

Obwohl jeder Computer mit der erforderlichen Software als Server fungieren kann, bezieht sich die typische Verwendung des Wortes auf die riesigen, leistungsstarken Geräte, die als Schaltzentrale fungieren und die Daten aus dem Internet anfordern und übertragen.

Definition und Funktion von Clustern

Der Begriff „Cluster“ wird in Computernetzwerken häufig verwendet, um eine Implementierung von gemeinsam genutzten Computerressourcen zu bezeichnen. In der Regel werden in einem Cluster die Ressourcen von zwei oder mehr Rechnern zusammengefasst, die ansonsten getrennt für einen gemeinsamen Zweck betrieben werden könnten. Dabei handelt es sich häufig um eine eine Workstation oder einen Server. Eine Webserverfarm ist eine Sammlung von Netzwerkservern im Internet, die alle auf Inhalte derselben Website zugreifen. Konzeptionell funktionieren sie wie ein Cluster. Allerdings streiten sich Puristen über die technische Klassifizierung einer Serverfarm als Cluster, je nach den Details ihrer Hardware- und Softwarekonfiguration. Der Cluster kann einzelne Knoten oder Anwendungsserver enthalten. Ein Knoten ist in der Regel ein physisches System mit einer bestimmten Host-IP-Adresse, auf dem ein oder mehrere Anwendungsserver laufen.

Kurz gesagt ist ein Cluster eine Gruppe von mehreren Computern, die über ein Hochgeschwindigkeitsnetz miteinander verbunden sind, so dass das Ganze als ein einziger Computer angesehen wird, der leistungsfähiger ist als ein gewöhnlicher Computer. Clustersysteme haben sich seit ihrem ersten Auftauchen stark weiterentwickelt, so dass heute je nach Bedarf verschiedene Arten von Clustern erstellt werden können:

  • Hardware-Cluster

  • Software-Cluster

  • Leistungsstarke Datenbank-Cluster

Damit ein Clustersystem funktioniert, ist es nicht erforderlich, dass alle Maschinen die gleiche Hardware und das gleiche Betriebssystem haben (heterogener Cluster). Diese Art von System muss über eine Schnittstelle für die Verwaltung des Clusters verfügen, die für die Interaktion mit dem Benutzer und den Prozessen zuständig ist und die Last auf die verschiedenen Maschinen der Gruppe verteilt.

ServerCluster

Einführung in Cluster-Typen

Das Clustering selbst kann in zwei Typen unterteilt werden: Hard Clustering und Soft Clustering. Beim Hard Clustering kann ein Datenpunkt nur zu einem Cluster gehören. Beim Soft Clustering wird hingegen die Wahrscheinlichkeit angegeben, mit der ein Datenpunkt zu jedem der vordefinierten Anzahl von Clustern gehört.

Density Based Clustering

Bei dieser Methode werden die Cluster auf der Grundlage der Nähe der im Datenraum dargestellten Datenpunkte erstellt. Die Regionen mit einer großen Anzahl von Datenpunkten, die sich in diesem Bereich befinden, werden als Cluster betrachtet.

Die Datenpunkte in einem wenig besetzten Bereich, also die Region, in der es sehr wenige Datenpunkte gibt, werden als Rauschen oder Ausreißer betrachtet. Die mit diesen Methoden erstellten Cluster können eine beliebige Form haben. Nachfolgend finden Sie einige Beispiele dazu.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN gruppiert Datenpunkte auf der Grundlage der Abstandsmetrik und des Kriteriums für eine Mindestanzahl von Datenpunkten. Es benötigt die zwei Parameter EPS (lokaler Radius) und Mindestpunkte. EPS gibt an, wie nahe die Datenpunkte beieinander liegen müssen, um als Nachbarn zu gelten. Das Kriterium für die Mindestpunktzahl sollte erfüllt sein, damit der Bereich als dichte Struktur gilt.

OPTICS (Ordnungspunkte zur Identifizierung der Clustering-Struktur)

Das Verfahren ähnelt dem von DBSCAN, behebt aber einen der Nachteile des erstgenannten Algorithmus, nämlich die Unfähigkeit zur Bildung von Clustern aus Daten mit beliebiger Dichte. Es berücksichtigt zwei weitere Parameter, nämlich die Kerndistanz und die Verfügbarkeitsdistanz. Die Kerndistanz gibt an, ob es sich bei dem betrachteten Datenpunkt um einen wesentlichen Datenpunkt oder einen untergeordneten handelt, indem sie einen Mindestwert für ihn festlegt.

Die Verfügbarkeitsdistanz ist das Maximum aus der Kerndistanz und dem Wert der Distanzmetrik, die für die Berechnung der Distanz zwischen zwei Datenpunkten verwendet wird. Eine Sache, die bei der Verfügbarkeitsdistanz zu beachten ist, ist, dass ihr Wert nicht definiert bleibt, wenn einer der Datenpunkte ein Kernpunkt ist.

HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)

HDBSCAN ist eine nähebasierte Clustering-Methode, die die DBSCAN-Methode erweitert, indem sie in einen hierarchischen Clustering-Algorithmus umgewandelt wird.

Hierarchisches Clustering

Hierarchisches Clustering, auch agglomerativ oder Bottom-Up-Ansatz genannt, gruppiert oder teilt, divisiv oder Top-Down-Ansatz genannt, die Cluster auf der Grundlage von Distanzmetriken. Beim agglomerativen Clustering fungiert jeder Datenpunkt zunächst als Cluster bevor die Cluster einzeln gruppiert werden.

Divisive ist das Gegenteil von Agglomerative, es beginnt mit allen Punkten in einem Cluster und unterteilt sie, um weitere Cluster zu erstellen. Diese Algorithmen erstellen eine Abstandsmatrix aller vorhandenen Cluster und führen die Verknüpfung zwischen den Clustern je nach den Kriterien der Verknüpfung durch. Das Clusterung der Datenpunkte wird mit Hilfe eines Dendrogramms dargestellt. Es gibt verschiedene Arten von Verknüpfungen:

  • Einfache Verknüpfung: Bei der einfachen Verknüpfung ist der Abstand zwischen den beiden Clustern der kürzeste Abstand zwischen den Punkten in diesen Clustern.

  • Vollständige Verknüpfung: Bei der vollständigen Verknüpfung ist der Abstand zwischen den beiden Clustern der weiteste Abstand zwischen den Punkten in diesen Clustern.

  • Durchschnittliche Verknüpfung: Bei der durchschnittlichen Verknüpfung ist der Abstand zwischen den beiden Clustern der durchschnittliche Abstand zwischen jedem Punkt in einem Cluster und jedem Punkt in einem anderen Cluster

Fuzzy Clustering

Beim Fuzzy Clustering ist die Zuordnung der Datenpunkte zu einem der Cluster nicht entscheidend. Hier kann ein Datenpunkt zu mehr als einem Cluster gehören. Das Ergebnis ist die Wahrscheinlichkeit der Zugehörigkeit des Datenpunktes zu jedem der Cluster. Einer der beim Fuzzy-Clustering verwendeten Algorithmen ist das Fuzzy-C-Mittelwert-Clustering. Dieser Algorithmus ähnelt dem K-Means-Clustering, das nachfolgend erklärt wird. Es unterscheidet sich aber in den Parametern Fuzzifierer und Zugehörigkeitswerte, die an der Berechnung beteiligt sind.

Clustering durch Partitionierung

Diese Methode ist eine der beliebtesten Möglichkeiten für Analysten, Cluster zu erstellen. Beim Partitioning Clustering werden die Cluster auf der Grundlage der Merkmale der Datenpunkte aufgeteilt. Bei dieser Clustermethode muss die Anzahl der zu erstellenden Cluster angegeben werden. Diese Clustering-Algorithmen folgen einem schrittweisen Prozess, um die Datenpunkte auf der Grundlage des Abstands zwischen den Clustern neu zuzuordnen. Nachfolgende Methoden zählen zum Partitioning Clustering:

K-means Clustering Service

Das K-means Clustering ist eine Methode der Vektorquantisierung, die für die Clusteranalyse im Data Mining beliebt ist. Das K-Means-Clustering zielt darauf ab, n Objekte in k Cluster aufzuteilen, wobei jedes Objekt zu dem Cluster mit dem nächstgelegenen Mittelwert gehört und als Prototyp des Clusters dient.

PAM (Partitioning Around Medoids)

Dieser Algorithmus wird auch als k-medoid Algorithmus bezeichnet. Er ähnelt dem K-means-Clustering-Algorithmus, mit dem Unterschied, dass er das Zentrum des Clusters zuweist. Bei PAM muss der Medoid (Cluster-Schwerpunkt) des Clusters ein Eingabedatenpunkt sein, während dies bei K-means Clustering nicht der Fall ist, da der Durchschnitt aller Datenpunkte in einem Cluster nicht unbedingt zu einem Eingabedatenpunkt gehören muss.

CLARA (Clustering Large Applications)

CLARA ist eine Erweiterung des PAM-Algorithmus, bei dem die Berechnungszeit reduziert wurde, um die Leistung bei großen Datensätzen zu verbessern. Um dies zu erreichen, wird ein bestimmter Teil der Daten willkürlich aus dem gesamten Datensatz als repräsentativ für die tatsächlichen Daten ausgewählt. Er wendet den PAM-Algorithmus auf mehrere Stichproben der Daten an und wählt aus einer Reihe von Durchläufen die besten Cluster aus.

Gridbased Clustering

Beim rasterbasierten Clustering wird der Datensatz in einer Gitterstruktur dargestellt, die aus Gittern, auch als Zellen bezeichnet, besteht. Der Gesamtansatz in den Algorithmen dieser Methode unterscheidet sich von den übrigen Algorithmen.

Sie befassen sich eher mit dem Wertebereich, der die Datenpunkte umgibt, als mit den Datenpunkten selbst. Einer der größten Vorteile dieser Algorithmen ist die Verringerung der Berechnungskomplexität. Dies macht sie für den Umgang mit großen Datensätzen geeignet. Nach der Partitionierung der Datensätze in Zellen wird die Dichte der Zellen berechnet, was bei der Identifizierung der Cluster hilft. Algorithmen die auf gitterbasiertem Clustering basieren, sind u.a. folgende:

STING (Statistical Information Grid Approach)

Bei STING wird der Datensatz rekursiv in einer hierarchischen Weise unterteilt. Jede Zelle wird weiter in eine unterschiedliche Anzahl von Zellen unterteilt. Es erfasst die statistischen Maße der Zellen, die bei der Beantwortung der Abfragen in kurzer Zeit helfen.

WaveCluster

Bei diesem Algorithmus wird der Datenraum in Form von Wavelets (kleine Wellen) dargestellt. Der Datenraum besteht aus einem n-dimensionalen Signal, das bei der Identifizierung von Clustern hilft. Die Teile des Signals mit einer niedrigen Frequenz und einer hohen Amplitude zeigen an, dass die Datenpunkte konzentriert sind. Diese Regionen werden von dem Algorithmus als Cluster identifiziert. Die Teile des Signals, in denen die Frequenz hoch ist, stellen die Grenzen der Cluster dar.

CLIQUE (Clustering in Quest)

CLIQUE ist eine Kombination aus einem Densitybased und einem Gridbased Clustering-Algorithmus. Er partitioniert den Datenraum und identifiziert die Unterräume nach dem sogenannten Apriori-Prinzip. Er identifiziert die Cluster durch die Berechnung der Dichte der Zellen.

Die Vorteile von Clustern

Bei der Nutzung von Server-Clustern gibt es mehrere Möglichkeiten. Eine Möglichkeit besteht darin, eine virtuelle Maschine in der Cloud bereitzustellen, um die Abläufe auszuführen. Hierbei wird jedoch die Leistung durch den Ressourcenverbrauch für die virtuelle Maschine eingeschränkt und das Skalieren der Anwendung könnte schwierig werden. Wenn die virtuelle Maschine oder die Hardware, die sie beherbergt, ausfällt, ist die Anwendung außerdem nicht verfügbar, bis eine neue Maschine versorgt oder der Datenverkehr auf einen Failover-Server geroutet wird.

Mit einem Cluster können diese Probleme behoben werden. Durch den Einsatz von containerisierten Anwendungen auf den Knoten eines Clusters können die Verfügbarkeit, Elastizität und Leistung einer Webanwendung verbessert werden. Durch die Ausführung mehrerer Container pro Knoten wird die Ressourcennutzung optimiert. Sicherzustellen, dass eine Instanz jedes Containers auf mehr als einem Knoten gleichzeitig ausgeführt wird, vermeidet einen „Single Point of Failure“ (einzelnen Ausfallpunkt) für die Anwendung. Entsprechend liegt der Vorteil in der Verwendung von Server-Clustern darin, dass ein kontinuierlicher Betrieb gewährleistet wird. Daraus folgt, dass Server-Cluster eine hohe Leistung, hohe Verfügbarkeit, Lastausgleich und Skalierbarkeit aufweisen und einen kontinuierlichen Betrieb gewährleisten können.

Das könnte Sie auch interessieren

Kenntnisse
Kenntnisse
See profile for Jason.
Jason
Die Vorteile und Nachteile der Glasfaserkabel
07. Aug 2020
84.4k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
TCPIP vs. OSI: Was ist der Unterschied?
06. Jul 2022
70.9k
Kenntnisse
See profile for Sheldon.
Sheldon
Das ABC von PON: OLT, ONU, ONT und ODN
19. Aug 2020
26.9k
Kenntnisse
Kenntnisse
See profile for Sheldon.
Sheldon
Grundlagen von optischen Verteilern (ODF)
02. Apr 2019
3.8k
Kenntnisse
See profile for Sheldon.
Sheldon
LACP vs. PAGP: Was ist der Unterschied?
06. Jun 2022
6.3k
Kenntnisse
See profile for Vincent.
Vincent
Einführung zu BiDi-Transceivern
26. Jun 2020
9.6k
Kenntnisse
See profile for Moris.
Moris
Simplex- vs. Duplex-Glasfaserkabel
10. Jun 2021
38.4k