Was ist Site Reliability Engineering (SRE)?

„Site Reliability Engineering“ beschreibt den Prozess der Nutzung von Betriebsprozessen sowie deren Zuweisung an das Software-Engineering-Team zur Automatisierung.

ITOM-Demo

Inhaltsverzeichnis

Was ist SRE?

Geschichte des Site Reliability Engineerings

Welche Aufgaben hat ein Site Reliability Engineer?

Wo passt SRE in Ihr Team?

Welche Vorteile kann ein SRE Ihrem Unternehmen bieten?

Pro und Kontra der Tätigkeit eines Site Reliability Engineers

DevOps im Vergleich zu SRE

Technologie zur Unterstützung von SRE

Die Tools, die Sie für SRE benötigen

Ist ServiceNow die richtige Lösung für SREs?

Alle ausklappen

Alle Einklappen

Was ist SRE?

IT-Teams versuchen ständig, SRE-Methoden zu implementieren. Beim Site Reliability Engineering werden betriebliche Praktiken von Softwareingenieuren übernommen, um menschliche Aufgaben zu automatisieren, Probleme zu lösen und Systeme zu verwalten. Ein SRE-Team ist für Change Management, Notfallmaßnahmen, Überwachung, Verfügbarkeit, Leistung, Latenz, Effizienz und Kapazitätsplanung der Services zuständig und schreibt in der Regel Software für die Prozessautomatisierung.

SRE ist ein großartiges Asset für die Zuverlässigkeit von Software und die Skalierbarkeit, da Systeme per Code verwaltet werden können. So entsteht ein Gleichgewicht zwischen der Gewährleistung der Zuverlässigkeit eines Produkts und seiner Funktionen und dem Release von neuen Produkten und Funktionen.

Geschichte des Site Reliability Engineerings

Der Begriff „SRE“ geht auf Ben Treynor Sloss von Google zurück

Ben Treynor Sloss von Google ist der Vordenker des SRE und beschreibt es treffend als „das, was passiert, wenn ein Software-Entwickler mit dem betraut wird, was früher als Betrieb bezeichnet wurde“. Das Konzept entwickelte sich aus einer Untersuchung der Konflikte zwischen dem Betrieb – der sicherstellen will, dass Funktionen keine Schäden verursachen oder Benutzer stören – und den Entwicklungsteams – die neue Funktionen entwickelt haben und sie freigeben wollen, sobald sie für den Rollout bereit sind. SRE soll beide Seiten miteinander versöhnen.

Ein Team von Google-Entwicklern hat ein Buch über SRE geschrieben

Google hat ein Buch über SRE veröffentlicht, das kostenlos online verfügbar ist. Darin wird die Rolle von SRE eingehend erläutert und es werden Best Practices für die Umsetzung empfohlen. Besonders bemerkenswert sind die Teile II und III (Grundsätze und Praktiken).

Prinzipien von SRE: Die Grundprinzipien von SRE sind laut Google folgende:

Risiken in Kauf nehmen: Neutrale Ansätze für das Servicemanagement unter Verwendung von Fehlerbudgets.
Servicelevel-Ziele: Dieser Bereich bietet Empfehlungen für entkoppelte Indikatoren aus Vereinbarungen und untersucht, wie SRE die Begriffe verwendet.
Eintönigkeit beseitigen: Abkehr von banalen und sich wiederholenden Aufgaben, die keinen Wert bieten.
Überwachung verteilter Systeme: Ständiger Überblick über die Abläufe im Unternehmen, um die Zuverlässigkeit zu steigern.
Release Engineering: Sorgfältige Vorbereitung von Releases, um sicherzustellen, dass sie einheitlich sind und nicht zu Ausfällen führen.
Einfachheit: Ein zu komplexes System kann die Zuverlässigkeit beeinträchtigen und die Rückskalierung auf ein einfacheres System erschweren.

Optimales SRE erfordert Erfahrung

Als Site Reliability Engineer eignet sich am besten jemand, der bereits über Erfahrung im Softwarebereich verfügt – diese Position ist keinesfalls für Anfänger geeignet. Die ordnungsgemäße Ausführung von SRE erfordert fundierte Kenntnisse im Software Engineering und ein gutes Verständnis komplexer und umfangreicher Systeme.

SRE ist eine Philosophie

Ein Site Reliability Engineer muss die richtige Einstellung für diese Position mitbringen. Technische Fähigkeiten sind eine Grundvoraussetzung, aber ein konzeptionelles Verständnis des Betriebs ist der Schlüssel. Es ist wichtig, dass sich SREs mit traditionellen Software-Engineering-Prozessen auskennen, aber auch ein ganzheitliches Verständnis der Unternehmensprozesse und die Weiterentwicklung eines zuverlässigen Systems sind von großer Bedeutung.

SRE sollte ein Katalysator für Veränderung sein

Alle Mitarbeiter eines Unternehmens sollten bestrebt sein, so zuverlässig wie möglich zu sein – und damit die wichtigen Grundsätze von SRE umzusetzen. Erstellen Sie für jedes Team ein Zuverlässigkeitsmodell und besprechen Sie, wie Zuverlässigkeit in jedes Team integriert werden kann und inwiefern sie jeden betrifft.

Welche Aufgaben hat ein Site Reliability Engineer?

Aufgaben und Verantwortungsbereiche des Site Reliability Engineers (SRE)

Die Einführung neuer Produkte wird auf Grundlage der aktuellen Produktleistung genehmigt: Anwendungen sind in der Regel nicht 100 % der Zeit betriebsbereit. Das SRE-Team sollte eine Servicelevel-Vereinbarung ausarbeiten, um das System zu definieren und festzulegen, wie es für die Benutzer verwendet werden soll. Fester Bestandteil einer Servicelevel-Vereinbarung ist ein Fehlerbudget, d. h. der maximale Schwellenwert für Ausfälle und Fehler.

SREs können programmieren

Entwicklungsteams und SREs teilen sich das Personal, was bedeutet, dass ein zusätzlicher SRE einen Entwickler weniger bedeutet und umgekehrt. Das System ist selbstregulierend, um Kämpfe zwischen Entwicklern und SREs um Stellen zu vermeiden. SREs können ebenfalls programmieren und entwickeln, sodass sie problemlos mit dem Entwicklungsteam zusammenarbeiten können.

SREs dürfen zwischen Projekten hin- und herspringen, denn SRE bewirkt eine hohe Motivation und ein großes Engagement, sodass die Teammitglieder ihre persönlichen Ziele verfolgen können.

Gängige Aufgaben und Verantwortungsbereiche eines Site Reliability Engineers

Entwicklung von Software zur Unterstützung des Betriebs und der Teams
Beheben von Eskalationsproblemen
Optimierung der Bereitschaftsdienstprozesse
Dokumentation des Teamwissens
Durchführung von Prüfungen nach Incidents

Wo passt SRE in Ihr Team?

SREs können direkt an der Schnittstelle zwischen IT-Betrieb, Software Engineering und Support eingesetzt werden, um eine solide Grundlage und Beziehung zwischen den Teams zu schaffen. Auf diese Weise werden Feedbackschleifen, Zusammenarbeit und Zuverlässigkeit verbessert.

Welche Vorteile kann ein SRE Ihrem Unternehmen bieten?

Site Reliability Engineers können SRE für Sie nutzbar machen

Sie behalten das große Ganze im Blick, um verschiedene Teams auf ein einziges Ziel einzuschwören.

Automatisierung ist das A und O für SRE

Ein großer Teil der Aufgaben von SRE besteht darin, Ineffizienzen auszumerzen und zu erkennen, was sich problemlos automatisieren lässt. So können zeitraubende Aufgaben wegfallen und die Effizienz lässt sich steigern, da weniger manuelle Arbeiten anfallen.

SRE ist nicht nur für Technologieunternehmen geeignet

SRE-Verfahren sind nicht nur auf die Technologiebranche beschränkt. Die Kultur des Site Reliability Engineerings lässt sich auch auf E-Commerce, Kundenservice und Fertigung ausweiten.

Pro und Kontra der Tätigkeit eines Site Reliability Engineers

DevOps im Vergleich zu SRE

DevOps ist eine Methode zur Erstellung und Bereitstellung guter Software, bei der Software Engineering und -Betrieb mit dem Ziel kombiniert werden, Betriebs- und Entwicklungsrollen zu verschmelzen. Das Hauptaugenmerk von SRE liegt eher auf der Entwicklungs- als auf der Betriebsseite von DevOps.

Erfahren Sie mehr über DevOps
DevOps- und SRE-Teams einen modernen Betrieb bieten

Technologie zur Unterstützung von SRE

Linux-Container können die erforderliche Technologie für eine cloudnative Entwicklung bereitstellen – Container unterstützen die Vereinheitlichung der Umgebung für Integration, Automatisierung, Entwicklung und Bereitstellung. Kubernetes kann die erforderlichen Linux-Container automatisieren.

Die Tools, die Sie für SRE benötigen

Für SRE gibt es kein bestimmtes, einheitliches Toolset. Wichtig ist jedoch, dass der Aufbau von SRE-Funktionen innerhalb eines Unternehmens immer mit Automatisierung einhergeht, um Skalierbarkeit und Wiederholbarkeit zu gewährleisten.

Preisgestaltung für ServiceNow IT Operations Management

Fordern Sie eine Preisgestaltung für ServiceNow ITOM an, um Transparenz für alle Infrastrukturen und Apps zu ermöglichen und hochleistungsfähige Business Services bereitzustellen.

Zur Preisgestaltung

Ist ServiceNow die richtige Lösung für SREs?

Der Mehrwert von ServiceNow liegt in der teamübergreifenden Zusammenarbeit, der Registrierung von Microservices, der Korrelation beobachtbarer Daten, der Automatisierung von Changes und der Vorhersage von Fehlern – und das alles unter Beibehaltung Ihrer bestehenden Tools.

Funktionen, die mit Ihrem Unternehmen mitwachsen

Erstellen Sie Ihren nächsten SRE-Transformationsplan mit ServiceNow.

ITOM-Demo

Kontakt

Ressourcen

Artikel

Was ist ServiceNow?

Was ist ITOM?

Was ist Cloud-Computing?

Analystenberichte

IDC: IT-Automatisierung beschleunigen

The Forrester Wave™: AIOps – ServiceNow

Automatisierter Servicebetrieb – ServiceNow

Datenblätter

Der Wert der CMDB

ITOM-Transparenz

Agent Client Collector (ACC)

E-Books

CMDB für Anfänger:

Die Servicetransparenz erhöhen

Optimale Serviceverfügbarkeit erzielen

Whitepaper

Die CMDB in ServiceNow ITOM

Wachstum dank KI-gestütztem Servicebetrieb

Den Nutzen von AIOps innerhalb weniger Wochen realisieren

Automobilindustrie

Bankwesen

Konsumgüter

Gesundheitswesen

Versicherungen

Life Sciences

Fertigungsindustrie

Gemeinnützige Organisationen

Nationale Behörden

Einzelhandel

Technologieanbieter

Telekommunikation

Partner finden

Partner werden

Partnerauszeichnungen

Partner-Portal

Partneranwendungen

Karriere

Investoren

KI-Forschung von ServiceNow

Führungsebene

Niederlassungen

Newsroom

Analystenberichte

Globale Auswirkungen

Vertrauen und Compliance

ServiceNow Shop

KI-Agenten

IT Service Management

ServiceNow KI-Kontrollstelle

IT Operations Management

Kundenservice-Management

Strategisches Portfoliomanagement

IT Asset Management

Governance, Risk und Compliance

Security Operations

Außendienst-Management

HR-Servicebereitstellung

ServiceNow EmployeeWorks

KI

Daten

Workflows

ServiceNow Otto

RaptorDB

Process Mining

KI-Agenten

ServiceNow KI-Kontrollstelle

Sicherheit

App Engine

ServiceNow Store

Verantwortungsvolle KI

Bessere Experiences bieten

Probleme schneller lösen

Workflows erstellen und automatisieren

Enterprise-Architektur

Service Operations-Arbeitsbereich

Cloud-Governance-Suite

Operational Technology-Management

IT Asset Management

IT Operations Management

IT Service Management

ServiceNow Cloud Observability

Strategisches Portfoliomanagement

Digitale Endanwender-Experience

Kundenservice-Management

Außendienst-Management

Vertriebs- und Auftragsmanagement

Configure, Price, Quote

Financial Services Operations

Servicemanagement für das Gesundheitswesen und Life Sciences

Vertriebs- und Auftragsmanagement für Technologie-Anbieter

Vertriebs- und Auftragsmanagement für die Telekommunikation

Digitale Dienste für den öffentlichen Sektor

Servicemanagement für die Telekommunikation

Servicemanagement für Technologie-Anbieter

Security Operations

Security Incident Response

Vereinheitlichtes Sicherheitsrisiko-Management

Threat Intelligence-Sicherheitszentrum

Integriertes Risikomanagement

Risikomanagement von Drittparteien

Sicherheitsstatus-Überwachung

Datenschutz-Management

Identitätssicherheit

HR-Servicebereitstellung

Mitarbeiterentwicklung

Legal Service Delivery

Workplace Service Delivery

Accounts Payable Operations

Sourcing and Procurement Operations

Supplier Lifecycle Operations