Technische Probleme der Datastores

Hallo liebe Kunden und Partner,

aktuell haben wir technische Probleme der Datastores. Dadurch kann es sein, dass Einträge nicht mehr in die Datastores geschrieben oder angezeigt werden können.

Unser Technikteam arbeitet mit Hochdruck dran dies so schnellst wie möglich wieder zu beheben. Wir bitten um Ihr Verständnis.

Viele Grüße
Lukas

Hallo @synesty-Lukas ,
gut, dass du schreibst. :slight_smile:
Ich habe mich gerade schon gewundert warum mein Flow nicht richtig funktioniert.
Schreibst du dann hier, wenn es wieder funktioniert? :slight_smile:
Viele Grüße
Dana

Hallo @eRocket-Dana,

wir melden uns auf jeden Fall, wenn wieder alles funktioniert.

Viele Grüße
Lukas

2 „Gefällt mir“

@synesty-Lukas

Das Studio ist ja jetzt für Wartungsarbeiten down. Habt ihr eine Einschätzung wie lange das dauern wird? Und: Sind für den Zeitraum auch alle Flowruns blockiert oder läuft das normal weiter?

VG,
Florian

Hallo @eRocket-Florian_Menzel,

Flows sind gerade komplett deaktiviert. Wir arbeiten mit Hochdruck dran, es zu lösen.

Viele Grüße
Lukas

1 „Gefällt mir“

@LukasK

any News ? Gibt es schon eine Einschätzung ?

LG

Hallo zusammen,

vielen Dank für eure Geduld. Aus dem gröbsten sind wir heraus und der nächste Schritt wird sein, dass wir die Datastore wiederherstellen, anschließend lassen wir die Flows wieder laufen und am Ende könnt Ihr euch wieder einloggen.

Das ganze wird Zeitnah passieren.

Viele Grüße
Lukas

Die ersten Flows laufen wieder an. Wir warten noch einen Moment mit dem Backend / UI.
Weitere Updates folgen.

UI ist noch down, aber Eventlog meckert schon (per Email):

2023-05-02 13_54_34-Posteingang - admin@samenhaus.de - Outlook

Hallo zusammen,
die Systeme laufen wieder an. UI dauert noch ein kleines Stück.

Wir bitten um Entschuldigung für die Beeinträchtigung der letzten Stunden.

Es gab leider ein Problem mit dem Datenbankcluster der für die Datastores verantwortlich ist.
Dazu mussten wir Flows stoppen, um Last vom Cluster zu nehmen und eine Re-Indizierung vornehmen.
Zusätzlich haben wir den Cluster vergrößert, und weitere Resourcen dazu gebucht.

Wir beobachten die Systeme und Auslastung weiterhin.

Wenn es Neuigkeiten gibt, werden wir uns hier melden.
Wir werden morgen eine tiefere Analyse durchführen und Maßnahmen planen, ein solches Ereignis zukünftig zu vermeiden.

3 „Gefällt mir“

„Step is not installed“ könnte ein Schluckauf beim initialen Aufholen sein und sind seit deinem Post nicht noch mal aufgetreten.
Wir starten das UI in wenigen Augenblicken.
Kannst du bitte dann versuchen den noch mal manuell zu starten?

1 „Gefällt mir“

Backend UI sollte wieder erreichbar sein.
Es kommt im Moment zu erheblich größeren Verzögerungen als üblich, da die Flows abgearbeitet werden. Es sollte sich ab jetzt langsam wieder normalisieren.

2 „Gefällt mir“

UI ist wieder da, Flow lief auch schon mehrfach problemlos durch :muscle:

Meldung war von 15:30, die Zustellung war wohl auch verzögert (kam erst vor 20 Minuten an)…

1 „Gefällt mir“

sieht soweit wieder gut aus, danke.

Ausfall Datastore 2023/05/02

Am 02.05.2023 kam es zu einem Ausfall im Bereich Datastores in der Zeit zwischen 14:35 Uhr - 20Uhr. Diese Post-Mortem-Analyse gibt einen detaillierten Überblick über den Vorfall, einschließlich seiner Ursachen, Auswirkungen und der ergriffenen Maßnahmen.

Zusammenfassung:

Am 02.05.2023 kam es zu einer Fehlerkaskade im Datenbankcluster auf Grund hoher Last, welches für die Datastores zuständig ist. Datenverlust gab es nicht, jedoch war der sog. Index-Dienst betroffen, weshalb Datenbankabfragen von Flows nicht mehr funktionierten. Um weitere Fehler zu vermeiden und die Last auf dem Datenbank-Cluster zu reduzieren, haben wir uns dazu entschieden proaktiv Synesty Studio zu deaktiveren (Backend - Benutzeroberfläche und Flows). Flows wurden in diesem Zeitfenster nicht ausgeführt.

Gegenmaßnahmen

Es wurden folgende Maßnahmen ergriffen, um das Problem zu beheben:

  • Kapazität des Datenbankclusters erhöht
  • Datenbankindizes neu erstellt

Die Systeme wurden im Laufe des Abends schrittweise wieder hochgefahren.

Wir befinden uns weiterhin dabei die Hardwarekapazitäten zu erhöhen und das Monitoring zu verbessern. Außerdem wurde eine mögliche Code-Optimierung identifiziert, die die Datenbanklast reduziert und somit zu einer Verbesserung der Systemstabilität beiträgt. Diese Code-Änderung wird zeitnah ausgerollt.

Auswirkungen

Alle Flows und Datastores aller Kunden waren von diesem Ausfall betroffen.

Timeline:

  • 2023-05-02 ab ca. 12:00 Monitoring zeigt erhöhter Auslastung. Analysen starten
  • 2023-05-02 14:35 Ausfall erster Datenbank-Knoten
  • 2023-05-02 15:27 Flow-Worker / UI abschaltet. Kapazität vergrößern, Neuindizierung
  • 2023-05-02 18:40 Neustart Worker
  • 2023-05-02 20:04 Neustart Backend UI. Flows holen auf. Normaler Betrieb folgt.

Aktueller Status

Im Zuge der Kapazitätserhöhungen kam es leider auch am 3.5.2023 zu einer kurzen Schwankung, so dass einige Flows zwischen 11:00 - 12:15 Uhr einen Fehler hatten. Seit dem sind diese Fehler nicht mehr aufgetreten und die Systeme sind stabil.

7 „Gefällt mir“

Danke Lukas! Von so einer offenen Darlegung kann sich der SaaS-Anbieter mit dem roten P eine dicke Scheibe abschneiden. Professionell wie man es von euch gewohnt ist.

5 „Gefällt mir“

Hahaha, genau das hab ich gestern auch gedacht. Hab schon überlegt denen das im Key Accounting mal als Schablone reinzuknallen :smiley: