aktuell haben wir technische Probleme der Datastores. Dadurch kann es sein, dass Einträge nicht mehr in die Datastores geschrieben oder angezeigt werden können.
Unser Technikteam arbeitet mit Hochdruck dran dies so schnellst wie möglich wieder zu beheben. Wir bitten um Ihr Verständnis.
Hallo @synesty-Lukas ,
gut, dass du schreibst.
Ich habe mich gerade schon gewundert warum mein Flow nicht richtig funktioniert.
Schreibst du dann hier, wenn es wieder funktioniert?
Viele Grüße
Dana
Das Studio ist ja jetzt für Wartungsarbeiten down. Habt ihr eine Einschätzung wie lange das dauern wird? Und: Sind für den Zeitraum auch alle Flowruns blockiert oder läuft das normal weiter?
vielen Dank für eure Geduld. Aus dem gröbsten sind wir heraus und der nächste Schritt wird sein, dass wir die Datastore wiederherstellen, anschließend lassen wir die Flows wieder laufen und am Ende könnt Ihr euch wieder einloggen.
Hallo zusammen,
die Systeme laufen wieder an. UI dauert noch ein kleines Stück.
Wir bitten um Entschuldigung für die Beeinträchtigung der letzten Stunden.
Es gab leider ein Problem mit dem Datenbankcluster der für die Datastores verantwortlich ist.
Dazu mussten wir Flows stoppen, um Last vom Cluster zu nehmen und eine Re-Indizierung vornehmen.
Zusätzlich haben wir den Cluster vergrößert, und weitere Resourcen dazu gebucht.
Wir beobachten die Systeme und Auslastung weiterhin.
Wenn es Neuigkeiten gibt, werden wir uns hier melden.
Wir werden morgen eine tiefere Analyse durchführen und Maßnahmen planen, ein solches Ereignis zukünftig zu vermeiden.
„Step is not installed“ könnte ein Schluckauf beim initialen Aufholen sein und sind seit deinem Post nicht noch mal aufgetreten.
Wir starten das UI in wenigen Augenblicken.
Kannst du bitte dann versuchen den noch mal manuell zu starten?
Backend UI sollte wieder erreichbar sein.
Es kommt im Moment zu erheblich größeren Verzögerungen als üblich, da die Flows abgearbeitet werden. Es sollte sich ab jetzt langsam wieder normalisieren.
Am 02.05.2023 kam es zu einem Ausfall im Bereich Datastores in der Zeit zwischen 14:35 Uhr - 20Uhr. Diese Post-Mortem-Analyse gibt einen detaillierten Überblick über den Vorfall, einschließlich seiner Ursachen, Auswirkungen und der ergriffenen Maßnahmen.
Zusammenfassung:
Am 02.05.2023 kam es zu einer Fehlerkaskade im Datenbankcluster auf Grund hoher Last, welches für die Datastores zuständig ist. Datenverlust gab es nicht, jedoch war der sog. Index-Dienst betroffen, weshalb Datenbankabfragen von Flows nicht mehr funktionierten. Um weitere Fehler zu vermeiden und die Last auf dem Datenbank-Cluster zu reduzieren, haben wir uns dazu entschieden proaktiv Synesty Studio zu deaktiveren (Backend - Benutzeroberfläche und Flows). Flows wurden in diesem Zeitfenster nicht ausgeführt.
Gegenmaßnahmen
Es wurden folgende Maßnahmen ergriffen, um das Problem zu beheben:
Kapazität des Datenbankclusters erhöht
Datenbankindizes neu erstellt
Die Systeme wurden im Laufe des Abends schrittweise wieder hochgefahren.
Wir befinden uns weiterhin dabei die Hardwarekapazitäten zu erhöhen und das Monitoring zu verbessern. Außerdem wurde eine mögliche Code-Optimierung identifiziert, die die Datenbanklast reduziert und somit zu einer Verbesserung der Systemstabilität beiträgt. Diese Code-Änderung wird zeitnah ausgerollt.
Auswirkungen
Alle Flows und Datastores aller Kunden waren von diesem Ausfall betroffen.
Timeline:
2023-05-02 ab ca. 12:00 Monitoring zeigt erhöhter Auslastung. Analysen starten
2023-05-02 20:04 Neustart Backend UI. Flows holen auf. Normaler Betrieb folgt.
Aktueller Status
Im Zuge der Kapazitätserhöhungen kam es leider auch am 3.5.2023 zu einer kurzen Schwankung, so dass einige Flows zwischen 11:00 - 12:15 Uhr einen Fehler hatten. Seit dem sind diese Fehler nicht mehr aufgetreten und die Systeme sind stabil.
Danke Lukas! Von so einer offenen Darlegung kann sich der SaaS-Anbieter mit dem roten P eine dicke Scheibe abschneiden. Professionell wie man es von euch gewohnt ist.