Need to monitor Cloudli outages?
Stay on top of outages with IsDown. Monitor the official status pages of all your vendors, SaaS, and tools, including Cloudli, and never miss an outage again.
Start Free Trial
Summary
At approximately 9:20 am on Wednesday, July 19, the Cloudli operations team became aware of call failures on its CloudliConnect platform. Investigation determined that an update applied during a scheduled maintenance window, earlier that morning, introduced a memory leak to a DB service that caused the service to repeatedly crash and recover. This resulted in inbound and outbound calling service interruptions.
The memory leak only exhibited problems as the CloudliConnect service load increased to its normal daily calling level.
The development and operations team, on an emergency basis, reversed the update and immediately began restoring all CloudliConnect services. Full service was restored at approximately 11:15am.
Timeline
9:20 am – Initial reports of call issues on CloudliConnect platform
9:30 am – Operations and development team investigate and diagnose calling issues
10:30 am – Process to revert maintenance update and reboot services begins
11:15 am – CloudliConnect calling services are fully restored
Corrective and preventive measures
Operations and development team is evaluating the CloudliConnect update to determine where the memory lead occurs to patch the software code. The operations team is evaluating underlying hardware resource requirements that might mitigate the impact of future memory leaks. Operations team is also investigating enhancing and improving alert system to provide early warning of these type of conditions
Résumé
Vers 9 h 20 le mercredi 19 juillet, l'équipe des opérations Cloudli a pris connaissance d'échecs d'appels sur sa plateforme CloudliConnect. L'enquête a déterminé qu'une mise à jour appliquée au cours d'une fenêtre de maintenance planifiée, plus tôt dans la matinée, a introduit une fuite de mémoire dans un service de base de données qui a provoqué des pannes et des récupérations répétées du service. Cela a entraîné des interruptions du service d'appels entrants et sortants.
La fuite de mémoire n'a présenté des problèmes que lorsque la charge du service CloudliConnect a augmenté jusqu'à son niveau d'appel quotidien normal.
L'équipe de développement et d'exploitation, en urgence, a annulé la mise à jour et a immédiatement commencé à restaurer tous les services CloudliConnect. Le service complet a été rétabli vers 11h15.
Calendrier
9h20 – Premiers signalements de problèmes d'appels sur la plateforme CloudliConnect
9 h 30 - L'équipe des opérations et du développement enquête et diagnostique les problèmes d'appel
10 h 30 - Début du processus d'annulation de la mise à jour de maintenance et des services de redémarrage
11h15 - Les services d'appel CloudliConnect sont entièrement restaurés
Mesures correctives et préventives
L'équipe d'exploitation et de développement évalue la mise à jour CloudliConnect pour déterminer où se produit le problème de mémoire pour corriger le code logiciel. L'équipe des opérations évalue les besoins en ressources matérielles sous-jacentes qui pourraient atténuer l'impact de futures fuites de mémoire. L'équipe des opérations étudie également l'amélioration et l'amélioration du système d'alerte pour fournir une alerte précoce de ce type de conditions
A fix has been implemented and we are monitoring the results.
If you are still experiencing issue with the service please restart the VoIP phone.
***
Un correctif a été mis en œuvre et nous surveillons les résultats.
Si vous rencontrez toujours des problèmes avec le service, veuillez redémarrer le téléphone VoIP.
We are currently investigating an issue that could be affecting incoming and outgoing calls on Cloudli Connect platform.
Impacts: This could potentially cause abnormal delays or an inability to initiate or receive calls.
***
Nous enquêtons actuellement sur un problème qui pourrait affecter les appels entrants et sortants sur la platforme Cloudli Connect.
Impacts: Ceci pourrait potentiellement entraîner des délais anormaux ou à une incapacité à initier ou recevoir des appels.
With IsDown, you can monitor all your critical services' official status pages from one centralized dashboard and receive instant alerts the moment an outage is detected. Say goodbye to constantly checking multiple sites for updates and stay ahead of outages with IsDown.
Start free trialNo credit card required · Cancel anytime · 4522 services available
Integrations with