Un problème est en cours sur les passerelles qui servent à faire le NAT pour les instances.
Nos équipes travaillent sur le problème.
Nous vous tiendrons au courant des évolutions.
15:14 : situation stable, nos équipes restent en alerte et cherchent une solution plus pérenne.
Update 16:30 :
L'incident du 11 novembre s'inscrit dans un ensemble d'incidents depuis quelques semaines causés par la passerelle d'accès vers Internet pour les instances Simple Hosting (gateway).
Jusqu'à maintenant,la plate-forme Simple Hosting a subi plusieurs types de problèmes principalement au niveau de la gateway qui est actuellement le maillon le plus faible :
instabilité HSRP provoquant des coupures au niveau des passerelles,
saturation des tables NAT pour causes diverses DDOS et activités clientes,
problème de charge CPU.
Solutions qui vont être mises en place pour remplacer la gateway et améliorer le produit Simple Hosting :
remplacement des équipements réseaux qui servent de passerelle pour le produit Simple Hosting par des équipements nettement plus puissants et plus nombreux. Ils se comporteront beaucoup mieux avec la plate-forme actuelle et supporteront l'augmentation du nombre d'instance de Simple Hosting prévu dans le futur,
mise en place de niveaux supplémentaire de monitoringpour détecter plus efficacement les problèmes techniques,
monitoring et surveillance avancés des abus d'instance spécifique et réaction rapide de notre équipe technique pour que les abus n'entrainent pas de dégradation de qualité de service pour les autres clients.
Veuillez nous excuser pour la gêne occasionnée et soyez assuré que nous prenons le problème de la plate-forme Simple Hosting très au sérieux.
Nous avons de nouveau subi une panne matérielle sur un des équipements utilisé pour le simple hosting.
Ci dessous la chronologie des événements :
- 21:06 PM CET : l'équipement monte en utilisation CPU
- 21:06 PM CET : l'équipement est a 100% de CPU sans raison apparente et ne répond plus
- 21:08 PM CET : décision prise de basculer sur l'équipement secondaire
- 21:08 PM CET : l'équipement secondaire présente les même symptomes alors que le trafic n'a pas été basculé
- 21:09 PM CET : tentative de débugage pour comprendre ce qui se passe.
- 21:26 PM CET : bascule sur le deuxième équipement qui est stabilisé
- 21:27 PM CET : retour à la normale du service
- 23:42 PM CET : suite à l'incident réseau il y a eu un effet de bord sur les DNS, les instances simple hosting n'avaient plus de résolution DNS depuis 21:06 PM CET, problème maintenant résolu (provoquant des problèmes d'envois d' emails)
Détail :
- Les équipements réseaux servant de gateway pour le simple hosting ont montré des signes de faiblesses, le diagnostic sur l'équipement principal est en cours (probablement un problème de mémoire sur l'équipement). Nous utilisons l'équipement secondaire pour le moment.