Notre nouvelle plateforme est disponible sur www.gandi.net

Découvrir le nouveau Gandi

Le service GandiSite, et plus spécifiquement les instances Basekit (les instances SiteMaker n'étant pas concernées), ont été impactées par deux incidents successifs dans la journée du 15 octobre, à savoir :

  • Un premier incident, en début d'après-midi, a rendu les sites indisponibles par intermittence.
  • Un second incident du même type a eu lieu dans la soirée.

Après investigation par nos équipes techniques, le problème a été identifié comme étant liée à la base de données. Des mesures vont être prises pour éviter qu'une telle situation ne se reproduise.

Nous vous prions d'accepter nos excuses pour la gène occasionnée.


Nous avons été impactés par de graves incidents sur plusieurs unités de stockage en début de semaine. Ces incidents ont entraînée deux interruptions de service pour une petite partie de nos clients, tant sur des instances Simple Hosting que sur des serveurs IaaS. 

Cumulées, ces deux interruptions de service réprésentent notre plus gros incident de ces trois dernières années.

Les clients concernés ont été contactés et dédommagés. Nous souhaitons néanmoins, en toute transparence, revenir ici sur les circonstances de ces incidents.

 

  • Peu avant 20h00 CEST le 7 octobre, une unité de stockage de notre datacenter parisien, hébergeant des disques de serveurs IaaS et d'instances Simple Hosting, ne répond plus.
  • À 20h00, vérifications d'usage et décision de basculer sur l'unité de secours.
  • À 21h00, migration des données interrompue. Investigation des équipes et retour vers l'unité de stockage d'origine.
  • À 2h00 redémarrage de l'unité de stockage dont le disque de journal d'écriture défectueux a été changé.
  • À 3h00, sous la forte surchage liée à l'interruption de 6 heures, l'unité de stockage ne répond plus et les équipes sont contraintes d'étaler le démarrage des instances PAAS de 3h00 à 5h30.
  • À 8h30, l'ensemble des VMs et instances est fonctionnel après vérification. Certaines VMs ou instances seront à vérifier au cas par cas.
  • L'ensemble des unités de stockage utilisant le même modèle de disque est inspecté, et l'un d'entre eux est remplacé à titre préventif.
  • À 12h30, l'unité de stockage dont le disque a été remplacé présente une défaillance légère et nos équipes recherchent l'origine du problème.
  • À 15h50, 3 disques virtuels sont bloqués et une dizaine de VM impactée. Le bug est identifié, une mise à jour préventive est réalisée sur l'unité de stockage avant sa correction. Cette mise à jour entraîne un redémarrage automatique, causant une interruption de l'hébergement.
  • À 16h15, l'ensemble des instances Simple Hosting est fonctionnel. Les disques IaaS peinent à remonter. À 17h30, plus de 80% des disques sont accessibles, 100% à 17h45.

 

Pendant toute la durée de l'incident, soit de 16h00 à 18h00 environ, l'ensemble des opérations est interrompu, interdisant tout arrêt, création ou démarrage des serveurs. Les nombreuses opérations en attente de traitement sont traitées dans leur intégralité à 19h30.

Ces incidents en série ont impacté fortement la qualité de notre service, et nous le déplorons. Nous avons d'ores et déjà pris les mesures nécessaires pour réduire l'impact de tels incidents et les prévenir en amont.

En outre, un outil de suivi des incidents et des maintenances permettant à nos clients de connaître l'état de nos services en temps réel est en cours de développement et sera mis en production d'ici la semaine prochaine.

Nous renouvelons à nos clients impactés toutes nos excuses pour le désagrément occasionné et vous remercions de votre confiance.


Suite à un incident sur une unité de stockage, il a été nécessaire de redémarrer celle-ci afin d'effectuer une mise à jour. 

Toutes les opérations ont été interrompues jusqu'à la résolution de l'incident.

Merci de ne PAS lancer de nouvelles opérations sur vos serveurs : la situation va revenir à la normale une fois l'incident terminé.

Un incident est cours sur une de nos unités de stockage située dans notre centre de données parisien. Cela impacte le service Hosting sur Paris.

Nos équipes techniques travaillent à la résolution de cet incident afin de rétablir le service au plus vite.

Entre temps, merci de ne lancer aucune opération sur votre/vos serveur(s). La situation sur votre/vos serveur(s) devrait revenir à la normale une fois l'incident clos.

Merci de votre compréhension et navré pour ces inconvénients.

L'équipe Gandi.net

Mise à jour 2014-10-07 19:49:03 UTC: Nous avons identifié des matériels défectueux et sommes en train de les remplacer.

Mise à jour 22:50:27 UTC: Notre équipe technique travaille toujours à la résolution de cet incident. Nous vous tiendrons au courant de nos avancements.

Mise à jour 8 oct 00:06:47 UTC: Un disque ZIL est tombé en panne, et son failover/basculement ne s'est pas bien déroulé. Nous procédons actuellement à la procédure de failover à la main, avec soin afin d'éviter toute perte de données.

Surtout : Nous comprenons combien cet incident est critique pour vous et nous faisons tout ce qui est en notre pouvoir pour le résoudre.

Mise à jour 00:39:21 UTC : L'équipe technique est en train de remonter l'unité de stockage. On est proche de la résolution de cet incident, les services reviennent petit à petit.

Mise à jour 04:05:54 UTC : Notre équipe technique est finalement parvenue à résoudre l'incident après une longue nuit.

Une communication détaillée sur l'incident (postmortem) sera faite dans les prochains jours. Vous y trouverez notamment des informations concernant les détails techniques et les indemnisations liées à cet incident, conformément à nos Conditions Générales de Vente (cf. article 2) et à notre engagement envers vous, nos clients.


Une maintenance sur une unité de stockage Gandi Mail va avoir lieu.

La fenêtre de cette maintenance est prévue le Mardi 07 octobre 2014 entre 23h30 et 00h00 CEST (heure de Paris).

L'impact prévu est l'inaccessibilité de quelques milliers de boites Gandi mail pendant quelques minutes.

Il n'y a pas de perte prévisible de mail pendant ce temps, les messages étant en attente d'être délivrés

[EDIT]

La maintenance est repoussée au mercredi 08 octobre 2014 entre 23h30 et 00h00 CEST (heure de Paris).


Nous allons redémarrer une unité de stockage sur le centre de données de Paris/FR ce soir.

La fenêtre de maintenance commencera le 3 octobre à minuit CEST et se terminera à une heure du matin. La fenêtre de maintenance a été rallongée de 30 minutes et se terminera à 1h30 CEST.

Vous n'aurez pas besoin de redémarrer votre serveur (IaaS ou PaaS) pendant ce temps.

Navré de la gêne occasionnée.

 

Update : fin de la maitenance à 02h00 CEST, navré pour le délai supplémentaire.


Suite à un incident réseau dans notre bureau situé au Luxembourg, nos équipes luxembourgeoises se sont trouvées dans l'impossibilité d'assurer le support client pendant quelques heures, entrainant une augmentation du délai de traitement de vos demandes par les autres équipes.

Afin de limiter notre retard, nous avons donc mobilisé nos équipes des bureaux de Paris, Taipei et San Francisco, et tout devrait rentrer rapidement dans l'ordre.

Nous vous prions de bien vouloir nous excuser pour la gêne occasionnée et comptons sur votre compréhension dans les prochains jours.



Nous allons redémarrer une unité de stockage en urgence.

En effet, un bug est à l'origine de cette maintenance d'urgence.

Cela n'a pas d'impact sur les données hébergées.

Les disques reprendront leurs I/O là où ils se sont arrêtés.

Merci de ne pas effectuer d'opération sur vos machines virtuelles pendant ce temps.

Les opérations hébergement seront arrêtées pendant ce temps.

Navré de la gêne occasionnée par cette maintenance.

 

Mise à jour : tous les disques sont revenus et ont récupéré leurs I/O, les opérations ont été relancées, si vous subissez un problème qui pourrait avoir été déclenché par cette maintenance, merci de contacter notre support par email ou sur votre site web dans la rubrique 'aide'.


Nous devons effectuer une maintenance sur les bases de données de notre système d'information.

Celle-ci aura lieu du Mercredi 23 Juillet 2014 à 23h00 au Jeudi 24 Juillet 2014 à 06h00 (CEST, fuseau horaire de Paris).

Cette maintenance impactera essentiellement l'administration des services et produits Gandi, qui seront indisponibles quelques dizaines de minutes entre 23h et 6h.

Pendant ce laps de temps, il sera impossible d'effectuer toute opération d'achat, de renouvellement, de gestion ou d'administration de vos noms de domaines, hébergements, certificats SSL, Gandi Mail ou Gandi Websites. L'API publique sera également indisponible, et la génération de zones associées aux domaines sera perturbée.

En revanche, les sites hébergés sur Simple Hosting ou sur les machines virtuelles IaaS, ainsi que les serveurs de noms de domaines (DNS) de Gandi resteront fonctionnels.
De plus, la réception et l'envoi d'emails pourraient être temporairement  perturbés, mais aucun mail ne sera perdu.

Le support n'étant pas disponible pendant toute la durée de la maintenance, une adresse mail d'urgence a été mise en place. Vous pourrez nous contacter en utilisant l'adresse support@support.gandi.net.

Nous vous invitons également à consulter la page de notre compte Twitter @gandinoc où nous vous informerons régulièrement de l'avancée des opérations.

Nous vous prions de nous excuser par avance pour la gêne occasionnée et vous remercions de votre compréhension.

 

Mise à jour :

La maintenance a commencé à 11h02 CEST et s'est terminée avec succès à 00h08 CEST.

Merci de nous rapporter tout problème que vous rencontriez désormais à notre support email.


Page   1 2 3 415 16 17
Taille du bandeau d'actualités