Skip Navigation

[Statut et maintenance] Opération tout cassé

Bonjour à tous,

suite à des problèmes d'instabilité, venant d'une utilisation à 100% du disque et à un alerting qui ne fonctionnait malheureusement plus, j'ai été obligé de mettre l'instance offline pour une durée d'environ 48h de manière soudaine et impromptue.

L'instance fonctionne dorénavant avec un stockage d'images sur s3, un service tiers géré par Wasabi, au lieu d'un stockage sur le serveur lui même.

Après une phase de vérification que tout re-fonctionne, je procéderais dans la foulée à la MAJ de l'instance vers la dernière version d'ici quelques heures.

--

Pour le post mortem à destination de ceux que ça intéresse :

Lemmy stocke par défaut les miniatures et images fédérées via toutes les instances en local.

À la création de l'instance, la place donnée par les créateurs de lemmy nécessaire au bon fonctionnement d'une instance était aux alentours de 40gb.

À partir de cette information, j'ai dimensionné l'instance avec ce qu'on peut considérer être un petit disque, mais en RAID pour pouvoir être plus rapide, d'une taille d'environ 500gb, donnant tout de même une marge de x10 par rapport aux specs demandées.

Il s'avère qu'avec l'essor de lemmy et sa popularité, le stockage d'image prend maintenant aux alentours des 350gb, pour environ 3 500 000 objets, saturant ainsi l'espace disque et rendant l'instance instable.

Ceci arrivant bien évidemment la veille de mes vacances loin de chez moi, j'ai tenté de faire un peu de place avant de partir, mais cela n'a pas été suffisant.

Afin de pouvoir avoir un peu de marge de manœuvre à mon retour, j'ai dû faire encore une fois le ménage et tout couper pour garder de l'espace pour pouvoir tout simplement faire quoi que ce soit sur l'instance.

L'opération principale étant la migration de toutes ces images gérées par le service pict-rs de lemmy du disque vers un service cloud, qui a été très laborieux, la version de pict-rs utilisée étant complètement cassée au niveau de la migration.

J'ai donc dû mettre à jour la version de pict-rs et la migration s'est ensuite, a priori, passée sans plus de problème.

Maintenant que l'opération pompier est terminée, je vais profiter des différents ponts pour mettre en place des alertes qui fonctionnent mieux, et tenter de fiabiliser un peu plus l'instance.

-- MAJ du 27/04 à 16h33

La migration vers la version 0.19.11 est maintenant faite, n'hésitez pas à remonter tout problème.

41 comments
  • Merci pour le travail et les infos !

    Question : Y a-t-il un endroit où on peut savoir ce qu'il se passe quand l'instance est down ? Parce qu'en l'absence d'info je suis allé sur Reddit, j'ai posté sur r/askfrance pour juste demander si quelqu'un savait quelque chose, et un modérateur m'a aimablement répondu qu'il n'était pas là pour faire votre maintenance et a supprimé mon post 😮‍💨

    • un modérateur m'a aimablement répondu qu'il n'était pas là pour faire votre maintenance et a supprimé mon post 😮‍💨

      C’est pas bien mais ça m’a fait rire 😅

      Outre le [email protected] il y a Matrix, @[email protected] est en train de faire un truc qui rassemble les instances lemmy/piefed francophones, il communiquera quand ce sera prêt. Mais c’est probablement le meilleur endroit pour avoir une info en "temps réel"

      • C'est prêt. Il ne manque plus grand chose. J'ai fais une réorganisation de l'espace matrix :)

      • Merci pour les infos ! 😄

      • Y a-t-il une quelconque autre instance hébergée en France ne requérant pas de lettre de motivation ni de passer par Cloudflare sur laquelle je pourrais m'inscrire pour intéragir avec jlailu_statut ?

    • Mince...désolé pour la mésaventure...c'est pour cela qu'on recommande d'avoir un alt pour suivre la commu de secour sur sh.itjust.works

      Nous avons aussi un espace matrix pour discuter :)

      https://matrix.to/#/#forumversefr:matrix.org

      • Ça pourrait peut-être être ajouté sur la page d'accueil quand l'instance est indisponible.

  • Merci beaucoup pour le support et le temps investi dans ce message !

    Est-ce qu’il y aurait du sens à ce qu’il y ait plusieurs infogérants pour jlai.lu ? Via une association ?

    • Association ou pas, la question est plus technique et de confiance.

      Une personne qui aura les droits techniques pour faire ce genre d'opération aura aussi les droits pour tuer l'instance ou la casser de manière définitive.

      Mettre en place un système avec des gardes fous avant de donner des clés à quelqu'un est assez compliqué et se rapproche plus de ce qu'on trouve dans des entreprises que dans le cadre de ce genre de service malheureusement.

  • Regarde @[email protected], Dieu me parle !

    (image host en dehors de Lemmy et c'est une reference à une conversation sur Matrix).

    Merci Anansi pour le super boulot !

  • Merci pour le travail de l’ombre et pour les explications ! :)

  • Merci pour les infos :)

    Au final je ferais pas de publi aujourd'hui j'attendrais la maj de lemmy. Tout les images s'affichent. Ya juste le téléversement d'image qui bloque et pe celle qui date de 6 mois..

    Résolu, on est bon pour la maj de Lemmy. :)

  • Merci !

    En espérant que les commentaires de la photo du chat et du suricate n'auront vexé personne !

41 comments