跳转到内容

故事制作系统 铁路 监控和课外通知

云化图像管理服务由千千家网站和移动应用使用对许多客户而言,云化已成为管理图像上传、变换和交付的中心任务关键构件
正因如此,我们从地下建云服务我们非常强调可用性、可扩缩性和支持性,并极其认真地对待用户对我们的信心。
至今为止,我们一直非常满意 能力保持云 平均 > 99.99%恢复时间.
然而, 4月4日云服务中断数小时我们想解释发生了什么,我们的结论 和我们已经采取的步骤 保证不再发生
云性核心服务搭建 Ruby铁路.服务经过彻底测试,升级则全心全意处理正因如此,我们偏爱与 铁路3.0长长时间比摇船升级更新 铁路3.2.
数周前铁路发现安全漏洞和往常一样,我们想尽快应用安全修补铁路队停止释放线程3.0不得不升级到v3.2
实验室升级为铁路3.2并修改代码支持它(铁路升级常非后向兼容并破码前版本构建)。验证成千单元测试正确传递成功完成系统人工QA都顺利进行
原订4月4日升级同往常一样,我们逐步部署系统到所有制作服务器部署进展顺利系统部署后,我们在工作日对系统进行了额外智能测试并密切监视
欢乐放松入睡
大约凌晨1点 事物开始摇动
很明显 铁路3.2更改简单配置参数默认值- 响应缓存默认启动时返回某些缓存头
结果,经过长时服务请求后,部分服务器本地应用盘因缓存响应而满载这使得某些请求要求磁盘空间失效,视请求和响应大小而定。
令人不安的是,自动监控服务定期验证我们的APIs,执行请求需要极小磁盘空间并持续定期操作服务配置晚上通知工程队手机 但由于未检测出差错,未发送通知.
幸运的是 共同创建者小朋友 清晨把他叫醒自然查收件箱,理解有问题快速清除磁盘空间并修改铁路3.2缓存设置系统恢复完全工作
需要注意的是,在这5小时里 所有现有图像和变换图像均成功交付用户通过提供服务 和数万世界 CDN边缘点(Akamai+云前部分上传API通话在此段时间失败,
自然,我们立即开始改善 故障预防机制
磁盘空间测试加到QA列表中 磁盘异常使用监控加到紧急通知服务并增加范围更广的API请求 自动服务监控
归并 Twilio系统增强课外通知具体地说,工程队现在将 接收手机自动语音调用除前通知方法
公关页面优先级提升本页将包括自动监控细节和人工笔记
令我们高兴的是云化近2年操作中几乎零可用性问题网络服务不完美,
继续增强服务 并增加图像特征同时,我们会继续努力 使云端恢复时间 尽可能近100%
感谢您信任我们与您的图片
回顶

特征邮箱

Baidu
map