020-74523666

网站建设 APP开发 小程序

KNOWLEDGE/知识

分享你我感悟

您当前位置>主页 > 知识 > 软件开发 >

「B站崩了」火遍互联网,背后是复杂而脆弱的企

发表时间:2021-07-17 13:39

文章来源:ahao11

浏览次数:

没想到,哔哩哔哩崩溃了,整个互联网经历了一场深夜狂欢。

7月13日23时许,哔哩哔哩主站、App、小程序均出现接入故障,无法正常使用。页面提示“不顾一切加载数据”。哔哩哔哩的邻站A、锦江、豆瓣也有不同程度的故障,加载显示404、502等。

哔哩哔哩崩溃了,才让大家发现原来“小破站”的客流量是如此惊人。那些上不了网站、看不了直播视频的“哔哩哔哩难民”们,纷纷涌向知乎、微博、著名游戏网站NGA。“哔哩哔哩垮了”、“陈睿垮了”、“豆瓣垮了”等词迅速走红,就连b站的名梗“蒙上商”也率先在微博热搜,传遍全网,颇为壮观。

微博热搜

23时45分,哔哩哔哩的网页和App初步恢复正常访问,但直播、会员购买等部分版块以及站内部分互动、评论、投币等功能无法正常使用。

哔哩哔哩崩溃后,许多故障页面的截图在网上流传。然而,关于服务器故障的原因有很多说法。然而,最初的停电声明和后来的哔哩哔哩大厦/上海海云服务器中心起火的声明都很快被驳斥。

上海消防关于哔哩哔哩总部大楼火灾的传言

直到凌晨2点20分,哔哩哔哩正式发布声明,称部分服务器机房出现故障,无法进入。经过调查和修复,他们已经逐渐恢复正常。不过,哔哩哔哩方面并未透露具体原因。

服务器崩溃了几个小时,灾难恢复做得不好?

企业IT架构越来越复杂,这也意味着失败的原因往往是系统性的问题,难以单属性。在这次哔哩哔哩崩溃中,除了服务器故障之外,补救性备份方案没有得到迅速应用。

故障通常可以从两个方面来分析:硬件故障和软件故障——硬件故障是指机房、服务器等物理因素;而软件故障可能来自版本升级、代码bug等的影响。

虽然不同行业有差异,但大互联网平台的技术架构中,核心组件基本没有少。最简单的访问路径是客户端和网站之间的直接交互。例如,一个视频访问请求从客户端发出,经过一系列处理后,到达哔哩哔哩的前端、后端服务器、分布式存储等组件,然后哔哩哔哩处理请求后返回。

当晚发生的是哔哩哔哩死机,网友收到的页面大部分显示502,基本确认是服务器故障导致的。

但是,尚不清楚哪些服务器会出现故障。像哔哩哔哩这么大的视频平台,肯定是要上云的,也会采用公有云+私有云的架构。也就是说,发生故障的服务器可能在哔哩哔哩自己或托管的机房,或者在公共云服务提供商的机房。

如果你的机房出了问题,一个可能的原因是版本升级和网站维护失败,导致版本回滚的紧急解决方案。如果恰好是核心业务不在云上,运维人员人工修复需要很长时间。知乎回复“k8seasy”,称哔哩哔哩核心业务恢复时间约30分钟,几乎100%恢复,说明哔哩哔哩某核心组件崩溃,导致核心服务不可用。可能的原因是哔哩哔哩发布新版本时有一个bug。在不可用后,回滚到旧版本时没有承受访问压力,最后网站环境崩溃。

相关案例查看更多