Linux > raid挂了,再也不这么信任raid了

2018-10-07

之前配过一台文件共享服务器,见

https://www.v2ex.com/t/223402

8块3t硬盘组raid6.18t空间。

之后由于实际业务的限制(动辄1个多G的稿子每次存盘都走网络?不存在的)

沦为了数据库/docker/备份文件服务器。

节前发现掉了一块盘。

根据之前替换raid盘的经验,不就是换个盘么rebuild么,国庆第一天换硬盘rebuild,最后一天来收货。

检查rebuild结果,完成,没报错,不错。

fstab去掉注释,重启,没问题,完美。

重启测试,没问题,太好了。

推回机位,重启,怎么这么慢……

升级docker,重启服务,读写错误?喵喵喵?逗我?

一看/prop/md0,挂了4个盘。

还好rebuild前在另一个服务器做过备份。

等国庆开工,再装一个服务器,准备GlusterFS。

结论:

  • 不用信任raid,软件再可靠,硬件不够可靠也没用。
  • raid的确还是比不raid靠谱,但千万别一次组太多盘,属于逗自己。
  • raid盘不能等出问题再换,要定期rebuild。
  • 能上分布式还是上分布式,单点永远不够可靠
点击登录