某天准备下班了,突然接到客户电话说在aCloud上的部分业务出现问题,访问不了。说好的准时下班又泡汤了
①打开我的EasyConnect,登录客户的aCloud,发现一部分虚拟机内存使用率非常高,都是95%以上的
②看了一下日志发现虚拟机在13点以后就一直异常的重启
③在控制台关闭虚拟机电源重新打开发现虚拟机出现了异常挂起的报错,像这种报错一般是存储连接不上或者存储空间满了
④检查存储连接发现存储连接都是正常的,能访问到存储里面的内容,存储容量显示都正常,没有使用满,但是在测速中发现居然测试存储速度出现了异常
⑤登录外置存储,查看磁盘状况发现存储居然都没空间了,可用的空间居然只剩11G,导致存储没有空间了虚拟机就会异常挂起了,由于存储总空间才有18T的容量,但是存储划分的卷是使用精简分配的,两个卷划分的容量已经超过了存储的总空间,所以导致存储空间使用完
⑥既然存储满了就做迁移吧,不能写入但是读取是没有影响的,通过aCloud把这个存储上的虚拟机迁移到其他存储去
⑦迁移完成后需要到存储中进行清理一下残留的虚拟机垃圾,但是发现居然都扫描不到垃圾
⑧迁移了几台虚拟机后发现存储的空间还是没得到释放,后面再排查发现精简模式划分的卷存储不会做资源回收,也就是说我存储有10T的空间用满了,我迁移走了5T的数据,在超融合层面我们看到释放了5T的空间,但是存储层面是看不到释放的空间,导致存储一直在满载状态,坑得我好苦 释放的空间还是可以被使用超融合使用的,只是在存储层面上看不到释放而已,实际上还是能用这些空间的 由于这个存储划分了两个卷,有一个卷是3.2T的。只能把3.2T的数据全部迁移走,然后在存储中直接把这个卷给删掉把空间释放出来。 为什么是删除3.2T的卷而不删除16T的卷呢,是因为有台虚拟机的数据量有6.2T,没有那么大的空间装这个数据了,所以只能干掉3.2T的卷
⑨删完存储卷后漫长的等他存储把空间进行初始化,这个初始化速度不是一般的满,初始化了一个多小时才释放1T多的空间,经过漫长的4小时终于释放完空间了
⑩释放了几百G空间后aCloud挂在的存储就可以正常的测速读写的速度,也能正常的写内容进去了。存储空间初始化完成后还要做数据迁移,把两个存储的空间合理使用,平均一下虚拟机,不能一个存储差不多满载的使用
|