注:本文内容来自专家朋友李豆的博客,原文链接在文末。

前言

本文讨论 RAID 卡温度及其潜在影响。

检查RAID卡温度

root@scanode1s:~# storcli64 /c0 show all |grep -i temp
Support Temperature = Yes
Temperature Sensor for ROC = Present
Temperature Sensor for Controller = Absent
ROC temperature(Degree Celsius) = 54
Model State Temp Mode MfgDate Next Learn
root@scanode1s:~#

按住本文灰色部分左右拖动,下同

其中ROC是我们需要关心的温度。 一般来说,温度的合理值在55摄氏度左右(注:仅供参考,与系统散热设计目标有关)。 目前机房空调不太好,也可能会升至60-80摄氏度。

如果ROC温度超过105摄氏度,从RAID卡的角度,你会看到类似下面的日志:

WARNING:Controller temperature threshold exceeded. This may indicate inadequate system cooling, switch to low performace mode.

这种情况是相当可怕的,可能会出现磁盘大规模丢失的情况。 我们曾经遇到过一位客户,冬天主动关掉了机房的空调。 结果很快就有一些磁盘从RAID组中离线了,RAID就成了一种情况。

因此,对于一台服务器来说,实时监控RAID卡的散热情况也是非常重要的。

影响 RAID 温度的因素

RAID卡温度的要素无外乎以下几个要素

●机房温度

风扇转速

●盘面业务压力

RAID组中一致性检查带来的磁盘I/O行为

注意,存在机房温度过高、风扇故障等问题,但如果没有磁盘I/O,基本上不会导致RAID温度太好。 我们多次遇到的RAID卡温度过高,都是散热条件不好。 我们遇到了很大的业务压力,遇到了一致性检查。 多种条件共同作用,最终导致RAID卡温度飙升。

如果发现机房散热条件不好,或者机器老化等因素,可以有针对性地调整一致性检查的速度和模式

●从字符串模式调整一致性检查的模式

●由默认30调整为15

●一致性检查时间可调整为夜间业务和气温较低时的12:00。

风扇速度

我们以AMD主板为例,风扇有一个相关的运行模式Fan Mode:

● 速度

●全速

● 速度

● 速度

风机按控制面积分为两类:

●CPU或风扇,一般标记为FAN0 FAN1 FAN2,命名方式为FAN+编号,这部分为0区

● 区域Fans,一般命名为FANA FANB FANC,命名方式为FAN+字母,该部分为Zone 1

风扇全速运行_cpu风扇那个是全速_cpu风扇转速全速

上面提到的四种模式:

●:BMC 同时控制两个区域,CPU 区域基于 CPU 温度(速度 50%),基于 PCH 温度的区域(速度 50%)

●:CPU 区域的 BMC(速度 30%),区域固定为低速(固定~30%)

●Full:所有风扇100%

● :BMC CPU 区域(速度 50%)和固定在 75% 的区域

如果像存储服务器一样,肯定不适合,而且不适合Full,因为太吵了,而且选项就两个,和。 如果想保守一点,可以选择Heavy IO,防止散热不好时RAID卡温度过高。

如何调整风扇速度和模式

调整风扇模式

我们以全速模式为例,如何将风扇调整为全速模式:

ipmitool 0x30 0x45 0x01 0x01

请注意,倒数第二个 0x01 代表区域:

●0x00表示zone 0,即负责CPU区域的风扇

●0x01表示区域1

最后的0x01表示模式:

●:0

●满:1

●:2个

●:4个

我们特意做一下测试,看看将风扇模式调整为Full的效果:

cpu风扇转速全速_cpu风扇那个是全速_风扇全速运行

调整到Full模式后,短时间内温度就下降了。

调整速度

虽然Full模式很开心,效果也很明显,但显然噪音很大。 因此,100%的风扇转速虽然很酷,但噪音却不能容忍。 怎么处理呢?

ipmitool raw 0x30 0x70 0x66 0x01 0x 0x

z 的合法值为 0 和 1,其中 0 表示区域 0,1 表示区域 1。

n的合法值是从0x00到0x64,即从0%到100%。

例如,我们认为100%的Full模式太吵了,75%的Heavy IO模式虽然不错,但太吵了。 我们可以将Zone1的百分比调整为60%。

 ipmitool raw 0x30 0x70 0x66 0x01 0x1 0x3C

总结

以下总结针对的是存储服务器,并不适用于所有应用场景

实时监控RAID卡温度,确保稳定运行

●风扇模式有4种,Full和两者都不宜,可选择Heavy IO

●如果您对速度不满意,可以通过命令调整速度,使其处于合理的范围内。

原文链接:

编者补充(唐僧)

在某些工作站型号上,由于默认的静音设计,在某些情况下可能会出现RAID卡过热的提示。 例如,我在 T7910 上遇到了 LSI 9361(带小散热器)。 有时重启时就报温度超标。 也可能与该机个别风扇效率低有关。

cpu风扇那个是全速_cpu风扇转速全速_风扇全速运行

由于塔式工作站上没有BMC,所以相关的风扇转速调节设置都在BIOS中。 我只是将 PCIe 插槽区域的自动控制级别拉至 +20 或 +30%。 下面列出的 BIOS 界面仅供参考:

风扇全速运行_cpu风扇转速全速_cpu风扇那个是全速

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注