用MediaPipe实现驾驶员疲劳监测系统

2026年5月31日，弗吉尼亚州I-95公路上发生一起惨烈车祸：一辆大巴在凌晨2:35冲入施工区，导致5人死亡，其中包括一家四口。司机被控过失杀人。这类事故多与疲劳驾驶有关——深夜、长途、单一环境，是人最容易犯困的场景。

作为开发者，与其做键盘侠谴责，不如想想技术能做什么。驾驶员疲劳监测系统（DMS）已经在高端车型上普及，但法规和成本让它还没覆盖到所有商用车。如果我们能用一个摄像头 + 几十行代码，在树莓派或手机端跑一个实时疲劳检测，是不是就能让更多车队用上？

本文会用 MediaPipe Face Mesh 提取468个面部关键点，实现三个核心指标：眼睑闭合率（PERCLOS）、打哈欠检测和头部持续低头/侧倾。全部代码可运行，附完整项目结构。最终你会得到一个能实时报警的本地 Demo，并可部署到 Jetson Nano 等边缘设备上。

1. 产品 Demo 效果展示

先看效果（假设你跑了代码）：

摄像头开启，实时显示人脸框；
左眼和右眼的纵横比（EAR）实时绘制成曲线；
当连续40帧EAR低于0.25（闭眼），触发“疲劳报警”；
当嘴巴纵横比（MAR）超过0.6且持续5帧，触发“打哈欠报警”；
当头部俯仰角（Pitch）低于-20度超过3秒，触发“低头报警”。

下图是典型报警画面（示意）。
driver fatigue detection alert face mesh

2. 技术选型

组件	选择	理由
人脸关键点	MediaPipe Face Mesh	轻量、跨平台、468点足够精确，CPU可跑30fps
图像处理	OpenCV	标准输入输出，与MediaPipe配合无缝
PERCLOS计算	基于EAR的滑动窗口	经典且计算量极低
部署硬件	Jetson Nano / 树莓派4B	成本低，算力够，适合车载
报警方式	声音+日志	用 winsound（Windows）或 os.system('play beep.wav'）

为什么不选深度学习模型直接分类？因为可解释性和调试成本。MediaPipe 关键点 + 阈值法在变化的光照下更鲁棒，且不需要标注数据。

3. 核心代码实现

3.1 安装依赖

bash

pip install opencv-python mediapipe numpy

3.2 眼睛纵横比（EAR）与嘴巴纵横比（MAR）

python

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

import cv2
import mediapipe as mp
import numpy as np
import time

mp_face_mesh = mp.solutions.face_mesh
face_mesh = mp_face_mesh.FaceMesh(static_image_mode=False,
                                  max_num_faces=1,
                                  refine_landmarks=True,
                                  min_detection_confidence=0.5)

# 眼部关键点索引（MediaPipe官方定义）
LEFT_EYE = [33, 160, 158, 133, 153, 144]
RIGHT_EYE = [362, 385, 387, 263, 373, 380]
MOUTH = [61, 39, 0, 269, 291, 405, 314, 17, 84, 181]  # 仅用于MAR计算

def eye_aspect_ratio(landmarks, eye_idx):
    # 计算EAR
    coords = [(landmarks[i].x, landmarks[i].y) for i in eye_idx]
    # 垂直距离 P2-P6 和 P3-P5
    vertical1 = np.linalg.norm(np.array(coords[1]) - np.array(coords[5]))
    vertical2 = np.linalg.norm(np.array(coords[2]) - np.array(coords[4]))
    # 水平距离 P1-P4
    horizontal = np.linalg.norm(np.array(coords[0]) - np.array(coords[3]))
    return (vertical1 + vertical2) / (2.0 * horizontal)

def mouth_aspect_ratio(landmarks):
    # 使用上嘴唇和下嘴唇的关键点计算MAR
    upper = np.array([(landmarks[61].x, landmarks[61].y),
                      (landmarks[39].x, landmarks[39].y)])
    lower = np.array([(landmarks[269].x, landmarks[269].y),
                      (landmarks[291].x, landmarks[291].y)])
    center = np.array([(landmarks[0].x, landmarks[0].y)])
    # 简化：计算上唇中心到下唇中心的距离与唇宽之比
    lip_width = np.linalg.norm(np.array([landmarks[61].x, landmarks[61].y]) -
                                np.array([landmarks[291].x, landmarks[291].y]))
    lip_height = np.linalg.norm(np.array([landmarks[0].x, landmarks[0].y]) -
                                 np.array([landmarks[17].x, landmarks[17].y]))
    return lip_height / (lip_width + 1e-6)

3.3 检测循环与报警逻辑

python

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

cap = cv2.VideoCapture(0)
EYE_CLOSE_THRESH = 0.25
CONSEC_FRAMES_CLOSE = 40
MAR_THRESH = 0.6
MAR_CONSEC = 5
HEAD_PITCH_THRESH = -20  # 角度

close_counter = 0
yawn_counter = 0
alert_triggered = False

while True:
    ret, frame = cap.read()
    if not ret:
        break
    rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
    results = face_mesh.process(rgb)

    if results.multi_face_landmarks:
        landmarks = results.multi_face_landmarks[0].landmark

        # 计算眼部EAR
        left_ear = eye_aspect_ratio(landmarks, LEFT_EYE)
        right_ear = eye_aspect_ratio(landmarks, RIGHT_EYE)
        ear = (left_ear + right_ear) / 2.0

        # 计算嘴巴MAR
        mar = mouth_aspect_ratio(landmarks)

        # 检测闭眼
        if ear < EYE_CLOSE_THRESH:
            close_counter += 1
            if close_counter >= CONSEC_FRAMES_CLOSE and not alert_triggered:
                print("⚠️ 疲劳驾驶！闭眼时间过长")
                # 播放警告音（Linux下）
                # os.system('speaker-test -t sine -f 1000 -l 1 & sleep 0.5; kill $!')
                alert_triggered = True
        else:
            close_counter = 0
            alert_triggered = False

        # 检测打哈欠
        if mar > MAR_THRESH:
            yawn_counter += 1
            if yawn_counter >= MAR_CONSEC:
                print("😮 检测到打哈欠，可能疲劳")
        else:
            yawn_counter = 0

        # 头部姿态估计（简化：使用鼻尖与双眼中点）
        # 这里需要PnP解算，但为了简洁，我们用俯仰角近似：
        # 实际项目中可以调用 mediapipe 的 pose 或单独模型
        # 本Demo略过详细代码，留作扩展

    cv2.imshow("DMS Demo", frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

注意：上面代码只展示了核心逻辑。完整项目包含了 EAR/MAR 实时曲线、头部姿态3D可视化、录音报警等功能，见下文项目结构。

3.4 头部姿态估计（核心补充）

头部持续低头是危险信号。MediaPipe 的 FaceMesh 返回的是归一化坐标，但我们可以用 solvePnP 求旋转向量。

python

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

import cv2
import numpy as np

# 世界坐标系中标准正面人脸关键点（单位mm）
object_pts = np.float32([
    [0.0, 0.0, 0.0],             # 鼻尖
    [0.0, -50.0, 30.0],          # 下巴
    [-30.0, 15.0, 15.0],         # 左眼外角
    [30.0, 15.0, 15.0],          # 右眼外角
    [-15.0, -15.0, -15.0],       # 左嘴角
    [15.0, -15.0, -15.0]         # 右嘴角
])

# 对应二维图像点（从MediaPipe landmarks中提取）
image_pts = np.float32([
    (landmarks[1].x * w, landmarks[1].y * h),   # 鼻尖
    (landmarks[152].x * w, landmarks[152].y * h), # 下巴
    (landmarks[33].x * w, landmarks[33].y * h),   # 左眼
    (landmarks[263].x * w, landmarks[263].y * h), # 右眼
    (landmarks[61].x * w, landmarks[61].y * h),   # 左嘴角
    (landmarks[291].x * w, landmarks[291].y * h)  # 右嘴角
])

camera_matrix = np.array([[w, 0, w/2],
                          [0, w, h/2],
                          [0, 0, 1]], dtype=np.float32)
dist_coeffs = np.zeros((4,1))

_, rvec, tvec = cv2.solvePnP(object_pts, image_pts, camera_matrix, dist_coeffs)
# 旋转向量转欧拉角
rotation_matrix, _ = cv2.Rodrigues(rvec)
pitch = np.degrees(np.arcsin(-rotation_matrix[2,1]))
yaw = np.degrees(np.arctan2(rotation_matrix[2,0], rotation_matrix[2,2]))
roll = np.degrees(np.arctan2(rotation_matrix[0,1], rotation_matrix[1,1]))

if pitch < -20:  # 向下低头超过20度
    print("⚠️ 低头过久，请保持正视")

head pose estimation pitch yaw roll

4. 项目结构和配置

text

1 2 3 4 5 6 7 8

driver_monitor/
├── main.py                 # 主循环
├── ear_calculator.py       # EAR/MAR计算函数
├── head_pose.py            # 头部姿态解算
├── alert.py                # 报警模块（声音+日志）
├── config.yaml             # 可调节参数
├── requirements.txt
└── beep.wav                # 报警音频文件

config.yaml 让参数不用改代码：

yaml

1 2 3 4 5 6 7 8 9 10 11

thresholds:
  eye_close_ear: 0.25
  consecutive_close_frames: 40
  yawn_mar: 0.6
  yawn_consecutive: 5
  head_pitch_lower: -20  # 度
  head_tilt_time: 3.0    # 秒
camera:
  device: 0
  width: 640
  height: 480

requirements.txt

text

1 2 3 4

opencv-python==4.8.0.74
mediapipe==0.10.7
numpy==1.24.3
pyyaml==6.0

运行：

bash

1 2

pip install -r requirements.txt
python main.py

5. 上线要注意的坑

5.1 光照与遮挡

夜间驾驶：红外摄像头是必须的（MediaPipe 支持红外，但需要调参）。普通RGB摄像头在黑暗下基本废掉。
墨镜：MediaPipe 对墨镜下的人脸关键点仍然有效（前提是能看到眼睛轮廓），但强反光镜片会降低精度。建议使用940nm近红外LED补光。

5.2 计算资源

MediaPipe 在树莓派4B上能以15-20fps运行（640x480）。如果同时做头部姿态解算（PnP），帧率下降到10fps。可以通过降低分辨率（320x240）或使用TensorRT加速（Jetson上）来缓解。
经验值：当帧率低于5fps时，连续闭眼判断会失效。因为间隔变长，闭眼的连续帧数容易被稀释。建议根据实际帧率动态调整 CONSEC_FRAMES_CLOSE。

5.3 隐私合规

国内需要《个人信息保护法》《汽车数据安全管理若干规定》：不允许本地长期存储视频流。报警日志可以只记录时间戳和指标，不保存原始图像。欧洲GDPR更严，必须明确告知驾驶员。
建议：所有处理在本地边缘完成，不上传云。即便要上传，最多传脱敏后的关键点坐标。

5.4 误报处理

眨眼是正常现象，40帧闭眼 ≈ 1.3秒（30fps），足够区分眨眼。
打哈欠可能是因为说话或大笑。可以结合头部姿态：如果同时低头 + 打哈欠，疲劳可信度更高。
策略：设计多模态融合评分，比如综合闭眼比例、打哈欠频率、头部低头时长，输出一个疲劳指数0-100。

6. 从事故到技术：我们能做什么

回到开头那起车祸。凌晨2:35，大巴在施工区未减速。如果该车配备了带有预警功能的 DMS，当检测到驾驶员闭眼超过2秒，系统可以：

发出刺耳警报；
自动开启双闪；
限制车速或触发紧急制动（与ADAS联动）。

这不是科幻。Mobileye 和博世已经有类似产品。但成本在千元级别，对老旧车型不友好。而本文给出的方案，硬件成本仅需一个USB摄像头（50元）+ 树莓派（300元），用开源代码就能跑。虽然没有车规认证，但作为车队管理的辅助工具，已经足够让管理者实时查看司机状态。

你可以把这个 Demo 扩展成 Web 端仪表盘，用 WebSocket 把警报推送到监控大屏。或者集成到已有的车辆CAN总线上（需要OBD适配器）。

最后说一句：技术无法复活逝者，但可以尽力让类似悲剧少发生。如果你刚好在做车队管理系统，或对车联网感兴趣，不妨把今天的代码下载下来跑一跑。哪怕只是在你自己的车上加一个USB摄像头做实验，也是一次有意义的尝试。

本文代码遵循 MIT 许可，可自由使用。完整项目托管在 GitHub: [链接]。如果你部署中遇到问题，欢迎在评论区留言。

用MediaPipe实现驾驶员疲劳监测系统

用MediaPipe实现驾驶员疲劳监测系统

1. 产品 Demo 效果展示

2. 技术选型

3. 核心代码实现

3.1 安装依赖

3.2 眼睛纵横比（EAR）与嘴巴纵横比（MAR）

3.3 检测循环与报警逻辑

3.4 头部姿态估计（核心补充）

4. 项目结构和配置

5. 上线要注意的坑

5.1 光照与遮挡

5.2 计算资源

5.3 隐私合规

5.4 误报处理

6. 从事故到技术：我们能做什么

花生博客