
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I 2026
Página 948
accuracy 0.97, macro F1 0.96, balanced
accuracy 0.9486; MoViNet+MLP: accuracy
0.96, macro F1 0.94) over I3D (accuracy 0.93,
macro F1 0.91), with a lower risk of missing
pain cases. In addition, the work highlights the
value of prioritizing clinically critical errors
and selecting thresholds that balance sensitivity
and false alarms carefully
Keywords: Computer vision, Facial
microexpressions, Pain detection, MoViNet,
I3D, Deep learning.
Sumário
A avaliação da dor na prática clínica depende
com frequência de escalas subjetivas, o que
reduz a precisão e aumenta a variabilidade
entre observadores. Este estudo desenvolveu e
avaliou um sistema de visão computacional
para detectar microexpressões faciais
associadas à dor em pacientes de 20 a 68 anos,
utilizando o dataset Pain Expressions
Multimodal Framework (PEMF). O pipeline
incluiu detecção e recorte do rosto,
normalização espacial e temporal dos frames e
extração de características espaço‑temporais
com uma rede MoViNet pré‑treinada,
complementada por descritores geométricos
derivados de Unidades de Ação faciais. Foram
comparadas duas estratégias: (i) um modelo
híbrido que combina atributos extraídos por
MoViNet com classificadores supervisionados
(MLP e XGBoost) e (ii) um modelo end‑to‑end
baseado na arquitetura I3D treinado
diretamente em sequências de vídeo. O
desempenho foi avaliado como classificação
binária dor/sem dor com F1‑macro e balanced
accuracy, considerando o desbalanceamento do
conjunto de teste (223 clipes). Os resultados
favoreceram os modelos híbridos
(MoViNet+XGBoost: acurácia 0.97, F1‑macro
0.96, balanced accuracy 0.9486;
MoViNet+MLP: acurácia 0.96, F1‑macro
0.94) em relação ao I3D (acurácia 0.93,
F1‑macro 0.91), com menor risco de omitir
casos com dor. Conclui-se que a abordagem
híbrida é promissora como suporte objetivo,
interpretável e ajustável para a avaliação
clínica, com integração quase em tempo real
em contextos biomédicos sensíveis.
Palavras-chave: Visão computacional,
Microexpressões faciais, Dor, MoViNet, I3D,
Aprendizado profundo.
Introducción
El dolor representa un estímulo sensorial y
emocional complejo en el estado fisiológico
humano. La International Association for the
Study of Pain (IASP) lo define como una
experiencia desagradable asociada a un daño
tisular real o potencial (Raja et al., 2020). En el
entorno clínico, el dolor es considerado un
signo vital, aumentando la necesidad de
evaluarlo con precisión para garantizar una
atención médica segura y eficaz (Fang et al.,
2025). Los métodos tradicionales de
evaluación, como la Escala Visual Analógica
(EVA) y la Escala Numérica del Dolor (NRS),
presentan limitaciones significativas debido a
su dependencia del estado cognitivo y
comunicativo del paciente, así como a la
variabilidad entre observadores (Ministerio de
Salud Pública del Ecuador, 2024). Estas
limitaciones se incrementan en poblaciones
vulnerables, como pacientes geriátricos,
sedados o con trastornos neurológicos.
Las microexpresiones faciales han sido
propuestas como un biomarcador objetivo para
la evaluación del dolor. El Facial Action Coding
System (FACS), desarrollado por Ekman y
Friesen, ofrece un marco sistemático para la
codificación de la actividad muscular facial
mediante unidades de acción (AUs), algunas
vinculadas consistentemente con la expresión
del dolor (Chaisiriprasert y Patchsuwan, 2025;
Ekman y Friesen, 1978). Los avances en
inteligencia artificial y visión por computadora
han permitido el desarrollo de sistemas
automáticos para analizar expresiones faciales a
partir de secuencias de video. Las redes
neuronales convolucionales tridimensionales
(CNN 3D) han demostrado desempeño
destacado en la modelación conjunta de