Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 901
CLASIFICACIÓN MULTICLASE DE ARRITMIAS CARDÍACAS MEDIANTE UN
MODELO HÍBRIDO CNN-1D + XGBOOST COMO APOYO AL DIAGNÓSTICO
CARDIOVASCULAR
MULTICLASS CLASSIFICATION OF CARDIAC ARRHYTHMIAS USING A CNN-1D +
XGBOOST HYBRID MODEL AS A SUPPORT TOOL FOR CARDIOVASCULAR
DIAGNOSIS
Autores: ¹Mateo Adrián Campaña Tacoaman y ²Luis Fernando Tipán Vergara.
¹ORCID ID:
https://orcid.org/0009-0002-4955-2642
²ORCID ID: https://orcid.org/0000-0001-5328-8755
¹E-mail de contacto: mcampana@institucional.edu.ec
²E-mail de contacto: ltipan@institucional.edu.ec
Afiliación: ¹*
2
*Universidad Politécnica Salesiana, (Ecuador).
Artículo recibido: 15 de Enero del 2026
Artículo revisado: 28 de Enero del 2026
Artículo aprobado: 06 de Febrero del 2026
¹Ingeniero en formación con experiencia en procesamiento de señales biomédicas y aprendizaje profundo.
²Ingeniero Electronico en Control graduado de la Escuela Politécnica Nacional, (Ecuador). Máster en Eficiencia Energética graduado de
la Escuela Politécnica Nacional, (Ecuador).
Resumen
Este trabajo presenta un sistema híbrido para la
clasificación automática de ritmos cardíacos a
partir de señales de electrocardiograma (ECG)
de 12 derivaciones. La propuesta combina una
red neuronal convolucional unidimensional
(CNN-1D) como extractor de características
profundas y un clasificador XGBoost como
etapa final de decisión. El sistema se evaluó
utilizando el conjunto de datos PTB-XL bajo
un esquema de partición estricta por paciente,
garantizando una estimación realista de la
capacidad de generalización interpaciente. El
estudio aborda un escenario de clasificación
multiclase que incluye cuatro ritmos
clínicamente relevantes: ritmo sinusal normal,
fibrilación auricular, taquicardia
supraventricular y bradicardia sinusal,
considerando el desbalance inherente entre
clases. Los resultados muestran que el enfoque
híbrido alcanza una exactitud balanceada del
76.11% y un AUC-ROC macro de 93.66%,
incrementando la sensibilidad en clases
minoritarias en comparación con una CNN
entrenada de extremo a extremo. El bajo
requerimiento computacional del sistema
(tamaño del modelo: 0.47 MB, tiempo de
inferencia: 116.53 ms) respalda su viabilidad
para implementación en entornos con recursos
limitados como herramienta de apoyo al
diagnóstico clínico.
Palabras claves: Arritmias, Clasificación
multiclase, CNN 1D, Electrocardiograma,
PTB-XL, XGBoost.
Abstract
This paper presents a hybrid system for the
automatic classification of heart rhythms based
on 12-lead electrocardiogram (ECG) signals.
The proposal combines a one-dimensional
convolutional neural network (CNN-1D) as a
deep feature extractor and an XGBoost
classifier as the final decision stage. The
system was evaluated using the PTB-XL
dataset under a strict patient partitioning
scheme to ensure a realistic estimate of
interpatient generalization ability. The study
addresses a multi-class classification scenario
that includes four clinically relevant rhythms:
normal sinus rhythm, atrial fibrillation,
supraventricular tachycardia, and sinus
bradycardia, considering the inherent
imbalance between classes. The results show
that the hybrid approach achieves a balanced
accuracy of 76.11% and a macro AUC-ROC of
93.66%, increasing sensitivity in minority
classes compared to an end-to-end trained
CNN. Furthermore, the system's low
computational requirements (model size: 0.47
MB, inference time: 116.53 ms) support its
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 902
viability for implementation in resource-
limited settings as a clinical diagnostic support
tool.
Keywords: Arrhythmias, Multi-class
classification, 1D CNN, Electrocardiogram,
PTB-XL, XGBoost.
Sumário
Este trabalho apresenta um sistema híbrido
para a classificação automática de ritmos
cardíacos a partir de sinais de
eletrocardiograma (ECG) de 12 derivações. A
proposta combina uma rede neural
convolucional unidimensional (CNN-1D)
como extrator de características profundas e
um classificador XGBoost como etapa final de
decisão. O sistema foi avaliado utilizando o
conjunto de dados PTB-XL sob um esquema de
partição estrita por paciente, garantindo uma
estimativa realista da capacidade de
generalização interpaciente. O estudo aborda
um cenário de classificação multiclasse que
inclui quatro ritmos clinicamente relevantes:
ritmo sinusal normal, fibrilação atrial,
taquicardia supraventricular e bradicardia
sinusal, considerando o desequilíbrio inerente
entre classes. Os resultados mostram que a
abordagem híbrida alcança uma exatidão
balanceada de 76.11% e um AUC-ROC macro
de 93.66%, incrementando a sensibilidade em
classes minoritárias em comparação com uma
CNN treinada de extremo a extremo. O baixo
requerimento computacional do sistema
(tamanho do modelo: 0.47 MB, tempo de
inferência: 116.53 ms) respalda sua viabilidade
para implementação em ambientes com
recursos limitados como ferramenta de apoio
ao diagnóstico clínico.
Palavras-chave: Arritmias, classificação
multiclasse, CNN 1D, eletrocardiograma,
PTB-XL, XGBoost.
Introducción
Las enfermedades cardiovasculares constituyen
una de las principales causas de mortalidad a
nivel mundial, representando un problema
prioritario de salud pública. Según estimaciones
de la Organización Mundial de la Salud, este
grupo de patologías ocasiona más de veinte
millones de muertes anuales. Su impacto es
particularmente significativo en países de
ingresos bajos y medios, donde las limitaciones
en el acceso a diagnóstico oportuno
incrementan la carga social y económica
asociada (World Health Organization, 2023).
Dentro de este conjunto de patologías, las
arritmias cardíacas constituyen un desafío
clínico importante debido a su diversidad y
complejidad diagnóstica. Estas alteraciones se
originan por fallas en la generación o
conducción de los impulsos eléctricos del
corazón. Entre las más comunes se incluyen el
ritmo sinusal anómalo, las taquicardias
supraventriculares, la fibrilación auricular y las
bradicardias (Rajpurkar et al., 2017; Kirchhof et
al., 2016). La presencia de fibrilación auricular
y otras taquiarritmias se asocia con un aumento
significativo del riesgo de accidente
cerebrovascular, insuficiencia cardíaca y
muerte súbita, especialmente cuando no se
detectan de manera temprana (Rajpurkar et al.,
2017; Kirchhof et al., 2016).
El presente estudio aborda el problema como
una tarea de clasificación multiclase restringida
a cuatro ritmos cardíacos: ritmo sinusal normal,
fibrilación auricular, taquicardia
supraventricular y bradicardia sinusal. Esta
delimitación permite evaluar el desempeño del
sistema en un escenario de clasificación de
ritmo a nivel de registro completo (Rajpurkar et
al., 2017). Un desafío principal radica en la
naturaleza asintomática de numerosas arritmias
durante sus etapas incipientes, lo que entorpece
su identificación temprana. Esta carencia de
signos clínicos provoca un retraso en la
aplicación de terapias, afectando la estabilidad
hemodinámica y el pronóstico del individuo
(Kirchhof et al., 2016). De ahí que la detección
precoz constituya una prioridad. En este marco,
la ingeniería biomédica aporta innovaciones
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 903
tecnológicas que fortalecen los protocolos de
asistencia diagnóstica. El electrocardiograma
(ECG) permanece como el estándar de oro
clínico por su bajo costo, disponibilidad y
naturaleza no invasiva. El uso de registros
multiderivación permite un análisis detallado de
la propagación del frente de onda y la actividad
bioeléctrica del corazón. No obstante, la
interpretación de estas señales presenta un
componente subjetivo considerable, limitación
que se acentúa al procesar registros extensos o
señales degradadas por ruido. El análisis
manual resulta ineficiente y vulnerable a la
variabilidad interobservador (Schläpfer y
Wellens, 2017).
Recientemente, las metodologías basadas en
aprendizaje profundo han demostrado alta
eficacia en el procesamiento automatizado de
señales ECG. En particular, las redes
neuronales convolucionales unidimensionales
(CNN-1D) destacan por su capacidad para
extraer representaciones jerárquicas a partir de
la señal cruda, prescindiendo de la extracción
manual de características. Estas arquitecturas
logran capturar patrones morfológicos
complejos asociados a diferentes tipos de
arritmias (Rajpurkar et al., 2017; Hannun et al.,
2019; Strodthoff et al., 2020). Sin embargo, el
aumento del desempeño predictivo suele ir
acompañado de un incremento considerable en
la complejidad de los modelos. Arquitecturas
profundas que incorporan bloques residuales o
mecanismos de atención requieren mayores
recursos computacionales y tiempos de
inferencia prolongados (He et al., 2016;
Vaswani et al., 2017). Estas características
limitan su implementación práctica en
contextos clínicos con restricciones de
infraestructura tecnológica.
Adicionalmente, las bases de datos clínicas
presentan un desbalance natural entre clases. En
repositorios como PTB-XL, el volumen de
registros de ritmo sinusal normal supera
considerablemente a aquellos de arritmias con
menor frecuencia. Esta disparidad induce
sesgos en los modelos de aprendizaje
automático, limitando su sensibilidad para
identificar patologías minoritarias (Wagner et
al., 2020). Como alternativa, se han
desarrollado modelos híbridos que combinan
redes neuronales convolucionales con
algoritmos clásicos de aprendizaje automático.
En estos esquemas, la CNN actúa como
extractor automático de características
profundas, mientras que la clasificación final se
delega a modelos más ligeros. Entre estos,
XGBoost ha demostrado un desempeño
consistente debido a su capacidad para modelar
relaciones no lineales, su tolerancia al
desbalance de clases y su eficiencia
computacional (Strodthoff et al., 2020; Chen y
Guestrin, 2016). A partir de estas
consideraciones, la presente investigación se
enfoca en el desarrollo y validación de una
arquitectura híbrida para la clasificación
automática de arritmias cardíacas. La propuesta
integra una red CNN-1D como extractor de
descriptores profundos y un clasificador
XGBoost como paso final de decisión, aplicada
al conjunto de datos PTB-XL. Se prioriza la
detección de cuatro entidades clínicas básicas
bajo un esquema de validación estricta por
paciente, buscando un equilibrio entre precisión
diagnóstica y eficiencia computacional.
Materiales y Métodos
El estudio se desarrolló mediante un enfoque
cuantitativo de carácter aplicado y exploratorio,
empleando un diseño no experimental de tipo
transversal basado en el análisis de datos
secundarios. La investigación se orientó a la
comparación técnica de dos arquitecturas: una
red CNN-1D entrenada bajo el paradigma end-
to-end, y un modelo híbrido donde la CNN-1D
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 904
actúa como extractor automático de
descriptores, delegando la clasificación final a
XGBoost. La evaluación del desempeño se
llevó a cabo mediante métricas globales y
macro-promediadas, empleando un esquema de
separación estricta por paciente. Este
procedimiento permitió estimar de forma
realista la capacidad de generalización
interpaciente, evitando la fuga de información
entre los conjuntos de entrenamiento,
validación y prueba (Goodfellow et al., 2016;
Raschka, 2018).
Los experimentos se ejecutaron en una
computadora portátil Lenovo IdeaPad 3,
equipada con una unidad de almacenamiento
sólido Kingston NV2 y una memoria RAM total
de 20 GB. Las limitaciones de este entorno
computacional influyeron en la frecuencia de
muestreo adoptada, la profundidad de la
arquitectura propuesta y la estrategia de
validación implementada. Este enfoque busca
reflejar condiciones realistas de
implementación, acordes con escenarios
clínicos donde no se dispone de infraestructura
de alto rendimiento (McMahan et al., 2017). Se
utilizó el conjunto de datos PTB-XL, el cual
contiene registros de electrocardiograma de 12
derivaciones con una duración aproximada de
diez segundos y anotaciones diagnósticas a
nivel de registro (Wagner et al., 2022). A partir
de dichas anotaciones se definió un escenario de
clasificación multiclase conformado por cuatro
ritmos clínicamente relevantes: ritmo sinusal
normal (SR), fibrilación auricular (AFIB),
taquicardia supraventricular (STACH) y
bradicardia sinusal (SBRAD).
La selección de estas categorías responde a su
elevada prevalencia clínica y utilidad funcional
en los procesos de triaje electrocardiográfico.
En estos entornos, resulta prioritario
discriminar con precisión entre los registros
normales y aquellas arritmias con impacto
potencial sobre la morbilidad cardiovascular.
En el conjunto PTB-XL, un mismo registro
puede presentar más de una etiqueta
diagnóstica. Con el objetivo de asignar una
única clase por registro, se estableció un criterio
de priorización clínica: fibrilación auricular
(AFIB), taquicardia supraventricular (STACH),
bradicardia sinusal (SBRAD) y ritmo sinusal
normal (SR). Esta jerarquización se fundamenta
en el impacto diferencial de dichas arritmias
sobre el riesgo cardiovascular (Wagner et al.,
2022; Hong et al., 2020; January et al., 2019).
Luego del proceso de limpieza y mapeo de
etiquetas, el flujo experimental utilizó un
subconjunto de 11,735 registros,
correspondientes a aquellos que cumplieron los
criterios de selección y la partición estricta por
paciente. El flujo metodológico implementado
comprendió las siguientes etapas secuenciales:
Carga de las señales ECG y metadatos del
conjunto PTB-XL
Selección de registros con etiquetas válidas
a nivel de ritmo cardíaco
Mapeo de las etiquetas originales a las
cuatro clases definidas
Resolución de registros con múltiples
etiquetas mediante criterio de priorización
Preprocesamiento de las señales (filtrado,
normalización y remuestreo)
Partición estricta del conjunto de datos por
paciente
Entrenamiento de la red CNN-1D y
obtención de representaciones latentes
Aplicación de TomekLinks y ponderación
por clase
Ajuste de hiperparámetros, entrenamiento
y validación del clasificador XGBoost
Cada derivación fue sometida a un filtrado pasa-
banda con frecuencias de corte entre 0.5 Hz y
45 Hz, para atenuar desplazamientos de la línea
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 905
base y reducir ruido muscular. Este rango
permite conservar la información fisiológica
relevante de las ondas P, complejos QRS y
ondas T. Posteriormente, se aplicó una
normalización tipo z-score de manera
independiente por derivación, garantizando una
media cercana a cero y una desviación estándar
unitaria. Esta estrategia favorece la estabilidad
del entrenamiento de la red neuronal (Hannun
et al., 2019; Yildirim, 2018). Las señales
originales fueron remuestreadas de 500 Hz a
100 Hz, manteniendo una duración de diez
segundos por registro. Esta decisión se
fundamenta en evidencias que demuestran que
los componentes morfológicos esenciales del
ECG se mantienen íntegros a frecuencias
iguales o superiores a 100 Hz (Strodthoff et al.,
2020; Wagner et al., 2022). Se adoptó un
esquema de 56/14/30 para entrenamiento,
validación y prueba, orientado a una evaluación
interpaciente más rigurosa. La asignación de un
porcentaje mayor al estándar para el grupo de
prueba responde a la necesidad de obtener
estimaciones de desempeño más estables y
representativas de la variabilidad fisiológica
interindividual (Goodfellow et al., 2016;
Yildirim, 2018).
Tabla 1. Distribución final de los datos por
subconjunto
Subconjunto
Porcentaje (%)
Entrenamiento
56
Validación
14
Prueba
30
Fuente: Elaboración propia
La arquitectura de la CNN-1D fue diseñada para
realizar una extracción progresiva de atributos
relevantes a partir de señales ECG
multiderivación. Se estructuró mediante cuatro
bloques convolucionales dispuestos
jerárquicamente, permitiendo que el modelo
capture patrones morfológicos desde niveles
básicos hasta representaciones de mayor
abstracción. El bloque inicial incorpora un
módulo inspirado en la arquitectura Inception,
el cual emplea tres ramas de convolución
paralelas con 32 filtros cada una. Esta
configuración multiescala resulta adecuada para
el procesamiento de señales ECG, ya que
permite detectar características temporales de
distinta duración. La profundidad de la
arquitectura se incrementó gradualmente en los
bloques posteriores, configurando capas con 64,
128 y 192 filtros respectivamente. Cada bloque
convolucional integra normalización por lotes
(Batch Normalization) y funciones de
activación ReLU. Se implementaron
conexiones residuales para favorecer la
propagación del gradiente durante el
entrenamiento (Chen y Guestrin, 2016).
Adicionalmente, se incorporaron módulos
Squeeze-and-Excitation, los cuales permiten
recalibrar dinámicamente la relevancia de las
características extraídas (Hu et al., 2018). Una
vez concluida la fase de extracción jerárquica,
se empleó una capa de Global Average Pooling.
Posteriormente, el flujo converge en una capa
densa encargada de proyectar los atributos
aprendidos hacia un vector latente de 64
dimensiones, denominado embedding. La
arquitectura consolida aproximadamente 1.3
millones de parámetros entrenables.
Table 2. Resumen de la arquitectura CNN-1D
propuesta
Bloque / Elemento
Filtros / Unidades y operación
Bloque Inception 1
32 filtros en tres ramas paralelas
para detectar patrones temporales de
distinta duración
Bloque 2
64 filtros con conexión residual
Bloque 3
128 filtros con conexión residual
Bloque 4
192 filtros con conexión residual
Global Average Pooling
Reducción de los mapas de
activación a vector de 384
dimensiones
Capa Densa Final
64 unidades (embedding) con
activación ReLU y dropout
Capa de Salida
4 unidades con función Softmax
para clasificación multiclase
Fuente: Elaboración propia
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 906
La incorporación de XGBoost como etapa final
se fundamenta en su capacidad para construir
fronteras de decisión estables sobre espacios
latentes. Este enfoque resulta adecuado en
escenarios con desbalance entre clases, ya que
XGBoost admite esquemas de ponderación que
favorecen la detección de categorías
minoritarias. El clasificador fue entrenado
utilizando como entrada los vectores latentes de
64 dimensiones generados por la CNN-1D.
Previo al entrenamiento, estos embeddings
fueron estandarizados. Se aplicó el algoritmo
TomekLinks exclusivamente sobre el conjunto
de entrenamiento, permitiendo identificar y
eliminar pares de muestras pertenecientes a
clases opuestas que presentan alta similitud.
Adicionalmente, se incorporó un esquema de
ponderación por clase durante el entrenamiento,
asignando mayor peso a las arritmias
minoritarias. El modelo XGBoost se configuró
como un ensamble de 600 árboles de decisión,
con una profundidad máxima de 5 niveles y una
tasa de aprendizaje de 0.03 (Raschka, 2018;
Hong et al., 2020).
Tabla 3. Configuración de hiperparámetros
para XGBoost
Parámetro
Valor asignado
n_estimators
600
max_depth
5
learning_rate
0.03
subsample
0.85
colsample_bytree
0.85
min_child_weight
1
gamma
0.05
objective
multi:softprob
eval_metric
mlogloss
Fuente: Elaboración propia
Resultados y Discusión
El desempeño del sistema propuesto fue
evaluado mediante un esquema de partición
estricta por paciente. Se analizaron dos
enfoques: una red CNN-1D entrenada de
extremo a extremo y un modelo híbrido en el
que la CNN-1D actúa como extractor de
características, delegando la decisión final a
XGBoost.
Tabla 4. Métricas de desempeño global del
modelo CNN
Métrica
Accuracy
Balanced Accuracy
Precision (macro)
Recall (macro)
F1-score (macro)
Fuente: Elaboración propia
Los resultados indican que el modelo CNN-1D
presenta un desempeño consistente,
manteniendo un equilibrio entre precisión y
sensibilidad. El valor de exactitud balanceada
evidencia una capacidad adecuada para
discriminar tanto el ritmo sinusal normal como
las arritmias de menor prevalencia. El análisis
cuantitativo de la matriz de confusión permite
identificar las regiones de incertidumbre del
modelo. Se observa que el Ritmo Sinusal (SR)
presenta el desempeño más sólido con 2847
aciertos; no obstante, las discrepancias más
recurrentes se manifiestan en la clasificación
errónea de 53 registros de STACH y 59 de
SBRAD como SR. Estas imprecisiones
responden a la convergencia de estos ritmos en
el espacio de características latentes. La
detección de Fibrilación Auricular (AFIB)
alcanza 173 aciertos, aunque registra una
confusión notable con el SR (54 casos), lo que
subraya la dificultad del algoritmo para
discriminar ciertas firmas electrofisiológicas
cuando la señal presenta ruido o morfología de
onda P débil.
Resultados del modelo híbrido CNN +
XGBoost
El enfoque híbrido obtuvo los siguientes
resultados globales:
Accuracy: 85.26%
Balanced Accuracy: 76.11%
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 907
Precision (macro): 62.34%
Recall (macro): 76.11%
F1-score (macro): 66.44%
AUC-ROC macro (OvR): 93.66%
Resultados globales del modelo CNN
En el conjunto de prueba, el modelo CNN
alcanzó los siguientes resultados globales:
Accuracy: 90.57%
Balanced Accuracy: 69.56%
Precision (macro): 73.11%
Recall (macro): 69.56%
F1-score (macro): 71.17%
AUC-ROC macro (OvR): 94.90%
Tabla 5. Métricas de desempeño del modelo
CNN + XGBoost
Métrica
Valor
Accuracy
85.26%
Balanced Accuracy
76.11%
Precision (macro)
62.34%
Recall (macro)
76.11%
F1-score (macro)
66.44%
AUC-ROC macro (OvR)
93.66%
Fuente: Elaboración propia
La evaluación del modelo híbrido sobre el
conjunto de prueba reveló un cambio
significativo en la dinámica de clasificación. Es
fundamental destacar que, aunque la exactitud
nominal es inferior a la del modelo CNN-1D
puro, la Exactitud Balanceada se incrementó de
forma notable, alcanzando un 76.11%. Este
comportamiento se explica por una mejora
sustancial en la sensibilidad de las clases
minoritarias; el modelo híbrido logró identificar
correctamente el 74% de los casos de AFIB y el
69% de las STACH, superando los valores
obtenidos por la arquitectura convencional. Un
hallazgo fundamental es la superioridad del
paradigma híbrido en la detección de AFIB,
logrando 180 aciertos frente a los 173
registrados por la CNN end-to-end. Este
incremento fortalece la integridad del triaje
clínico ante una patología donde la omisión
diagnóstica conlleva riesgos severos. La
bradicardia sinusal presenta 90 aciertos,
mejorando significativamente respecto a los 62
del modelo previo.
Análisis de eficiencia computacional
Tabla 6: Comparación de eficiencia
computacional
Métrica
CNN-1D
CNN-1D +
XGBoost
Tamaño del
modelo (MB)
15.94
0.4678
Tiempo de
inferencia (ms)
206.92
116.53
Fuente: Elaboración propia
El modelo híbrido presenta una reducción del
97.1% en el tamaño del modelo y una
disminución del 43.7% en el tiempo de
inferencia respecto al modelo CNN-1D puro.
Esta eficiencia computacional favorece
significativamente su implementación en
dispositivos con recursos limitados, tales como
sistemas de monitoreo ambulatorio,
herramientas de telemedicina y aplicaciones de
diagnóstico asistido en entornos clínicos con
infraestructura tecnológica restringida.
Conclusiones
A partir de los resultados obtenidos y su
análisis, se pueden establecer las siguientes
conclusiones sobre el sistema híbrido propuesto
para la clasificación automática de arritmias
cardíacas:
La característica principal de la
metodología empleada radica en la
combinación efectiva de extracción
profunda de características mediante CNN-
1D y clasificación robusta con XGBoost,
logrando una exactitud balanceada del
76.11%, superior al modelo CNN puro
(69.56%). El modelo híbrido demostró
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 908
mayor sensibilidad en la detección de
clases minoritarias, específicamente
fibrilación auricular (180 aciertos vs 173) y
bradicardia sinusal (90 aciertos vs 62),
aspectos críticos en el contexto clínico.
La eficiencia computacional del sistema
híbrido, con una reducción del 97.1% en el
tamaño del modelo y 43.7% en el tiempo de
inferencia, respalda su viabilidad para
implementación en entornos con recursos
limitados. El esquema de validación
estricta por paciente garantizó una
estimación realista de la capacidad de
generalización interpaciente, evitando
sesgos por fuga de información entre
conjuntos de datos.
Las estrategias de TomekLinks y
ponderación por clase demostraron
efectividad para mitigar el desbalance
inherente del conjunto de datos PTB-XL,
mejorando la equidad en la detección de
arritmias minoritarias. La metodología
propuesta establece una base técnica sólida
para el desarrollo de herramientas de apoyo
al diagnóstico cardiovascular en sistemas
de telemedicina y entornos de primer nivel
de atención.
Referencias Bibliográficas
Chen, T. (2016). XGBoost: A scalable tree
boosting system. Proceedings of the 22nd
ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining,
785794.
Goodfellow, I. (2016). Deep Learning. MIT
Press.
Hannun, A. (2019). Cardiologist-level
arrhythmia detection and classification in
ambulatory electrocardiograms using a deep
neural network. Nature Medicine, 25(1), 65
69.
He, K. (2016). Deep residual learning for image
recognition. Proceedings of the IEEE
Conference on Computer Vision and Pattern
Recognition, 770778.
Hong, S. (2020). Opportunities and challenges
of deep learning methods for
electrocardiogram data: A systematic
review. Computers in Biology and Medicine,
122, 103801.
Hu, J. (2018). Squeeze-and-excitation
networks. Proceedings of the IEEE
Conference on Computer Vision and Pattern
Recognition, 71327141.
January, C. (2019). 2019 AHA/ACC/HRS
focused update of the 2014 AHA/ACC/HRS
guideline for the management of patients
with atrial fibrillation. Journal of the
American College of Cardiology, 74(1),
104132.
Kirchhof, P. (2016). 2016 ESC Guidelines for
the management of atrial fibrillation.
European Heart Journal, 37(38), 28932962.
McMahan, B. (2017). Communication-efficient
learning of deep networks from
decentralized data. Artificial Intelligence
and Statistics, 12731282.
Rajpurkar, P. (2017). Cardiologist-level
arrhythmia detection with convolutional
neural networks. arXiv.
https://arxiv.org/abs/1707.01836
Raschka, S. (2018). Model evaluation, model
selection, and algorithm selection in machine
learning. arXiv.
https://arxiv.org/abs/1811.12808
Schläpfer, J. (2017). Computer-interpreted
electrocardiograms: Benefits and limitations.
Journal of the American College of
Cardiology, 70(9), 11831192.
Strodthoff, N. (2020). Deep learning for ECG
analysis: Benchmarks and insights from
PTB-XL. IEEE Journal of Biomedical and
Health Informatics, 25(5), 15191528.
Vaswani, A. (2017). Attention is all you need.
Advances in Neural Information Processing
Systems, 30.
Wagner, P. (2020). PTB-XL, a large publicly
available electrocardiography dataset.
Scientific Data, 7(1), 154.
Wagner, P. (2022). PTB-XL+, a comprehensive
electrocardiographic feature dataset.
Scientific Data, 9(1), 391.
World Health Organization. (2023).
Cardiovascular diseases (CVDs). WHO Fact
Ciencia y Educación
(L-ISSN: 2790-8402 E-ISSN: 2707-3378)
Vol. 7 No. 1.1
Edición Especial I
Página 909
Sheets. https://www.who.int/news-
room/fact-sheets/detail/cardiovascular-
diseases
Yildirim, Ö. (2018). A novel wavelet sequence
based on deep bidirectional LSTM network
model for ECG signal classification.
Computers in Biology and Medicine, 96,
189202.
Esta obra está bajo una licencia de
Creative Commons Reconocimiento-No Comercial
4.0 Internacional. Copyright © Mateo Adrián
Campaña Tacoaman y Luis Fernando Tipán
Vergara.