Predicción basada en aprendizaje automático del pronóstico de supervivencia en el carcinoma de células escamosas de esófago
HogarHogar > Blog > Predicción basada en aprendizaje automático del pronóstico de supervivencia en el carcinoma de células escamosas de esófago

Predicción basada en aprendizaje automático del pronóstico de supervivencia en el carcinoma de células escamosas de esófago

Aug 02, 2023

Scientific Reports volumen 13, número de artículo: 13532 (2023) Citar este artículo

362 Accesos

1 altmétrica

Detalles de métricas

Las herramientas de pronóstico actuales para el carcinoma de células escamosas de esófago (ESCC) carecen de la precisión necesaria para facilitar estrategias individualizadas de manejo del paciente. Para abordar este problema, se realizó este estudio para desarrollar un modelo de predicción de aprendizaje automático (ML) para el manejo de la supervivencia de los pacientes con ESCC. Se emplearon seis enfoques de aprendizaje automático, incluidos Rpart, Elastic Net, GBM, Random Forest, GLMboost y el método CoxPH ampliado con aprendizaje automático, para desarrollar modelos de predicción de riesgos. El modelo se entrenó en un conjunto de datos de 1954 pacientes con ESCC con 27 características clínicas y se validó en un conjunto de datos de 487 pacientes con ESCC. El rendimiento discriminativo de los modelos se evaluó mediante el índice de concordancia (índice C). Se utilizó el modelo de mejor rendimiento para la estratificación del riesgo y la evaluación clínica. El estudio encontró que el estadio N, el estadio T, el margen quirúrgico, el grado del tumor, la longitud del tumor, el sexo, el MPV, la AST, la FIB y el Mg son características importantes para la supervivencia de los pacientes con ESCC. El modelo CoxPH ampliado con aprendizaje automático, Elastic Net y Random Forest tuvieron un rendimiento similar en la predicción del riesgo de mortalidad de los pacientes con ESCC y superaron a GBM, GLMboost y Rpart. Las puntuaciones de riesgo derivadas del modelo CoxPH estratificaron eficazmente a los pacientes con ESCC en grupos de riesgo bajo, intermedio y alto con probabilidades de supervivencia general (SG) a 3 años claramente diferentes de 80,8%, 58,2% y 29,5%, respectivamente. Esta estratificación del riesgo también se observó en la cohorte de validación. Además, el modelo de riesgo demostró una mayor capacidad discriminativa y un beneficio neto que la octava etapa del AJCC, lo que sugiere su potencial como herramienta de pronóstico para predecir eventos de supervivencia y guiar la toma de decisiones clínicas. También se encontró que el algoritmo clásico del método CoxPH era suficientemente bueno para estudios interpretativos.

El cáncer de esófago (CE) es una de las neoplasias malignas más letales en todo el mundo con una naturaleza extremadamente agresiva y una baja tasa de supervivencia. Según las estadísticas mundiales sobre el cáncer, se estima que en 20181 se produjeron 572 000 casos nuevos y 509 000 muertes. En China, el carcinoma de células escamosas de esófago (ESCC) es el tipo histológico predominante y representa aproximadamente el 90 % de los casos. La ESCC se caracteriza por una progresión rápida y un mal pronóstico2,3, con una tasa de supervivencia a 5 años de sólo el 15,3% en estadios avanzados4. A pesar de los avances en las técnicas quirúrgicas y la incorporación de terapias multimodales en los últimos años, el pronóstico del ESCC sigue siendo insatisfactorio5. Ciertos biomarcadores para la predicción del pronóstico de ESCC podrían desempeñar un papel fundamental en el manejo clínico de cada paciente y tener implicaciones importantes en la elección del tratamiento médico óptimo para la prevención secundaria6,7,8,9. Sin embargo, actualmente faltan herramientas eficaces para el trabajo clínico diario. Por lo tanto, existe una necesidad urgente de identificar nuevos biomarcadores de pronóstico o desarrollar un modelo de predicción integrado para la predicción clínica.

Los modelos de predicción clínica que integran parámetros clínico-patológicos, índices de laboratorio y resultados de supervivencia utilizando grandes datos de grandes cohortes de pacientes tienen el potencial de guiar la toma de decisiones clínicas y los pronósticos terapéuticos10,11,12. A pesar de los importantes esfuerzos para explorar el pronóstico de la ESCC, los modelos de pronóstico actuales siguen siendo imperfectos13,14,15,16. Estudios anteriores se han centrado principalmente en la evaluación pronóstica de un pequeño número de indicadores clínicos mediante análisis univariados y multivariados14,15,16,17. Además, la mayoría de los modelos de predicción de ESCC se han desarrollado utilizando enfoques estadísticos tradicionales como la regresión de CoxPH o la regresión logística, sin mecanismos de evaluación adecuados para determinar el modelo con mejor rendimiento antes de su construcción13,14,15,16,17. Además, los tamaños de muestra y los predictores evaluados en estos estudios suelen ser limitados, lo que lleva a una reproducibilidad deficiente del rendimiento del modelo y a evidencia insuficiente para aplicaciones clínicas14,15,16,17. Por lo tanto, existe la necesidad de desarrollar modelos de predicción más completos y reproducibles para ESCC que puedan usarse de manera efectiva en la práctica clínica.

La aparición del aprendizaje automático ha presentado una posible solución al problema de la escasa reproducibilidad en el desarrollo de modelos de predicción clínica basados ​​en información clínica compleja18. El aprendizaje automático es un campo interdisciplinario que combina la informática y la estadística computacional para mejorar la eficiencia del pronóstico de enfermedades y la toma de decisiones terapéuticas. Los enfoques de aprendizaje automático pueden superar algunas de las limitaciones de los métodos analíticos actuales mediante la utilización de algoritmos informáticos para manejar variables multidimensionales, identificar relaciones no lineales entre las características clínico-patológicas y los resultados, y desarrollar modelos de predicción precisos de manera más eficiente11,19. Los algoritmos basados ​​en el aprendizaje automático se han aplicado ampliamente en la ciencia médica, particularmente en la predicción del diagnóstico y pronóstico del cáncer18. Por ejemplo, Abuhelwa et al.10 desarrollaron un modelo de aprendizaje automático para la predicción de la supervivencia en pacientes con cáncer urotelial (CU) tratados con atezolizumab, y encontraron que el modelo GBM superaba a otros modelos como CoxBoost, random forest y GLM en la predicción de la supervivencia de los pacientes. . D'Ascenzo et al.11 también desarrollaron una puntuación PRAISE basada en cuatro modelos de aprendizaje automático para la predicción de muerte por cualquier causa, infarto de miocardio y hemorragia mayor un año después del alta.

Desarrollar un modelo de predicción preciso es crucial para guiar la toma de decisiones clínicas, y la clave para lograrlo es identificar el algoritmo de mejor rendimiento. Hasta la fecha, ningún estudio ha empleado algoritmos de aprendizaje automático con indicadores de laboratorio para predecir el pronóstico en pacientes con ESCC. Por lo tanto, este estudio tiene como objetivo desarrollar un modelo de pronóstico utilizando seis enfoques diferentes de aprendizaje automático, que podrían usarse para facilitar estrategias individualizadas de manejo de pacientes.

El objetivo de este estudio fue investigar casos consecutivos de pacientes con ESCC recién diagnosticados que se sometieron a cirugía de esófago en el Hospital Oncológico de Sichuan entre enero de 2009 y diciembre de 2017. Los criterios de inclusión fueron los siguientes: (1) ESCC confirmado posthistológicamente sin metástasis a distancia, ( 2) cáncer de esófago no cervical, (3) sin terapia anticancerígena previa y (4) parámetros clínicos, sanguíneos y datos de seguimiento completos. Los criterios de exclusión fueron los siguientes: (1) con antecedentes de otras neoplasias malignas o mortalidad perioperatoria, (2) el cuello fue invadido por cáncer, (3) la información de seguimiento fue incompleta y (4) el seguimiento fue inferior a 6 meses.

Se inscribieron en el estudio un total de 2441 pacientes con ESCC y se dividieron aleatoriamente en dos conjuntos de datos. La cohorte de entrenamiento (80%) se utilizó para el desarrollo del modelo y el ajuste de parámetros, mientras que la cohorte de prueba (20%) se empleó para la validación del modelo. Todos los pacientes incluidos en el estudio fueron clasificados según el sistema de clasificación TNM de la octava edición del American Joint Committee on Cancer (AJCC).

Entre los casos elegibles, 27 predictores incluyeron características clínico-patológicas del paciente, indicadores de laboratorio y resultados de supervivencia que se recopilaron prospectivamente de los registros médicos. (1) características clínico-patológicas: edad, sexo, puntuación de la escala de desempeño de Karnofsky (KPS), longitud del tumor, grado del tumor, ubicación del tumor, invasión vascular, margen quirúrgico, número de ganglios linfáticos (LN) disecados, invasión nerviosa, estadio T, estadio N, AJCC8ª etapa, tratamiento. Las opciones de tratamiento principal incluyen intervención quirúrgica sola, seguida de quimioterapia adyuvante (CT), radioterapia (RT) y quimiorradioterapia concurrente (CCRT) después de la cirugía. Los métodos quirúrgicos para el cáncer de esófago incluyen la cirugía endoscópica (toracoscopia o laparoscopia) y la cirugía por toracotomía. Los regímenes de quimioterapia sincrónica para el cáncer de esófago generalmente incluyen monoterapia con agentes a base de platino, monoterapia con fluorouracilo, combinación de paclitaxel con agentes que contienen platino, combinación de cisplatino con fluorouracilo o capecitabina, combinación de paclitaxel con fluorouracilo o capecitabina y combinación de oxaliplatino con fluorouracilo o capecitabina. (2) indicadores de laboratorio: hematocrito (HCT), volumen medio de plaquetas (MPV), relación neutrófilos/linfocitos (NLR), monocitos (MONO), eosinófilos (EO), bilirrubina directa (DBIL), albúmina (ALB), aspartato aminotransferasa (AST), fosfatasa alcalina (ALP), sodio (Na), magnesio (Mg), fibrinógeno (FIB), relación linfocitos-monocitos (LMR). El resultado previsto fue la supervivencia general (SG), que se definió como el tiempo desde la fecha de la cirugía hasta la muerte o el último seguimiento. La capacidad predictiva del modelo se evaluó en 1, 3 y 5 años.

Para realizar el filtrado de variables se utilizó la regularización LASSO y el análisis de regresión de Cox univariable. La regularización LASSO podría penalizar los valores absolutos de algunos coeficientes hacia cero, por lo que eliminará las características menos importantes del modelo. Este método ha demostrado ser útil para la selección de características en problemas con una gran cantidad de covariables. Para el desarrollo posterior del modelo se utilizaron variables con valores de p inferiores a 0,05 en análisis univariables de Cox. La importancia clasificada de cada característica se calculó utilizando la importancia de la permutación, y las características óptimas se extrajeron después de ajustar los parámetros del modelo con un remuestreo de validación cruzada 10 veces utilizando el método de búsqueda secuencial hacia atrás del modelo final. Si permutar los valores de una característica reduce el poder discriminativo del modelo, se considera importante porque el modelo depende en gran medida de esa característica para hacer predicciones. Las características de alto rango se considerarán más relevantes y las de bajo rango podrían excluirse.

Seis algoritmos de aprendizaje automático que incluyen árboles de regresión y partición recursiva (Rpart), modelos lineales generalizados regularizados de Elastic Net (Elastic Net), máquina impulsada por gradiente (GBM), bosque de supervivencia aleatorio (randomForestSRC), impulso de gradiente con modelos lineales por componentes (GLMboost), y se utilizaron técnicas de aprendizaje automático con riesgos proporcionales de Cox extendidos (CoxPH) para ajustar modelos que predecían los resultados de supervivencia. Rpart es un algoritmo de árboles de clasificación, regresión y supervivencia basado en partición recursiva, que genera una estructura de árbol mediante partición binaria recursiva del conjunto de datos, y cada nodo hoja representa una categoría o un valor numérico. En el proceso de construcción del árbol de decisión, Rpart considera varias variables y puntos de partición, así como la poda, para que el modelo generado tenga una mejor capacidad de generalización y capacidad de predicción20. La regularización de red elástica es una solución flexible entre Ridge y Lasso, ya que combina penalizaciones L1 y L2 bajo un parámetro llamado alfa. Este método proporciona la fortaleza de ambos tipos de regularización, ya que el lazo optimiza la selección de características y la interpretabilidad, mientras que Ridge permite el efecto de agrupación21. GBM es un algoritmo de aprendizaje conjunto basado en árboles de decisión, que mejora la capacidad de predicción del modelo entrenando iterativamente una serie de árboles de decisión. GBM funciona bien en muchas tareas de aprendizaje automático, incluidas la clasificación, la regresión y la supervivencia22. Random Survival Forests es un algoritmo de aprendizaje automático que se utiliza para el análisis de supervivencia. Es una extensión del algoritmo Random Forest y se utiliza para predecir el tiempo de supervivencia de un individuo en función de un conjunto de variables predictivas. Tiene varias ventajas sobre otros métodos de análisis de supervivencia. Son capaces de manejar datos de alta dimensión y pueden capturar relaciones complejas no lineales entre las variables predictivas y el resultado de supervivencia. También son capaces de manejar datos faltantes y censura, lo cual es común en el análisis de supervivencia23. GLMBoost es un algoritmo de clasificación y regresión basado en árboles que aumenta el gradiente y que utiliza el modelo lineal generalizado (GLM) como modelo base. GLMBoost utiliza un algoritmo de aumento de gradiente para mejorar progresivamente el poder predictivo del modelo subyacente mientras controla la complejidad del modelo mediante la regularización. Una ventaja de GLMBoost es que puede manejar una amplia gama de tipos de datos, incluidas variables categóricas y continuas. También tiene la capacidad de manejar datos faltantes, lo cual es un problema común en los conjuntos de datos del mundo real24. La regresión de riesgos proporcionales de Cox (CoxPH) es un método utilizado en el análisis de supervivencia para estimar el efecto de un factor sobre el tiempo de supervivencia. El modelo CoxPH supone que el riesgo proporcional es constante, es decir, el efecto de un factor es constante durante todo el período de observación. El modelo CoxPH se puede utilizar para analizar la incidencia de enfermedades, muertes, desempleo y otros eventos.

El ajuste de hiperparámetros para cada modelo se realizó mediante búsqueda de cuadrícula con validación cruzada de 5 veces en el paquete mlr3tuning. El espacio de búsqueda del hiperparámetro fue creado por el paquete paradox. Cada rango de hiperparámetro se estableció y ajustó exhaustivamente para mejorar el rendimiento predictivo de los modelos y garantizar que se ajusten bien a los datos. Los hiperparámetros específicos para cada modelo se muestran en la Tabla S1. Para conocer el significado específico de cada parámetro, consulte los paquetes rpart, gbm, glmnet, randomForestSRC y glmboost. El rendimiento del modelo se evaluó mediante las métricas de aprendizaje del índice de concordancia promedio (índice C) en el conjunto de entrenamiento mediante búsqueda en cuadrícula con validación cruzada quíntuple repetida 20 veces, y se seleccionó el modelo de mejor rendimiento para estudios posteriores. El paquete mlr325 se empleó para el desarrollo y la implementación de modelos de aprendizaje automático.

La puntuación de riesgo del modelo final se calculó para estratificar a los pacientes en tres grupos de riesgo (bajo, intermedio y alto) con umbrales que reflejan gradientes de riesgo clínicamente significativos. Las probabilidades de supervivencia se evaluaron mediante curvas de Kaplan-Meier con el paquete R “survminer” en diferentes grupos de pacientes. Para acceder al uso clínico se emplearon la curva de característica operativa del receptor (ROC), el valor del área bajo las curvas ROC (AUC), la curva de calibración y los análisis de la curva de decisión (DCA).

Las características del paciente se describieron como número (%) para variables categóricas y mediana (rango intercuartil [IQR]) o media ± desviación estándar (DE) para variables continuas, respectivamente. Las variables categóricas se compararon mediante la prueba de Chi-cuadrado o la prueba exacta de Fisher cuando correspondiera. Se realizó la prueba t entre variables continuas paramétricas, mientras que para variables no paramétricas se realizó la prueba de Mann-Whitney o prueba de Kruskal-Wallis. Todos los análisis estadísticos se realizaron utilizando el software R 4.1.3 (https://www.r-project.org/), y se consideró que un valor de p bilateral <0,05 indicaba significación estadística.

Este estudio fue aprobado por el comité de ética del Hospital Oncológico de Sichuan (Subvención No. SCCHEC-02-2020-015) y se realizó de acuerdo con las Directrices para la buena práctica clínica y la Declaración de Helsinki. El comité de ética del Hospital Oncológico de Sichuan renunció al requisito de consentimiento informado debido al diseño retrospectivo del estudio.

Se inscribieron 2.441 pacientes con ESCC según los criterios de inclusión y exclusión. Se asignaron 1954 pacientes a la cohorte de entrenamiento y 487 pacientes a la cohorte de validación (Tabla 1). La mediana de edad de los pacientes incluidos fue de 62,0 años (rango, 34 a 90 años) y la mayoría de los pacientes eran hombres (81,6%). La mediana del tiempo de seguimiento de la SG fue de 28,23 meses (rango, 6,10-115,3 meses).

Para evitar un sobreajuste o incertidumbre en el modelo, primero examinamos la correlación entre variables continuas mediante el método de Spearman antes de desarrollar el modelo. Observamos un ligero problema de colinealidad entre variables, como se muestra en la Figura S1. Luego utilizamos la regresión LASSO para penalizar y seleccionar las características óptimas, eliminando características menos importantes del modelo y reduciendo la correlación entre variables. Finalmente, se seleccionaron 22 variables para la construcción del modelo con una lambda.min óptima de 0,00805, como se muestra en la Fig. 1. El análisis de regresión COX univariado posterior identificó 14 factores significativos para predecir la supervivencia general de los pacientes, incluido el sexo, la puntuación KPS, la longitud del tumor, grado del tumor, margen quirúrgico, invasión vascular, invasión nerviosa, estadio T, estadio N, MPV, AST, Na, Mg y FIB (Tabla S2). Por lo tanto, estas 14 variables fueron seleccionadas para el posterior desarrollo del modelo.

Selección de características de los indicadores del paciente mediante la regularización LASSO: (A) La relación entre la penalización LASSO y el cambio del coeficiente de regresión; (B) Gráfico de validación cruzada de la curva de desviación de probabilidad parcial con valor Log(λ) en la selección de características; (C) Los coeficientes de estimación de parámetros de características en la regularización LASSO; (D) Gráfico de correlación de variables de características clínicas en el algoritmo de regresión LASSO.

Se utilizaron seis algoritmos de análisis de supervivencia diferentes para modelar el desarrollo en el conjunto de entrenamiento. El espacio de búsqueda hiperparamétrico y los resultados de ajuste se muestran en la Tabla S1. El rendimiento discriminativo de los modelos desarrollados se evaluó mediante el índice C promedio utilizando una búsqueda en cuadrícula con validación cruzada quíntuple repetida 20 veces. Los resultados se presentaron en la Fig. 2 y la Tabla 2, que demuestran que el modelo CoxPH extendido con aprendizaje automático, Elastic Net y Random Forest exhiben un rendimiento similar en la validación cruzada del modelo, con un índice C de 0,731. Además, su rendimiento de predicción es superior al de GBM, GLMboost y Rpart. Teniendo en cuenta la importancia de la interpretabilidad del modelo, finalmente seleccionamos el algoritmo clásico de regresión CoxPH como nuestro método final para estudios posteriores.

Rendimiento de predicción para el algoritmo de análisis de seis supervivencias. (A) El valor del índice c se calculó para cada método utilizando validaciones cruzadas anidadas de 5 × 20. (B) El intervalo de confianza del valor del índice c para cada método utilizando validaciones cruzadas anidadas de 5 × 20.

A continuación, utilizamos el método de importancia de permutación para calcular la importancia clasificada de 14 variables que se seleccionaron del análisis de regresión de Cox univariado, y los resultados se presentan en la Fig. 3. Se identificaron el estadio N, el estadio T, el margen quirúrgico, el MPV y la AST. como los 5 predictores más importantes para predecir eventos de supervivencia. Las características óptimas del modelo se extrajeron después de ajustar los parámetros del modelo con un remuestreo de validación cruzada diez veces utilizando el método de búsqueda secuencial hacia atrás. Las 10 características finales seleccionadas para la construcción del modelo CoxPH fueron estadio N, estadio T, margen quirúrgico, MPV, AST, grado del tumor, sexo, FIB, longitud del tumor y Mg.

La importancia clasificada de las variables candidatas.

Para estimar el impacto de cada predictor sobre el riesgo de mortalidad en el modelo CoxPH, mostramos los efectos marginales de cada factor en la Figura S2. Nuestros resultados demuestran que los estadios T y N son factores de riesgo importantes en el modelo CoxPH, y el riesgo de mortalidad aumenta con los estadios T y N más altos. Las mujeres presentan un menor riesgo de mortalidad que los hombres. Los márgenes quirúrgicos positivos y el mal grado tumoral aumentan el riesgo de mortalidad. Además, niveles más bajos de MPV y Mg y niveles más altos de longitud del tumor, AST y FIB se asocian con un mayor riesgo de mortalidad en el modelo.

Con 10 características de pronóstico, los pacientes fueron estratificados en deciles de riesgo estimado. Observamos distribuciones de supervivencia similares para tres puntuaciones de riesgo y estratificamos los deciles de probabilidad de eventos en grupos de riesgo bajo, intermedio y alto según los riesgos relacionados. Los deciles primero a cuarto se clasificaron como subgrupos de bajo riesgo, siendo el porcentaje de muerte observada significativamente inferior al 25%. Los deciles octavo a décimo se clasificaron como subgrupos de alto riesgo, con un porcentaje de muerte observada superior al 50%. Los grupos restantes se estratificaron en grupos de riesgo intermedio (deciles quinto a séptimo) (Fig. 4A, B).

El rendimiento de predicción de supervivencia del modelo CoxPH ampliado con aprendizaje automático. (A) El porcentaje de muerte observada según deciles de probabilidad del evento. (B) Se estratificaron tres grupos de riesgo según patrones similares de distribución de supervivencia. Las curvas de Kaplan-Meier estimaron las probabilidades de supervivencia en las cohortes de entrenamiento (C) y validación (D). Las curvas ROC de tiempo compararon el desempeño del modo de riesgo a los 1, 3 y 5 años de seguimiento en las cohortes de entrenamiento (E) y validación (F).

Los gráficos de la curva de Kaplan-Meier de las probabilidades de supervivencia revelaron diferencias significativas en las tasas de supervivencia entre los subgrupos de riesgo alto, intermedio y bajo tanto en las cohortes de entrenamiento como en las de validación (Fig. 4C, D, todas p <0,0001). La estratificación del riesgo predijo probabilidades de supervivencia general a 3 años del 80,8%, 58,2% y 29,5% para los subgrupos de riesgo bajo, intermedio y alto, respectivamente, en la cohorte de entrenamiento, y del 75,4%, 48,8% y 26,9%. en la cohorte de validación. Además, la estratificación del riesgo predijo probabilidades de supervivencia general a 5 años del 70,6 %, 45,6 % y 18,7 % para los subgrupos de riesgo bajo, intermedio y alto, respectivamente, en la cohorte de entrenamiento, y del 65,3 %, 27,9 %. y 11,0% en la cohorte de validación (Tabla 3). Los valores de AUC para la supervivencia general a 1, 3 y 5 años fueron 0,760, 0,735 y 0,746 en la cohorte de entrenamiento, respectivamente, y se observó un rendimiento discriminativo similar en la cohorte de validación con valores de AUC de 0,725, 0,720 y 0,752 para la supervivencia general a 1, 3 y 5 años, respectivamente (Fig. 4E,F).

Además, evaluamos el rendimiento del modelo de riesgo seleccionando las 5 características más importantes (estadio N, estadio T, margen quirúrgico, MPV, AST) de los resultados de importancia de la permutación para el desarrollo del modelo. Nuestros hallazgos demuestran que el modelo de riesgo de CoxPH muestra una ventaja significativa sobre la combinación de estas 5 características principales, así como características individuales como el estadio N (0,681), el estadio T (0,642), el margen quirúrgico (0,535) y el MPV (0,576). y AST (0,519) (Fig. 5).

Curvas ROC para evaluar la capacidad de los modelos de riesgo y otros indicadores para la predicción de la supervivencia de los pacientes con ESCC.

El modelo de riesgo CoxPH ampliado con aprendizaje automático muestra un excelente rendimiento predictivo de eventos de supervivencia. Sin embargo, aún no está claro si el modelo puede utilizarse en la práctica clínica. Por lo tanto, comparamos los valores del índice C entre el modelo de riesgo y la octava etapa del AJCC utilizando una validación cruzada quíntuple con 200 repeticiones. Además, empleamos gráficos de calibración y curvas DCA para evaluar la utilidad clínica del modelo. Nuestros resultados demuestran que el modelo de riesgo exhibe una capacidad discriminativa superior y un beneficio neto sobre la octava etapa del AJCC para todos los pacientes tanto en las cohortes de entrenamiento como en las de validación (Fig. 6). La curva de calibración reveló una buena concordancia entre las predicciones y las observaciones reales para la probabilidad de supervivencia a 1, 3 y 5 años (Fig. 7).

Se realizaron análisis del índice C y de la curva de decisión para comparar el desempeño entre la puntuación de riesgo y la octava etapa del AJCC. Los valores del índice C de la puntuación de riesgo y la octava etapa del AJCC en las cohortes de entrenamiento (A) y validación (B) mediante el uso de validación cruzada quíntuple con 200 repeticiones; El beneficio neto del modelo de riesgo y la octava etapa del AJCC en cohortes de entrenamiento (C) y validación (D) mediante el uso de análisis de curvas de decisión.

La curva de calibración para predecir la supervivencia del paciente a 1 año (A), 3 años (B) y 5 años (C) en la cohorte de entrenamiento y a 1 año (D), 3 años (E) y 5 años (F) en la cohorte de validación.

En general, las opciones de tratamiento pueden afectar la tasa de supervivencia general de los pacientes. Para aclarar el impacto de diferentes modalidades de tratamiento en la supervivencia general de los pacientes con ESCC, evaluamos los resultados de supervivencia general de diferentes subgrupos de tratamiento entre pacientes con intervención quirúrgica sola, CT, RT y CCRT. Sin embargo, no encontramos diferencias significativas en las tasas de supervivencia general entre los diferentes subgrupos de tratamiento (Figura S3). Además, evaluamos más a fondo los resultados de supervivencia de los pacientes con ESCC que recibieron intervención quirúrgica sola y encontramos que la tasa de supervivencia general de los pacientes con ESCC que se sometieron a tratamiento endoscópico fue mayor que la de aquellos que se sometieron a resección quirúrgica por toracotomía (Figura S4). Además, también investigamos el impacto de la quimioterapia en la supervivencia general de los pacientes con ESCC sometidos a cirugía y no encontramos diferencias significativas en las tasas de supervivencia general entre los diferentes subgrupos de quimioterapia (Figura S5). Estos resultados sugieren que los pacientes con ESCC que se sometieron a tratamiento endoscópico pueden estar en etapas más tempranas del tumor o tener síntomas más leves, mientras que aquellos que requieren toracotomía pueden estar en etapas avanzadas del tumor. Los pacientes que recibieron toracotomía pueden beneficiarse de la radioterapia o quimioterapia adyuvante para mejorar sus resultados de supervivencia general, logrando resultados similares a los de la intervención quirúrgica sola.

Los enfoques de aprendizaje automático ofrecen una innovación tecnológica para la evaluación de riesgos personalizada11. En este estudio, utilizamos datos clínicos y de laboratorio de alta calidad de una cohorte de 2441 pacientes con ESCC para desarrollar y evaluar modelos de predicción de la supervivencia de los pacientes con ESCC. Nuestros hallazgos indican que el modelo CoxPH extendido con aprendizaje automático demostró el mejor rendimiento para predecir la supervivencia general en pacientes con ESCC. Las puntuaciones de riesgo derivadas del modelo CoxPH estratificaron eficazmente a los pacientes con ESCC en tres grupos de riesgo pronóstico con distintos eventos de supervivencia. Estas puntuaciones de riesgo clínicamente significativas exhibieron excelentes capacidades discriminativas, superando la octava etapa del TNM AJCC en la predicción de los riesgos de mortalidad de los pacientes. Predecir con precisión los riesgos de mortalidad en pacientes con ESCC sigue siendo una necesidad insatisfecha y, hasta donde sabemos, este es el primer estudio que compara el rendimiento de diferentes algoritmos de aprendizaje automático para desarrollar y validar modelos de predicción de supervivencia en pacientes con ESCC.

El uso del aprendizaje automático para analizar big data ofrece ventajas significativas para asimilar y evaluar datos sanitarios complejos12, y pronosticar con precisión la supervivencia de los pacientes con cáncer es crucial para la toma de decisiones y el manejo terapéutico10,26,27. Si bien la mayoría de los modelos basados ​​en aprendizaje automático se han aplicado para el diagnóstico de cáncer y la evaluación de riesgos, su aplicación en la predicción de la supervivencia ha sido limitada28. Además, la mayoría de los análisis de supervivencia basados ​​en el aprendizaje automático se han basado en datos de expresión genética de bases de datos como The Cancer Genome Atlas (TCGA)18,29 o datos multiómicos30, y pocos estudios utilizan datos de supervivencia del mundo real de alta dimensión31,32. , limitando así su aplicabilidad a la práctica actual. Una investigación reciente de Abuhelwa et al.10 demostró la viabilidad y eficacia de los enfoques basados ​​en el aprendizaje automático para la predicción de la supervivencia en pacientes con cáncer urotelial tratados con atezolizumab. En este estudio, empleamos seis algoritmos de aprendizaje automático para desarrollar un modelo de pronóstico para 27 variables clínicas en pacientes con ESCC y descubrimos que el modelo CoxPH extendido con aprendizaje automático, Elastic Net y Random Forest tienen un rendimiento similar y excelente en la predicción de la supervivencia de los pacientes con ESCC. y superó a los modelos GBM, GLMboost y Rpart. Por lo tanto, los enfoques basados ​​en el aprendizaje automático para la predicción de la supervivencia de los pacientes con ESCC son factibles y eficaces, y los algoritmos clásicos del método CoxPH siguen siendo lo suficientemente buenos para los estudios interpretativos.

Se han desarrollado varios indicadores o puntuaciones para estimar el riesgo y el tratamiento de los pacientes con ESCC basándose en esfuerzos de investigación que investigan los predictores de supervivencia13,15,16,33. Estudios anteriores han identificado varios factores asociados con una supervivencia general deficiente, incluido un NLR más elevado y una relación proteína C reactiva-albúmina (CAR), invasión perineural, estadio patológico, resección incompleta y terapia neoadyuvante33,34. También confirmamos que el bajo nivel de sodio sérico preoperatorio15 y el bajo MPV35 eran factores de riesgo importantes para la supervivencia general en pacientes con ESCC, y el índice de coagulación que estableció PLT, MPV y FIB podría estratificar a los pacientes en tres grupos de riesgo con las tasas de SG a 3 años para el los grupos de riesgo bajo, medio y alto fueron el 63,5%, el 55,5% y el 43,1%, respectivamente13. En este estudio, identificamos el estadio N, el estadio T, el margen quirúrgico, el MPV, la AST, el grado del tumor, el sexo, la FIB, la longitud del tumor y el Mg como las características más importantes para predecir los eventos de supervivencia. Los estadios T y N más altos, los márgenes quirúrgicos positivos y el mal grado del tumor se asociaron con un mayor riesgo de mortalidad, mientras que las mujeres tienen un menor riesgo de mortalidad que los hombres. Además, niveles más bajos de MPV, Mg y niveles más altos de longitud del tumor, AST y FIB también se asociaron con un mayor riesgo de mortalidad. El seguimiento de estos indicadores de rutina clínica puede ayudar a predecir el riesgo pronóstico y ayudar en las estrategias de manejo clínico de los pacientes con ESCC. Sin embargo, algunos hallazgos anteriores pueden estar sesgados debido a tamaños de muestra pequeños o metodologías diferentes36. Sin embargo, las puntuaciones de riesgo de CoxPH derivadas de procesos de aprendizaje automático y grandes cohortes de pacientes contemporáneas tienen el potencial de superar las deficiencias de los predictores existentes.

Este estudio tiene varias limitaciones que deben reconocerse. En primer lugar, se trata de un estudio observacional retrospectivo y la población incluida en el estudio se concentra principalmente en la población asiática, lo que podría introducir un sesgo de selección en la construcción del modelo. Además, el criterio de valoración de nuestro estudio fue la supervivencia general y aún se desconoce el valor de predicción de la supervivencia libre de progresión o de la supervivencia libre de enfermedad. Por lo tanto, la eficiencia de este modelo requiere una mayor validación sistemática en cohortes más grandes mediante estudios multicéntricos. En conclusión, hemos desarrollado y validado un modelo de riesgo de aprendizaje automático que puede servir como herramienta de pronóstico para predecir la supervivencia de los pacientes con ESCC. Además, los algoritmos clásicos del método CoxPH siguen siendo suficientemente buenos para los estudios interpretativos y los enfoques basados ​​en el aprendizaje automático son factibles para mejorar la optimización del pronóstico de la enfermedad y la toma de decisiones clínicas.

Los autores declaran que todos los datos generados o analizados para este estudio están disponibles en el artículo y su información complementaria. Los datos brutos adicionales están disponibles del autor correspondiente previa solicitud razonable.

Bray, F. y col. Estadísticas mundiales sobre el cáncer 2018: estimaciones GLOBOCAN de incidencia y mortalidad en todo el mundo para 36 cánceres en 185 países. CA 68, 394–424. https://doi.org/10.3322/caac.21492 (2018).

Zhou, M. y col. Mortalidad por causas específicas por 240 causas en China durante 1990-2013: un análisis subnacional sistemático para el Estudio de carga global de enfermedades 2013. The Lancet 387, 251-272. https://doi.org/10.1016/S0140-6736(15)00551-6 (2016).

Artículo de Google Scholar

Liang, H., Fan, JH & Qiao, YL Epidemiología, etiología y prevención del carcinoma de células escamosas de esófago en China. Biol del cáncer. Medicina. 14, 33–41. https://doi.org/10.20892/j.issn.2095-3941.2016.0093 (2017).

Artículo PubMed PubMed Central Google Scholar

Chitti, B. y col. Cambios temporales en la mortalidad por cáncer de esófago por región geográfica: un análisis poblacional. Cureus 10, e3596. https://doi.org/10.7759/cureus.3596 (2018).

Artículo PubMed PubMed Central Google Scholar

Baba, Y. et al. Características clínicas y pronósticas de pacientes con cáncer de esófago y múltiples cánceres primarios: un estudio retrospectivo de una sola institución. Ana. Cirugía. 267, 478–483. https://doi.org/10.1097/sla.0000000000002118 (2018).

Artículo PubMed Google Scholar

Liang, S. y col. Un nomograma para predecir el resultado a corto plazo de la radioterapia o quimiorradioterapia basado en biomarcadores inflamatorios previos y posteriores al tratamiento y sus cambios dinámicos en el carcinoma de células escamosas de esófago. En t. Inmunofarmacol. 90, 107178. https://doi.org/10.1016/j.intimp.2020.107178 (2021).

Artículo CAS PubMed Google Scholar

Lian, L. y col. Desarrollo y verificación de una firma de pronóstico inmunoasociada e hipoxia para el carcinoma de células escamosas de esófago. J. Gastrointest. Oncol. 13, 462–477. https://doi.org/10.21037/jgo-22-69 (2022).

Artículo PubMed PubMed Central Google Scholar

Liu, T. y col. Desarrollo de un nuevo nomograma de microARN exosomal en suero para la predicción preoperatoria de metástasis en los ganglios linfáticos en el carcinoma de células escamosas de esófago. Frente. Oncol. 10, 573501. https://doi.org/10.3389/fonc.2020.573501 (2020).

Artículo PubMed PubMed Central Google Scholar

Min, BH y cols. Nomograma para la predicción de metástasis ganglionares en pacientes con carcinoma de células escamosas de esófago superficial. J. Gastroenterol. Hepatol. 35, 1009-1015. https://doi.org/10.1111/jgh.14915 (2020).

Artículo PubMed Google Scholar

Abuhelwa, AY y cols. Aprendizaje automático para la predicción de resultados de supervivencia con inhibidores de puntos de control inmunológico en el cáncer urotelial. Cánceres 13, 2001. https://doi.org/10.3390/cancers13092001 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

D'Ascenzo, F. et al. Predicción basada en aprendizaje automático de eventos adversos después de un síndrome coronario agudo (PRAISE): un estudio de modelado de conjuntos de datos agrupados. Lancet (Londres, Inglaterra) 397, 199–207. https://doi.org/10.1016/s0140-6736(20)32519-8 (2021).

Artículo de Google Scholar

Ngiam, KY y Khor, IW Big data y algoritmos de aprendizaje automático para la prestación de atención médica. Lanceta Oncol. 20, e262–e273. https://doi.org/10.1016/s1470-2045(19)30149-4 (2019).

Artículo PubMed Google Scholar

Wang, Q. y col. Desarrollo y validación de un índice de coagulación pronóstico práctico para pacientes con cáncer de células escamosas de esófago. Ana. Cirugía. Oncol. 28, 8450–8461. https://doi.org/10.1245/s10434-021-10239-z (2021).

Artículo PubMed Google Scholar

Song, Q., Wu, JZ, Wang, S. y Chen, WH El ancho elevado de la distribución plaquetaria preoperatoria predice un mal pronóstico en el carcinoma de células escamosas de esófago. Ciencia. Rep. 9, 15234. https://doi.org/10.1038/s41598-019-51675-y (2019).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wang, Q. y col. Nivel de sodio sérico preoperatorio como biomarcador pronóstico y predictivo para la terapia adyuvante en el cáncer de esófago. Frente. Oncol. 10, 555714. https://doi.org/10.3389/fonc.2020.555714 (2020).

Artículo PubMed Google Scholar

Zhang, H. y col. El valor predictivo de un índice de inflamación inmune sistémica preoperatoria y un índice nutricional pronóstico en pacientes con carcinoma de células escamosas de esófago. J. Celda. Fisiol. 234, 1794–1802. https://doi.org/10.1002/jcp.27052 (2019).

Artículo ADS CAS PubMed Google Scholar

Li, J. y col. Un nomograma relacionado con la nutrición y la inflamación para predecir la supervivencia general en pacientes con carcinoma de células escamosas de esófago (ESCC) resecado quirúrgicamente. Nutrición. Cáncer 74, 1625–1635. https://doi.org/10.1080/01635581.2021.1957131 (2022).

Artículo CAS PubMed Google Scholar

Li, MX y cols. Uso de un enfoque de aprendizaje automático para identificar moléculas de pronóstico clave para el carcinoma de células escamosas de esófago. BMC Cáncer 21, 906. https://doi.org/10.1186/s12885-021-08647-1 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Schwalbe, N. & Wahl, B. La inteligencia artificial y el futuro de la salud global. Lancet (Londres, Inglaterra) 395, 1579–1586. https://doi.org/10.1016/s0140-6736(20)30226-9 (2020).

Artículo CAS PubMed Google Scholar

Breiman, L., Friedman, JH, Olshen, RA & Stone, CJJB Clasificación y regresión. Árboles 40, 358. https://doi.org/10.1201/9781315139470 (1984).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Friedman, JH, Hastie, T. y Tibshirani, R. Rutas de regularización para modelos lineales generalizados mediante descenso de coordenadas. J. estadística. Software. 33, 1–22. https://doi.org/10.18637/jss.v033.i01 (2010).

Artículo PubMed PubMed Central Google Scholar

Friedman, JH Aumento del gradiente estocástico. Computadora. Estadística. Análisis de datos. 38, 367–378. https://doi.org/10.1016/S0167-9473(01)00065-2 (2002).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Zhou, L., Wang, H. y Xu, Q. Bosque de supervivencia de rotación aleatoria para datos censurados de alta dimensión. Springerplus 5, 1425. https://doi.org/10.1186/s40064-016-3113-5 (2016).

Artículo PubMed PubMed Central Google Scholar

Bühlmann, P. & Yu, B. Impulsando con la pérdida de L2. Mermelada. Estadística. Asociación. 98, 324–339. https://doi.org/10.1198/016214503000125 (2003).

Artículo MATEMÁTICAS Google Scholar

Lang, M. y col. mlr3: un marco moderno de aprendizaje automático orientado a objetos en RJ Open Sourc. Software. https://doi.org/10.21105/joss.01903 (2019).

Artículo de Google Scholar

Ding, D. y col. Predicción basada en aprendizaje automático del pronóstico de supervivencia en el cáncer de cuello uterino. BMC Bioinformática 22, 331. https://doi.org/10.1186/s12859-021-04261-x (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Howard, FM, Kochanny, S., Koshy, M., Spiotto, M. y Pearson, AT Tratamiento adyuvante guiado por aprendizaje automático del cáncer de cabeza y cuello. Red JAMA abierta 3, e2025881. https://doi.org/10.1001/jamanetworkopen.2020.25881 (2020).

Artículo PubMed PubMed Central Google Scholar

Gould, MK, Huang, BZ, Tammemagi, MC, Kinar, Y. & Shiff, R. Aprendizaje automático para la identificación temprana del cáncer de pulmón utilizando datos clínicos y de laboratorio de rutina. Soy. J. Respirar. Crítico. Cuidado médico. 204, 445–453. https://doi.org/10.1164/rccm.202007-2791OC (2021).

Artículo PubMed Google Scholar

Yu, J. y col. Caracterización de una firma de cinco microARN como biomarcador pronóstico del carcinoma de células escamosas de esófago. Ciencia. Rep. 9, 19847. https://doi.org/10.1038/s41598-019-56367-1 (2019).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Poirion, OB, Jing, Z., Chaudhary, K., Huang, S. y Garmire, LX DeepProg: un conjunto de modelos de aprendizaje profundo y aprendizaje automático para la predicción de pronósticos utilizando datos multiómicos. Genoma Med. 13, 112. https://doi.org/10.1186/s13073-021-00930-x (2021).

Artículo PubMed PubMed Central Google Scholar

Li, Z. y col. Un novedoso sistema de puntuación de pronóstico del colangiocarcinoma intrahepático con aprendizaje automático basado en datos del mundo real. Frente. Oncol. 10, 576901. https://doi.org/10.3389/fonc.2020.576901 (2020).

Artículo PubMed Google Scholar

Spooner, A. y col. Una comparación de métodos de aprendizaje automático para el análisis de supervivencia de datos clínicos de alta dimensión para la predicción de la demencia. Ciencia. Rep. 10, 20410. https://doi.org/10.1038/s41598-020-77220-w (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Ishibashi, Y., Tsujimoto, H., Yaguchi, Y., Kishi, Y. y Ueno, H. Importancia pronóstica de los marcadores inflamatorios sistémicos en el cáncer de esófago: revisión sistemática y metanálisis. Ana. Gastroenterol. Cirugía. 4, 56–63. https://doi.org/10.1002/ags3.12294 (2020).

Artículo PubMed Google Scholar

Kim, HE, Park, SY, Kim, H., Kim, DJ y Kim, SI Efecto pronóstico de la invasión perineural en el carcinoma de células escamosas de esófago tratado quirúrgicamente. Cáncer torácico 12, 1605–1612. https://doi.org/10.1111/1759-7714.13960 (2021).

Artículo PubMed PubMed Central Google Scholar

Liu, X. y col. Quimioterapia adyuvante para el cáncer de células escamosas de esófago con ganglios linfáticos positivos: el papel de predicción del volumen medio de plaquetas bajo. Frente. Oncol. 12, 1067682. https://doi.org/10.3389/fonc.2022.1067682 (2022).

Artículo PubMed PubMed Central Google Scholar

Ishibashi, Y. et al. Valor pronóstico de las medidas relacionadas con las plaquetas para la supervivencia general en el carcinoma de células escamosas de esófago: una revisión sistemática y un metanálisis. Rev. Crítico Oncol. Hematol. 164, 103427. https://doi.org/10.1016/j.critrevonc.2021.103427 (2021).

Artículo de Google Scholar

Descargar referencias

Esta investigación fue financiada por el Proyecto de Investigación de Salud del Cuadro Provincial de Sichuan (Chuan Gan Yan 2022–802); el Programa de Ciencia y Tecnología de Sichuan, China (2021JDRC0152, 2022YFS0006, 2023YFS0488, 2023YFQ0055); Proyecto de la Oficina de Ciencia y Tecnología de Chengdu (2021-YF05-01792-SN).

Estos autores contribuyeron igualmente: Kaijiong Zhang y Bo Ye.

Departamento de Laboratorio Clínico, Centro de Investigación Clínica del Cáncer de Sichuan, Hospital e Instituto del Cáncer de Sichuan, Centro del Cáncer de Sichuan, Hospital Oncológico Afiliado de la Universidad de Ciencia y Tecnología Electrónica de China, Chengdu, China

Kaijiong Zhang, Bo Ye, Lichun Wu, Sujiao Ni y Dongsheng Wang

Departamento de Oncología Radioterápica, Centro de Investigación Clínica del Cáncer de Sichuan, Hospital e Instituto del Cáncer de Sichuan, Centro del Cáncer de Sichuan, Hospital Oncológico Afiliado de la Universidad de Ciencia y Tecnología Electrónica de China, Chengdu, China

Qifeng Wang

Departamento de Oncología, Hospital Tongji, Facultad de Medicina de Tongji, Universidad de Ciencia y Tecnología de Huazhong, Wuhan, China

Yang Li y Peng Zhang

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

ZKJ y WDS concibieron el proyecto y diseñaron el estudio. ZKJ, WDS y WQF diseñaron el experimento. YB, WLC y NSJ recopilaron los datos. ZKJ escribió el manuscrito. ZKJ, YL, PZ, WDS y WQF discutieron y revisaron el manuscrito. Todos los autores han leído y aprobado la versión final para su publicación.

Correspondencia a Qifeng Wang, Peng Zhang o Dongsheng Wang.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Zhang, K., Ye, B., Wu, L. et al. Predicción basada en aprendizaje automático del pronóstico de supervivencia en el carcinoma de células escamosas de esófago. Representante científico 13, 13532 (2023). https://doi.org/10.1038/s41598-023-40780-8

Descargar cita

Recibido: 19 de septiembre de 2022

Aceptado: 16 de agosto de 2023

Publicado: 19 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40780-8

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.