Descripción:
Las enzimas de la familia GH13, tradicionalmente clasificadas como hidrolasas, también incluyen miembros con actividad transferasa. Esta dualidad funcional plantea un reto en la predicción de su especificidad catalítica a partir de la secuencia primaria. En este trabajo se emplean modelos de lenguaje de proteínas (PLMs), particularmente ESM Cambrian (ESMC), junto con herramientas estructurales como AlphaFold2 y FoldMason, para predecir si una amilasa actuara como hidrolasa o transferasa. Se construyó un conjunto de datos no redundante de proteínas caracterizadas, se alinearon sus secuencias y estructuras, y se identificaron posiciones diferenciadoras mediante análisis estadísticos robustos. Los embeddings generados por ESMC fueron analizados mediante técnicas de reducción de dimensionalidad y clustering, revelando capas específicas del modelo capaces de separar las funciones enzimáticas. Asimismo, se identificaron residuos clave, tanto a nivel de secuencia como estructural, que podrían determinar la especificidad funcional. Este enfoque demuestra el potencial de los modelos de lenguaje y el análisis bioinformático integrado para predecir funciones enzimáticas con aplicaciones biotecnológicas y de diseño racional de proteínas.