Microsoft no se conforma con el éxito de su alianza con OpenAI. De hecho, lejos de dormirse en los laureles, la empresa de Redmond ha lanzado tres nuevos modelos dentro de su serie Phi, dirigidos a distintas áreas de la inteligencia artificial. En este artículo, voy a desglosar brevemente lo que cada uno de estos modelos aporta y por qué son importantes.
Tres modelos, tres enfoques distintos
Microsoft ha lanzado tres modelos diferentes bajo su nueva serie Phi-3.5, cada uno diseñado para tareas específicas:
- Phi-3.5 Mini Instruct: pensado para entornos con limitaciones de recursos.
- Phi-3.5 MoE (Mixture of Experts): un modelo mixto que combina diferentes tipos de redes neuronales.
- Phi-3.5 Vision Instruct: especializado en tareas multimodales, como análisis de imágenes y videos.
Phi-3.5 Mini Instruct: optimizado para entornos con limitaciones de cómputo
El modelo Phi-3.5 Mini Instruct, con 3.82 mil millones de parámetros, es una opción compacta pero poderosa. Este modelo está diseñado para entornos donde los recursos de memoria o procesamiento son limitados. A pesar de su tamaño reducido, ofrece un rendimiento casi de vanguardia en una variedad de tareas multilingües y de razonamiento lógico, como la generación de código y la resolución de problemas matemáticos.
Uno de los aspectos más destacados de este modelo es su rendimiento en la prueba RepoQA, donde superó a otros modelos de tamaño similar, lo que demuestra su capacidad para entender contextos largos y complejos, como el código fuente.
Phi-3.5 MoE: la apuesta de Microsoft por los modelos mixtos
El Phi-3.5 MoE es la primera incursión de Microsoft en la arquitectura Mixture of Experts (mezcla de expertos), que combina varios submodelos especializados en diferentes tareas. Con un total de 41.9 mil millones de parámetros, pero solo 6.6 mil millones de ellos activos al mismo tiempo, este modelo ofrece un rendimiento escalable y eficiente.
Este modelo sobresale en tareas de razonamiento complejo, superando incluso a modelos más grandes en pruebas específicas como la MMLU (Massive Multitask Language Understanding), especialmente en áreas como ciencias, humanidades y ciencias sociales.
Phi-3.5 Vision Instruct: razonamiento multimodal avanzado
El tercer modelo en esta nueva serie es el Phi-3.5 Vision Instruct, que combina procesamiento de texto e imágenes. Este modelo está optimizado para tareas como el reconocimiento óptico de caracteres (OCR), la comprensión de gráficos y tablas, y la resumisión de videos.
Al igual que los otros modelos de la serie, el Phi-3.5 Vision Instruct es capaz de manejar tareas complejas gracias a su capacidad para procesar hasta 128k tokens en contextos extensos, lo que lo hace ideal para aplicaciones que requieren un análisis visual profundo.
Rendimiento y apertura: una combinación poderosa
Lo que realmente distingue a estos modelos es su rendimiento casi de vanguardia, superando incluso a otros competidores en algunas pruebas clave. Sin embargo, lo que hace que el lanzamiento de la serie Phi-3.5 sea especialmente notable es su licencia MIT abierta. Esta licencia permite a los desarrolladores descargar, utilizar, personalizar y comercializar estos modelos sin restricciones, fomentando la innovación tanto en el ámbito comercial como en el de la investigación.
Conclusión: Microsoft sigue liderando la innovación en IA
Con el lanzamiento de la serie Phi-3.5, Microsoft reafirma su compromiso con la innovación en inteligencia artificial. Al ofrecer estos modelos bajo una licencia abierta, la empresa no solo está ampliando el acceso a tecnologías avanzadas, sino que también está facilitando su integración en aplicaciones del mundo real. Se suma así a una corriente imparable de abrir los modelos de inteligencia artificial con licencias Open Source.