[spa] El rápido avance en los modelos de lenguaje grandes
(LLM, por sus siglas en inglés: Large Language Models) ha
mejorado significativamente sus capacidades en diversas tareas
de procesamiento del lenguaje natural, incluyendo la creación de
resúmenes, la generación de código y la IA conversacional. Este
estudio lleva a cabo una evaluación integral del rendimiento en estas tres tareas con LLM de última generación - Llama3, Mistral y
Gemma - utilizando conjuntos de datos disponibles públicamente
como CNN Daily Mail, CoNaLa y Chatbot Arena. El marco
de evaluación emplea métricas tanto léxicas como semánticas,
incluidas ROUGE, METEOR, BLEU y BERTScore, para evaluar
los resultados de los modelos frente a datos reales. Los resultados
indican que, si bien los LLM demuestran un sólido rendimiento
en la generación de textos similares a los humanos, aún persisten
desafíos como lograr una alta precisión y consistencia léxica en la
generación de código y en contextos conversacionales complejos.
Este estudio proporciona información valiosa sobre las fortalezas
y limitaciones actuales de los LLM, contribuyendo al discurso
actual sobre su potencial y la necesidad de metodologías de
evaluación más refinadas
[eng] The rapid advancements in Large Language Models (LLMs)
have significantly enhanced their capabilities in various Natural Language Processing (NLP) tasks, including summarization, code generation, and conversational AI. This study
conducts a comprehensive performance evaluation of stateof-the-art LLMs, including Llama3, Mistral, and Gemma,
across these tasks using publicly available datasets such as
CNN Daily Mail, CoNaLa, and Chatbot Arena. The evaluation framework employs both lexical and semantic metrics,
including ROUGE, METEOR, BLEU, and BERTScore, to
assess the models’ outputs against ground truth data. The
results highlight that while LLMs demonstrate strong performance in generating human-like text, challenges persist,
particularly in achieving high accuracy and lexical consistency
in code generation and complex conversational contexts. This
study provides valuable insights into the current strengths and
limitations of LLMs, contributing to the ongoing discourse
on their potential and the need for more refined evaluation
methodologies