En el último año, ChatGPT ha ganado una enorme popularidad como una inteligencia artificial capaz de crear contenidos originales y tareas relacionadas con el lenguaje. Sin embargo, un reciente estudio revela que esta herramienta tiene limitaciones en su conocimiento léxico en español, desconociendo aproximadamente el 20% de las palabras y cometiendo errores en el 80% restante. En este artículo, exploraremos los hallazgos de este estudio y analizaremos la importancia del conocimiento léxico en la inteligencia artificial.
El estudio y sus resultados
Un equipo de investigadores españoles, compuesto por científicos de la Universidad Politécnica de Madrid (UPM), la Universidad Carlos III de Madrid (UC3M) y la Universidad de Valladolid (UVa), desarrolló una aplicación llamada ChatWord para evaluar el conocimiento léxico de ChatGPT en varios idiomas. Utilizaron como referencia las palabras recogidas en el diccionario de la Real Academia de la Lengua y las que aparecen en El Quijote de Miguel de Cervantes.
Los resultados revelaron que de las más de 90.000 palabras incluidas en el diccionario de la Real Academia de la Lengua, el modelo ChatGPT3.5turbo desconoce aproximadamente el 20%, es decir, unas 18.000 palabras. Además, el estudio encontró que ChatGPT cometió errores en cerca del 5% de los términos restantes del diccionario y del 90% de las palabras del Quijote.
La importancia del conocimiento léxico
Según el estudio, un hispanohablante promedio reconoce alrededor de 30.000 palabras, lo que representa casi un tercio del léxico español. A primera vista, esto puede parecer pobre en comparación con la capacidad de una máquina como ChatGPT. Sin embargo, los investigadores señalan que el sentido que ChatGPT asigna a muchas palabras es incorrecto, lo que plantea interrogantes sobre la calidad del conocimiento léxico que posee.
Los modelos de lenguaje de gran tamaño, basados en inteligencia artificial, como ChatGPT, están diseñados para procesar y comprender lenguaje natural en una escala enorme. Estos modelos no utilizan palabras que no conocen, lo que plantea preocupaciones sobre la riqueza léxica y la diversidad de vocabulario en los contenidos generados por inteligencia artificial.
Futuras investigaciones y conclusiones
Los investigadores han desarrollado la aplicación ChatWords como un sistema de acceso público para evaluar el conocimiento léxico en otros idiomas y modelos de lenguaje de gran tamaño. El objetivo es comprender mejor las limitaciones y fortalezas de las herramientas de inteligencia artificial en cuanto a su conocimiento léxico.
El estudio realizado por científicos españoles revela que ChatGPT tiene limitaciones en su conocimiento léxico en español, desconociendo aproximadamente el 20% de las palabras y cometiendo errores en el 80% restante. Si bien la capacidad de generación de contenido de esta inteligencia artificial es impresionante, es importante considerar las limitaciones en su conocimiento léxico para garantizar la calidad y precisión de los textos generados. La investigación futura en este campo será fundamental para mejorar la comprensión y el desarrollo de herramientas de inteligencia artificial más efectivas en el procesamiento y generación de lenguaje.