Corpus de aprendices de español (CAES)

(Versión: 2.1 - marzo 2022)

En lingüística, se entiende por corpus un conjunto, más o menos amplio, de textos en formato electrónico que han sido reunidos en una aplicación informática, según un determinado diseño, para facilitar el estudio de la lengua o variedad lingüística de la que esos textos han sido extraídos. Entre los muchos tipos y subtipos de corpus existentes en la actualidad, los llamados 'corpus de aprendices' contienen textos producidos por personas que están aprendiendo una determinada lengua con diferentes lenguas iniciales o familiares, que denominaremos L1 y distintos grados de conocimiento de la lengua objeto.

El Corpus de aprendices de español como lengua extranjera (CAES) es un conjunto de textos escritos producidos por estudiantes de español con diferentes grados de dominio lingüistico (niveles A1 a C1 del Marco común europeo de referencia , aplicado al español en el Plan curricular del Instituto Cervantes. Niveles de referencia para el español ) y procedentes de once L1: alemán, árabe, chino mandarín, francés, griego, inglés, italiano, japonés, polaco, portugués y ruso. Se trata de una herramienta que permite a los profesionales del campo de ELE (profesores, investigadores, evaluadores, autores de materiales didácticos, responsables y equipos de centros e instituciones lingüísticas, etc.) llevar a cabo investigaciones aplicadas sobre la base de datos sólidos y objetivos, ya que puede proporcionar información sobre dificultades de aprendizaje, errores más comunes, vocabulario más o menos empleado, etc. que se podrá aplicar con facilidad en las aulas o integrar en los textos. Sin negar la importancia que tienen otros proyectos de corpus de este tipo, el CAES viene a cubrir un vacío importante en el área específica de corpus de aprendices de lenguas en la línea de proyectos similares como el ICLE (International Corpus of Learner English) de la Universidad de Lovaina.

En su versión actual (2.1, de marzo de 2022), el CAES comprende 1 045 097 elementos lingüísticos, con una distribución que atiende a todos los niveles adquiridos y lenguas L1 incluidas en esta fase del proyecto. Ha sido construido mediante la recogida de muestras en distintos centros del Instituto Cervantes y universidades de un gran número de países, en un período que va desde octubre de 2011 hasta diciembre de 2020. Aunque las pruebas recogidas fueron más, una vez filtradas las correspondientes a lenguas L1 distintas de las previstas o inservibles por diferentes razones, esta versión de CAES contiene muestras producidas por 2544 estudiantes, que escribieron dos o tres textos cada uno (según los niveles aprobados), lo cual arroja un total de 6561 tareas integradas en 2544 pruebas.

La recogida de muestras se ha realizado de acuerdo con unos criterios unitarios y un protocolo común de actuación mediante una aplicación informática diseñada a tales efectos. Los textos producidos por los estudiantes han recibido anotación morfosintáctica automática y posteriormente han sido desambiguados manualmente de acuerdo con lo previsto en un sistema de categorías y subcategorías especialmente desarrollado por el equipo de la USC y adaptado a este tipo de textos. Por último, el resultado de la anotación y desambiguación se ha volcado en una aplicación informática de fácil manejo que permite realizar gran cantidad de consultas simples y combinadas con variables lingüísticas, personales y sociales.

El proyecto, promovido y financiado por el Instituto Cervantes, ha sido diseñado y desarrollado íntegramente por un equipo de investigación de la Universidad de Santiago de Compostela gracias a la colaboración inestimable de un gran número de profesores de diferentes centros del Instituto Cervantes y muy diversas universidades de todo el mundo.