Descripción del sistema de consulta
versión 1.0 de noviembre de 2016

Introducción

La aplicación está organizada en diferentes módulos, a los cuales se accede pulsando la pestaña correspondiente desde la página de presentación.

En Datos se ofrece la composición del corpus ESLORA en la última versión, tanto en general como en los subcorpus virtuales que se pueden construir mediante la selección de los diferentes valores que componen cada uno de los parámetros usados en su estructuración.

Pulsando la pestaña Búsquedas se accede al núcleo de la aplicación de consulta, mediante la cual es posible recuperar datos de la totalidad de los textos incluidos o bien seleccionar alguno de los corpus integrados en ESLORA (en la versión actual, solo contiene textos de entrevistas). En cualquier caso, la búsqueda se puede organizar por:

Todas estas posibilidades son, como veremos, combinables entre sí. Por otro lado, el sistema permite la recuperación de datos de la totalidad del corpus o bien del subcorpus virtual creado directamente por quien hace la consulta en función de las características de los hablantes utilizadas en la configuración de ESLORA:

También en este caso es posible combinar distintos valores para cada uno de los parámetros señalados.

Por último, la pestaña Buscar en permite referir las búsquedas a la totalidad del texto, que es la opción habitual, o bien centrarlas en fragmentos que han recibido cierta etiquetación (entre risas o con marca de énfasis, por ejemplo).

En los diferentes tipos de búsquedas, la aplicación permite trabajar con distintas opciones en la recuperación, como la consistente en tomar en cuenta la existencia de caracteres con tildes o diferenciar mayúsculas y minúsculas.

Búsquedas generales

La pantalla inicial de ESLORA contiene un texto de presentación general y ofrece varias pestañas (Datos, Búsquedas, Guía, Contacto, Equipo y Acerca de) que permiten acceder a distintas zonas y utilidades de la aplicación. En las cuatro últimas se encuentra la información correspondiente a la denominación utilizada, de modo que no requieren atención en esta guía. Nos centraremos, por tanto, en las dos primeras.

Datos: Contiene los datos generales de la distribución de las palabras ortográficas y los elementos gramaticales según los cuatro grandes parámetros utilizados en la estructuración del corpus: edad, sexo, nivel de estudios y papel desempeñado en la entrevista.

Búsquedas: Es el núcleo del recurso y el lugar desde el que se puede recuperar la información contenida en el corpus. Los párrafos y secciones siguientes de este documento describen el contenido y posibilidades de esta parte de la aplicación.

Al pulsar en la pestaña Búsquedas encontramos una serie de secciones en cada una de las cuales podemos introducir las características de la selección deseada en cada caso.

Fig. 1. Pantalla inicial de captación de datos.
Fig. 1. Pantalla inicial de captación de datos.

Como se observa en la fig. 1, en el primer bloque de opciones se puede elegir el corpus de trabajo (en esta versión, únicamente Entrevistas) y el tipo de elementos que se desea localizar. La primera posibilidad consiste en hacer una búsqueda de formas ortográficas, que, como indica la sección Texto en la que se introducen las secuencias, permite incluir hasta cinco palabras gráficas diferentes. Si escribimos llegaron en la sección correspondiente a Texto y dejamos en todas las demás los valores que la aplicación muestra por defecto, tras pulsar el botón Buscar obtenemos la información de que esta forma ortográfica aparece en 11 casos localizados en 8 documentos distintos, lo cual equivale a una frecuencia normalizada de 27 casos por millón de palabras2.

La opción que figura por defecto en el campo Tipo de la sección Resultado es la correspondiente a frecuencia simple. Si hacemos la misma consulta (para lo cual no es necesario escribir de nuevo la secuencia deseada), activando en el campo Tipo la opción Frecuencia completa obtenemos estos mismos datos, pero distribuidos ahora por los parámetros principales de estructuración del corpus, esto es, edad, papel, sexo y nivel de estudios, con lo que tenemos una panorámica general de la distribución de esta forma con respecto a todos los parámetros presentes en la configuración del corpus (vid. fig. 2).

Fig. 2. Pantalla de frecuencias completas.
Fig. 2. Pantalla de frecuencias completas.

Como es lógico, la distribución del elemento con el que se está trabajando en los distintos grupos a los que pertenecen los hablantes puede presentar características diferentes, que hay que analizar con cuidado. En este caso, por ejemplo, la distribución por grupos de edad es la esperable, mientras que la distribución por sexos muestra que todos los casos de esa forma aparecen en textos emitidos por mujeres, lo cual es, con toda certeza, una casualidad.

El paso siguiente en la investigación puede consistir en el análisis individual de cada uno de los casos en los que aparece esta forma. Eso se consigue activando ahora la opción Muestras en el campo Tipo de la sección Resultado (o bien pulsando la cifra que señala la cantidad de casos localizados en cada bloque de encuestas). Obtendremos entonces una pantalla como la que aparece en la figura 3:

Fig. 3. Pantalla de concordancias.
Fig. 3. Pantalla de concordancias.

Como se ve, cada una de las muestras aparece en una línea cuyo centro está ocupado por la forma que constituye el objeto de la búsqueda, acompañado de su contexto inmediato tanto anterior como posterior. La información que contiene esta pantalla es la siguiente (de izquierda a derecha):

Los datos del texto y el hablante y la posibilidad de obtener el sonido aparecen también en la opción de contexto ampliado, ahora para cada una de las intervenciones que lo constituyen, pulsando la flecha que aparece en cada una de las líneas.

Entre las opciones que ofrece la pantalla de devolución de muestras, figura la de Descarga, que permite exportar el resultado obtenido al dispositivo desde el que se hace la consulta y, de esta forma, examinar los datos con más detención, filtrarlos, reordenarlos en función de características no incluidas en la aplicación, etc. El formato de devolución es TSV (Tab-separated values), es decir un texto plano que contiene el listado tabular con los diferentes campos de cada línea separados por tabuladores, lo cual automatiza su integración en cualquier hoja de cálculo o base de datos. El número de resultados que se pueden obtener se decide en la opción de Tamaño de página. La producción de esos listados es sensible a la página de resultados en la que se encuentra la aplicación en el momento en que se solicita la descarga, de modo que si se hace desde el comienzo de la lista y se piden 50 proporcionará las concordancias 1 a 50, mientras que si se hace desde la concordancia número 101, la descarga contendrá desde esa línea hasta la 150. Este es el procedimiento que se puede utilizar en el caso de que se desee importar más de 500 líneas, que es el máximo previsto en la aplicación. La opción "TSV completo" devuelve el texto con indicación de las marcas (cita, énfasis, etc.) que afectan a cada elemento

Todas las posibilidades expuestas pueden ser refinadas mediante la indicación de valores específicos en cada uno de los parámetros reflejados en las distintas secciones del formulario de búsqueda:

Véase también, más adelante, la posibilidad de seleccionar los casos en diferentes fragmentos del texto con la opción Buscar en.

Por otro lado, la sección Texto, cuando se buscan palabras ortográficas, permite la indicación de varias formas (hasta un máximo de cinco): en cuestión, por lo tanto, de ninguna manera, de vez en cuando, etc. son expresiones que se pueden recuperar directamente. Recurriendo a esta posibilidad, veamos ahora un ejemplo de búsqueda que utiliza, de forma progresivamente detallada, algunas de las características existentes en ESLORA. Si introducimos la secuencia de vez en cuando y activamos la opción Frecuencia completa de la sección Resultado, veremos que esta locución aparece con frecuencias generales bastante diferentes en los distintos grupos de edad, de modo que la frecuencia normalizada es de 32, 175 y 53 casos por millón de formas en los tres grupos de edad ordenados de forma ascendente. Al tiempo, se puede ver que las frecuencias normalizadas según sexo son de 105 y 70 casos por millón en hombres y mujeres, respectivamente. Podría considerarse que esas diferencias son suficientemente marcadas como para sugerir la conveniencia de analizar los ejemplos procedentes de cada uno de los subgrupos. La forma de hacerlo es sencilla: en la misma pantalla, sin necesidad de borrar los resultados anteriores, se activa la opción Muestras (en el Campo Tipo de la sección Búsqueda), Entre 35 y 54 (en Edad) y Mujer (en Sexo), se pulsa Buscar y aparecen en pantalla las siete secuencias que reúnen todas estas características. Del mismo modo, activando las opciones pertinentes se pueden obtener los ejemplos que resultan de los cruces de cualesquiera de los diferentes parámetros tenidos en cuenta en la construcción del corpus.

Búsquedas más refinadas

La búsqueda mediante la opción de texto permite la utilización de algunas expresiones regulares que facilitan ciertos tipos de recuperación. Así, por ejemplo, el signo de cierre de interrogación (?) sustituye a un carácter cualquiera que ocupe esa misma posición, de modo que la búsqueda de la secuencia c?sa devolverá los casos que contengan las secuencias casa, cosa, cesa. El asterisco (*) sustituye a secuencias de cero o más casos de cualquier carácter en la posición que ocupa. Así, por ejemplo, sal* recuperará todas las formas del verbo salir, pero también sala, salmuera, salchichón, etc.). La expresión *mente devuelve todos los casos de adverbios terminados en -mente (pero también mente y, en general, todas las palabras terminadas con esa secuencia sean o no adverbios); sal*mos muestra los casos que contienen salimos, salíamos, saldremos, saltamos, etc. Por fin, la expresión *ísim?* (cualquier secuencia de caracteres seguida de la secuencia ísim con algún otro carácter a continuación y seguido o no de alguna otra letra) devuelve todos los casos de las cuatro formas diferentes del superlativo sintético (-ísimo, -ísima, -ísimos e -ísimas). Como veremos a continuación, esta línea puede ser todavía mucho más útil e interesante si la combinamos con la indicación de valores referidos a aspectos gramaticales.

La posibilidad de emplear expresiones regulares, mencionada en el párrafo anterior, supone un progreso considerable con respecto a las búsquedas individuales. Sin embargo, no es el camino más adecuado para dar respuesta a las necesidades de la investigación gramatical. Con uno de los ejemplos citados, es posible recuperar las formas del verbo salir recurriendo a la expresión sal*, que devolverá sale, salimos, salgan, saldremos, etc. y también salado, salchichón, saldo, etc., de modo que tendremos todos los casos que nos interesan, aunque será necesario separarlos de aquellos que responden formalmente a lo que se ha pedido, pero no a lo que en realidad se está buscando. La línea adecuada es, por tanto, la de añadir a las formas que integran el corpus la información gramatical que les corresponde, indicando el lema al que pertenecen y también los valores que presentan en las categorías y subcategorías gramaticales que son de aplicación en cada caso. Es decir, el corpus debe contener la información de que saldremos es la primera persona del plural del futuro imperfecto de indicativo del verbo salir y que diciéndomelo es una forma ortográfica constituida por tres unidades gramaticales (el gerundio de decir, un pronombre átono de primera de singular y un pronombre átono de tercera de singular), etc.

Los textos que forman ESLORA han sido sometidos a una anotación morfosintáctica automática, lo cual permite lanzar búsquedas de carácter gramatical, abstracto, sobre los textos incluidos en el corpus. La activación de la opción Elementos gramaticales en el campo Tipo de la sección Búsqueda abre una nueva sección que contiene los campos de búsqueda Elemento gramatical, Etiqueta, Lema y Palabra ortográfica. Con ello, las posibilidades de búsqueda se enriquecen considerablemente y, sobre todo, permiten una formulación mucho más basada en conceptos gramaticales o léxicos que los que simplemente dependen de la forma gráfica.

El lema es el concepto que agrupa a todas las formas que pertenecen a, por ejemplo, el paradigma de un verbo o de un sustantivo. Por tanto, la indicación salir en el campo lema nos permitirá recuperar todos los casos que ESLORA contiene de ese verbo, a pesar de su irregularidad (sal, sale, salgo, saldré, salga, salimos, etc.). Es la forma más cómoda de recuperar de una vez todas las formas que corresponden al paradigma de un determinado sustantivo, adjetivo o verbo. Al tiempo, es el modo adecuado para discriminar entre las diferentes formas en los casos de homografía. Así, por ejemplo, recuerdo puede ser una forma del presente de indicativo del verbo recordar o bien la correspondiente al masculino singular del sustantivo recuerdo. Uno de los modos en los que se puede diferenciar entre ellas es activar la opción de Elementos gramaticales en el tipo de búsqueda, escribir recuerdo en forma ortográfica y recordar o recuerdo en el lema.

El empleo de la búsqueda de elementos gramaticales activa la posibilidad de acceder a las características gramaticales a mayor profundidad. La opción Muestras presenta una pantalla del mismo tipo que las que hemos visto al hacer búsquedas por formas, pero si se pulsa el número del ejemplo para acceder a un contexto más amplio se puede ver una pantalla en la que aparecen, además de las anteriores y posteriores a la central, cuatro líneas resaltadas que contienen diversas informaciones correspondientes a aquella que contiene el elemento recuperado, como muestra la pantalla de la fig. 4.

Fig. 4. Pantalla con toda la información disponible sobre los elementos textuales.
Fig. 4. Pantalla con toda la información disponible sobre los elementos textuales.

La primera es la línea de los elementos gramaticales existentes en el enunciado en cuestión, acompañados de las etiquetas directamente visibles. Nótese que, por ejemplo, los dos elementos haber y me de la forma ortográfica haberme aparecen separados. En la segunda línea están las etiquetas que reflejan la información acerca de los valores de las categorías y subcategorías gramaticales (vid. el etiquetario utilizado). La tercera contiene los lemas a los que corresponde cada uno de los elementos gramaticales existentes. Por fin, en la cuarta aparecen las formas en su grafía convencional, lo cual obliga a repetir la forma haberme como correspondencia ortográfica de los dos elementos gramaticales señalados anteriormente.

Las búsquedas que usan la opción Elemento gramatical permiten recuperar los casos de una cierta palabra gramatical con independencia de su integración gráfica con otra u otras y también de la forma gráfica concreta que pueda presentar (vid. fig. 5). Así, la opción de búsqueda textual nos proporciona, en procesos distintos, los casos de decir, decirte y decírselo, todas las cuales (y muchas más) contienen el elemento gramatical decir. La indicación de decir en el campo Elemento gramatical permite recuperar todos los casos que lo contengan, es decir, los del tipo decir, decirte, decírtelo, etc. Nótese que, en el último caso, la forma gráfica es diferente, lo cual muestra con claridad que estamos trabajando con un elemento más abstracto que la simple apariencia ortográfica. La observación de las pantallas de resultados mostrará, por otra parte, que el texto de las concordancias no sigue las normas ortográficas, sino que separa en decir, se y lo los elementos gramaticales que existen en la forma gráfica decírselo.

Fig. 5. Concordancias con la sepración de unidades gramaticales
Fig. 5. Concordancias con la separación de unidades gramaticales.

La opción más rica es, por supuesto, la utilización de la etiqueta morfosintáctica. Como se ha visto en las pantallas precedentes, la información gramatical está resumida en una etiqueta que contiene todos los rasgos pertinentes. Sin embargo, para comodidad de manejo, la aplicación está organizada de modo que la etiqueta se puede ir construyendo a medida que se van introduciendo los rasgos deseados, sin necesidad de que los usuarios memoricen la organización de las etiquetas. La selección comienza por la clase de palabras y va dando luego las opciones existentes a medida que se van seleccionando rasgos. Para acceder a esta manera amigable de introducir las etiquetas es necesario pinchar en el signo de interrogación situado justo al lado del campo Etiqueta. De este modo es posible resolver los numerosos casos de homografías existentes. Con el ejemplo anterior, es posible obtener los casos en los que la forma ortográfica recuerdo ha sido adscrita a la clase de palabras verbo (que tiene una frecuencia normalizada de 361 casos por millón) y aquellos en los que se le atribuye la clase sustantivo (73 casos por millón):

El rasgo más potente de esta parte de la aplicación lo constituye, por supuesto, la posibilidad de obtener los casos en los que, sin tener en cuenta el lema al cual pertenecen, las formas muestran unos determinados rasgos gramaticales. Mediante la organización jerarquizada de la construcción de etiquetas podemos, por ejemplo, saber cuántos casos de futuro de indicativo hay en los textos y analizarlos, uno a uno, en la opción Muestras. Un paso más allá, es posible saber, por ejemplo, cuántos casos de la tercera persona del plural del futuro de indicativo (56 casos en la versión actual del corpus) o de sustantivos en forma femenina plural están contenidos en los textos.

>Es posible también referir la búsqueda a los textos completos, que es lo habitual, o bien a fragmentos de los textos en los comprendidos entre ciertas marcas o situados en su contexto inmediato (por ejemplo, buscar texto que se haya producido entre risas o al lado de un alargamiento). Para conseguirlo hay que pulsar la pestaña Buscar en. Por ejemplo, para recuperar los casos de verbos en infinitivos situados en un fragmento que lleva la marca de énfasis, hay que hacer la indicación correspondiente en la pestaña Etiqueta y luego, en la pestaña Buscar en, activar la opción Énfasis.

La aplicación de consulta devuelve, por defecto, páginas de 50 resultados y las organiza según el texto en el cual aparecen. En el campo Ordenación es posible cambiar ambas posibilidades y obtener, por ejemplo, páginas que contengan 100 enunciados o que los muestren organizados según la edad de los emisores.

Búsquedas combinadas

Además de las búsquedas de elementos individuales, la aplicación admite la búsqueda de combinaciones de elementos. La más sencilla es la ya vista combinación de varias palabras gráficas (del estilo de de vez en cuando y similares).

La potencia de la recuperación de combinaciones y su utilidad para el trabajo gramatical se ofrece en toda su extensión cuando se le añade la posibilidad de utilizar directamente rasgos gramaticales, independientes de las formas que los soportan (vid. fig. 6). En primer lugar, es posible construir búsquedas constituidas por hasta cinco elementos seguidos. El modo de hacerlo consiste en seleccionar la opción Elementos gramaticales en el campo Tipo de la sección Búsqueda e ir pulsando el botón con el signo + que aparece a la derecha de la destinada a recoger la palabra ortográfica. Así, por ejemplo, para ver los casos en los que aparece la construcción ir a + infinitivo, se escribe el lema ir en el primer campo, se pulsa el signo + y se incluye el lema a en el segundo, de nuevo el signo + y la etiqueta correspondiente a verbo en infinitivo en el tercero, con lo que se obtiene la información de que esta perífrasis presenta una frecuencia normalizada de 2.263 casos por millón. Por supuesto, detallando más la etiqueta se pueden obtener también, por ejemplo, los casos en los que la forma del verbo auxiliar está en tercera persona del singular del presente de indicativo.

Fig. 6. Pantalla de captura de la construcción
Fig. 6. Pantalla de captura de la construcción ir a + infinitivo.

Es posible hacer búsquedas de secuencias basadas en rasgos gramaticales netos, totalmente desvinculados de factores léxicos. Por ejemplo, marcar en tres campos de etiqueta sucesivas los rasgos N, A y A nos permite recuperar los casos de un sustantivo seguido de dos adjetivos, del tipo canción tradicional francesa, centro comercial enorme, etc. Si, en esta misma opción, abrimos cuatro unidades y vamos marcando sustantivo en la etiqueta de la primera, de en el lema de la segunda, nombre en la etiqueta de la tercera y adjetivo en la etiqueta de la cuarta, obtendremos todos los casos del tipo años de dedicación exclusiva, conductos de aire caliente y similares, que dan una buena muestra de la potencia de la aplicación.

Otra posibilidad integrada en el sistema de búsqueda del corpus consiste en la recuperación de casos en los que una forma ortográfica coaparece con otra en una ventana contextual que, en la versión actual, puede tener una extensión de hasta diez palabras. Así, por ejemplo, podemos recuperar los ejemplos en los que la forma ortográfica casa lleva a su derecha la forma ortográfica abuelos a una distancia igual o inferior a cinco palabras. La forma de hacerlo consiste en activar la opción Palabras ortográficas próximas en el tipo de búsqueda, escribir luego casa en el campo correspondiente a la primera forma y abuelos en el segundo. En la versión actual, la búsqueda es sensible al orden de los elementos, de modo que con la organización mencionada obtendremos casos del estilo de la casa de mis abuelos, la casa de unos abuelos y también en mi casa siempre vivimos todos juntos, abuelos incluidos. La ordenación contraria recuperará casos del tipo mis abuelos estaban viviendo en la casa de mis tíos, etc.

Una generalidad considerablemente mayor se consigue, como es lógico, con la opción Elementos gramaticales próximos. Con un ejemplo sencillo, la combinación de acordarse con la preposición de puede aparecer en casos en los que los dos elementos no están situados inmediatamente. Utilizar esta opción de búsqueda y escribir el lema acordar en el primer campo y el lema de en el segundo devuelve casos como me acuerdo mucho de..., me acuerdo muy bien de..., no me acordaba yo de esta grabadora, etc. Más interesante todavía es la utilización de esta opción para paliar algunos de los inconvenientes que ocasiona el análisis en elementos gramaticales, inevitable si se quiere poder recuperar la información abstracta que requiere la investigación de los fenómenos gramaticales. Así, la búsqueda ejemplificada en la figura 6 para obtener los casos de la perífrasis ir a + infinitivo recupera ejemplos como voy a decir, vamos a hacer, pero no los del tipo irse a bañar, vete a buscar, etc. La razón es evidente: las formas gráficas irse y vete contienen dos elementos gramaticales y, por tanto, no responden a la secuencia verbo ir seguido de preposición a y seguido de verbo en infinitivo. La forma de recuperar casos de este tipo es, precisamente, la búsqueda por proximidad. Dado que solo admite dos elementos, la estrategia más adecuada consiste en escribir el lema ir en el primer campo y un verbo en infinitivo en el segundo, con una ventana de, por ejemplo, cinco elementos. Con ello se obtendrán todos los casos en los que el infinitivo sigue inmediatamente a la preposición, pero también aquellos en los que hay otros elementos intermedios (con lo que no todos los casos serán relevantes para el trabajo con la perífrasis).


1. No, naturalmente, de todos los elementos gramaticales que la componen, sino de aquellos implicados en la distinción establecida habitualmente entre “palabra gráfica” y “palabra gramatical”. Así, las palabras gráficas al o decirte contienen dos palabras o elementos gramaticales cada una de ellas, vinculados a los lemas a y el en el primer caso y decir y te en el segundo. Cf. infra para las implicaciones de este tratamiento en el sistema de búsqueda.

2. La frecuencia normalizada permite obtener una visión general del mayor o menor peso estadístico del elemento recuperado con independencia del volumen del conjunto textual con el que se trabaje (que es lo que proporciona la frecuencia general). Dado que la frecuencia de los elementos lingüísticos es relativamente baja, expresarla en forma de porcentajes no es de gran ayuda, por lo que se presenta habitualmente no en la forma de casos por cien, sino de casos por cien mil palabras o por millón de palabras.