Caminante, no hay camino: Los corpus lingüísticos

Resumen de los artículos:

*Lingüística con corpus – Milka Villayandre Llamazares, Universidad de León.

*Los ejes principales en el diseño de un corpus diacrónico: El caso del CICA – Juan Toruela y Casañas, Universidad autónoma de Barcelona.

*El uso de los corpus lingüísticos como herramienta pedagógica para la enseñanza y aprendizaje de ELE – Elena F. Pitkwoski y Javier Vásquez Gamarra, Universidad de Montreal.

Un corpus es un conjunto de datos reales, de muestras de uso de la lengua y su uso se considera una metodología empírica de trabajo. El DRAE proporciona la definición de “corpus” como: Conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación.

En los primeros intentos de construir un corpus, la falta de la tecnología requerida para organizar y procesar los datos fue un obstáculo en el camino de realizar un corpus. Así, antes de la ampliación en la tecnología de los ordenadores, es decir: antes del Siglo XIX, un corpus se definía por ser conjunto de textos escritos que tiene como finalidad el estudio de lenguas muertas (latín, sánscrito…). Estos corpus eran necesarios para llevar a cabo los estudios lingüísticos porque constituían el único acercamiento posible a esas lenguas. Hasta medidas del Siglo XX, se amplía el uso de esos corpus para incluir el estudio del proceso de la adquisición del lenguaje infantil a través de la transcripción de las interacciones de los niños con sus padres. Eran útiles en establecer convenciones ortográficas, obtener listas de vocabulario para la enseñanza de segundas lenguas y realizar estudios comparativos de lenguas.

Con la empieza del siglo XX, y con la ayuda de la lingüística estructural americana, se sentaron las bases de la lingüística de corpus como metodología empírica basada en la observación de datos. Se considera el corpus como la única herramienta válida para el estudio de las lenguas. Este corpus estructuralista se caracterizaba por ser conjunto de muestras orales o transcripciones escritos que tenía por finalidad el estudio de lenguas vivas. Se centraba en los aspectos fonéticos y (morfo)fonológicos pero no atendía a cuestiones de representatividad. Este último aspecto fue la fuente de muchas críticas que recibía este concepto de corpus, sobre todo por Chomsky quien imponía el racionalismo como filosofía de fondo que debe guiar todas las investigaciones. Como resultado de la parcialidad de los corpus de esta época y las críticas duras hacia ellos, se produjo un desprestigio general de la metodología basada en corpus. El empirismo antiguo se definía por la actuación mientras que el racionalismo de Chomsky se centraba en la intuición. Aunque, cabe mencionar que el corpus seguía ser útil de usar en la fonética (que requiere datos externos, no juicios de valor), la adquisición de lenguas (los niños no han desarrollado su capacidad metalingüística) y la lingüística histórica. Se puede diferenciar entre dos posturas de crítica dirigidas hacia los corpus en esta época: la crítica teórica de Chomsky y la práctica de Abercrombie.

La crítica teórica de Chomsky se basaba en la apelación al recurso de la intuición, a la introspección del lingüista, como el único criterio válido para el estudio de las lenguas y el papel central otorgado a la sintaxis en las primeras versiones del modelo generativista. Las críticas de Chomsky pueden ser resumido en tres puntos esenciales: primero, la centralización de los corpus en la fonética y la fonología que son aspectos externos de las lenguas y dependen de la actuación personal de los hablantes mientras que el papel presupuesto por Chomsky de un lingüista es reflejar la competencia o el conocimiento interiorizado de la lengua que posee un hablante-oyente; es decir la concentración en la sintaxis. Segundo, la parcialidad de los corpus ya que no pueden contener todas las oraciones de una lengua y solo reflejan los elementos lingüísticos más frecuentes e ignoran los más raros. Este es la confrontación entre la concepción de la lengua como finita (el estructuralismo) en frente a la concepción de ella como infinita (el generativismo). Por último, los corpus de esta época se presentaban como completos y como la única explicación mientras que el generativismo chomsquista presenta la intuición de lingüista como la única explicación.

Las críticas prácticas de Abercrombie partieron de las críticas teóricas de Chomsky para presentar problemas cruciales al empezar en usar un corpus: el procesamiento lento de los datos, su propenso al error y su costo alto. Esas críticas son válidas a razonables ya que la tecnología era retrasada en esta época.

En los años 60 y 70, y con la introducción de los ordenadores, una segunda generación de lingüística de corpus va ser gestada. Desde entonces los corpus electrónicos han llegado a erigirse en recursos imprescindibles para diversos fines relacionados con la investigación. Esos corpus, que contenían hasta un millón de palabras, se caracterizaban por su representatividad y su tendencia a desfavorecer los datos orales por las dificultades técnicas y de transcripción.

En los años 80, resurgieron otra vez la lingüística de corpus gracias a los argumentos de G. Leech a favor del uso de corpus como: el aspecto científico de los corpus ya que ofrecen datos cuantitativos frente a la subjetividad de la intuición de Chomsky, la gramaticalidad de los enunciados de un corpus, así los corpus reflejan la competencia, la utilidad de los datos cuantitativos para la extracción de información y por último, el procesamiento lento de los datos ya es una crítica no válida gracias al avance en la tecnología.

Superadas las críticas teóricas y prácticas, los corpus electrónicos se convirtieron en la década de los 80 en un recurso indispensable para el estudio del lenguaje natural. Fue entonces cuando se generalizó el término “corpus lingüístico” y ya se empieza a hablar de una “lingüística de Corpus”.

Algunos elementos han favorecido este progreso: el auge de las áreas aplicadas de la lingüística en general y de la lingüística computacional en particular, el eclecticismo (acepta la intuición y la facultad interpretativa), la mayor disponibilidad de los corpus electrónicos gracias a Internet, el desarrollo de nuevas tecnologías para la informatización de textos de forma más rápida, la utilidad de los datos cuantitativos y por último, su utilidad en tratar los textos reales producidos por los hablantes.

En la actualidad, el concepto de corpus ha cambiado mucho con respecto al que manejaban los primeros lingüistas que lo empleaban. Hoy en día, un corpus debe cumplir lis siguientes requisitos:

1. Formato electrónico: el empleo del ordenador permite automatizar tareas como la búsqueda y la recopilación de información, el cómputo de la frecuencia de aparición de una palabra o secuencia de palabras y la clasificación de los datos contenidos.

2. Autenticidad de los datos: los textos deben ser muestras reales de uso de la lengua objeto de estudio.

3. Criterios de selección: los textos incluidos deben haber sido elegidos de acuerdo con unos determinados criterios lingüísticos y/o extralingüísticos condicionados por el objetivo del corpus.

4. Representatividad: la selección de textos debe responder a parámetros estadísticos que garanticen que los textos representan la variedad de la lengua objeto de estudio. Debe asegurar la selección de textos de diversos géneros, tipologías, temas, medios de publicación, etc.

5. Tamaño: tamaño finito que se suele medir en millones de palabras o de formas que se fija antes de empezar la recogida de los textos. Existen también corpus abiertos o monitor como el CREA.

Hay definiciones de “corpus” que recogen estas características como la Santalla: “Un corpus es un conjunto de textos de lenguaje natural e irrestricto, almacenados en un formato electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios explícitos, para ser utilizados como modelo de un estado o nivel de lengua determinado, en estudios a aplicaciones relacionados en mayor o menor medida con el análisis lingüístico”.

En general, los principales parámetros para establecer tipologías de corpus se centran en: la modalidad de la lengua, el número de lenguas a que pertenecen los textos, los límites del corpus, el carácter general o especializado de los textos, el período temporal que abarcan los textos, el tamaño de los textos y, por último, el tratamiento aplicado al corpus.

Según esos parámetros, se puede distinguir entre diferentes tipos de corpus:

1. Según la modalidad, hay tres tipos: corpus escritos, corpus orales y corpus mixtos.

2. Según el número de lenguas, los corpus se clasifican en monolingües y multilingües.

3. Según los límites establecidos, los corpus se clasifican en corpus cerrados (número finito de palabras establecido antes de empezar la recopilación de textos) y corpus abiertos o monitor (dinámicos). Según la especificidad de los textos, los corpus pueden ser generales (reflejan la lengua o la variedad lingüística de la forma más equilibrada posible) o especializados (describen un tipo particular de la lengua).

4. En función del período temporal, los corpus pueden ser diacrónicos (históricos) o sincrónicos (en un momento dado).

5. Según el tamaño, hay corpus de referencia (fragmentos, información lo más completa posible sobre una lengua) o corpus textuales (textos enteros sin fragmentar).

6. Según el proceso al que se someta el corpus, se distingue ente corpus simples (textos guardados sin formato alguno y sin añadir información) y corpus codificados o anotados.

Como aplicación de lo mencionado arriba, en la sección siguiente, vamos a tratar una aplicación real de los conceptos y ejes principales en el diseño de un corpus diacrónico que es el caso del corpus CICA.

Según lo dicho antes, la elaboración de un corpus requiere la adopción de una serie de criterios selectivos y estructurales esenciales para determinar la validez de los trabajos que se realicen a partir de su explotación. En este caso particular, un corpus diacrónico, y para que desempeña su función, debe partir de tres ideas esenciales: 1) Tiene que estar estructurado en apartados y subapartados que faciliten la observación de los datos de una manera selectiva y ordenada; 2) es preciso que los textos seleccionados para cada uno de sus apartados sean representativos; y 3) es necesario que la cantidad de palabras de cada apartado, sea, dentro de lo posible, semejante (corpus equilibrado). Por otro lado, un corpus diacrónico además de tener que representar las diferentes variedades y los diferentes tipos de lengua en las diversas épocas (aspectos que exigen que esté estructurado según parámetros dialectales, temáticos y sincrónicos), los debe representar porcentajes que hagan posible extraer valores cuantitativos que permitan o bien dar nuevas informaciones sobre la lengua o bien afirmar o negar aquellas que ya se suponían pese a que nunca habían estudiado y valorado con datos reales y representativos.

A partir de eso, un corpus diacrónico debe de estar organizado y estructurado según tres ejes o parámetros principales:

1. Eje temporal: Hay dos conceptos básicos: a) límites que los marca el inicio de la historia de la lengua, o sea, desde los primeros testimonios escritos que tenemos de esta lengua; y b) periodización, es decir la delimitación de franjas temporales dentro de las cuales el objeto de estudio, como los elementos lingüísticos que marcan la evolución de la lengua, muestra una particular coherencia. Es imprescindible la organización de los textos en períodos temporales para poder realizar la ordenación de los elementos analizados. La cuestión que surge al realizar esta periodización es decidir cuál criterio vamos a seguir: criterios lingüísticos o internos (determinan las distintas etapas lingüísticas) o criterios extralingüísticos o externos (según acontecimientos políticos, acontecimientos sociales, acontecimientos literarios, etc. o aplicando el sistema de una división precisa del tiempo en períodos cronológicamente iguales).

2. Eje tipológico: como en un texto puede aparecer representados distintos registros y se puede encontrar más de una tipología en un registro, es crucial el parámetro tipológico ya que facilita el análisis de la lengua según el tipo de documentos y según los registros lingüísticos. Debe advertirse que algunas tipologías a veces no son muy efectivos para dar cuenta del aspecto sintáctico de la lengua.

3. Eje dialectal: Este eje nos permite observar cuándo un fenómeno lingüístico se produce solamente en una parte del territorio o cuándo se producen en su totalidad.

Por otro lado, los datos son de diversa índole y abarcan diferentes aspectos lingüísticos:

· Variantes gráficas: Una misma forma puede cambiar ortográficamente pero sigue de llevar el mismo valor semántico.

· Cambios semánticos: Una misma palabra puede tener más de un significado a lo largo de su existencia.

· Fonética: Una palabra puede evolucionar de manera diferente en distintos lugares.

· Monoptongación: El hecho de que una palabra puede cambiar de ser diptongada a ser monoptongada.

· Aspectos léxico-semánticos: La distribución geográfica de algunas palabras.

El uso de los corpus en la enseñanza de ELE

Resumiendo lo dicho antes, los corpus reflejan el contexto en el que se utiliza la lengua e intentan ser un modelo de la realidad lingüística, muestran el uso que sus hablantes hacen de ella. Por eso, los corpus tienen una importancia práctica tanto para los estudiantes como para los profesores. Algunas sugerencias en el campo de la enseñanza son: buscar el uso frecuente de palabras o construcciones en los libros de textos y lecturas recomendados, corregir malos usos lingüísticos (errores más repetidos, construcciones no normativos, léxico mal usado, grafías incorrectas, etc.) y, por último, recopilar corpus de producciones de estudiantes de ELE como fuente de datos. Otras ideas que se pueden ser utilizados muestran el poder de contextualizar una palabra o una expresión en relación a un tema específico, averiguar el empleo de un prefijo o sufijo, extraer frecuencias de palabras para comprobar los usos reales, consultar el empleo de ciertas formas en diferentes países, indagar los rasgos contextuales de una palabra, sistematizar el conocimiento intuitivo ante algo que suene mal pero no se sepa la razón, etc.

Hay muchos corpus que se pueden utilizar ahora, como COSER (el corpus oral y sonoro del español rural), CREA (corpus de referencia del español actual), CORDE (corpus diacrónico del español), etc. Esos corpus pueden utilizarse para combinar palabras, comprobar la frecuencia de aparición de un término, consultar el uso de palabras y expresiones o averiguar la época o el país en el cual el empleo de una palabra o frase resulta más frecuente.

Algunas sugerencias específicas en el uso de los corpus en la enseñanza de ELE para niveles intermedios o avanzados son:

· En equipos, escoger un país y crear una lista de palabras particulares de argot, y de los términos compartidos con otros países para realizar una presentación oral.

· Consultar blogs y foros disponibles en Internet, ver qué palabras no comprenden posteriormente y averiguar si se trata de una palabra de una jerga.

· Realizar un corpus propio de palabras nuevas, por ejemplo cuando los estudiantes viajan a un país de lengua hispana.

El uso de los corpus en la enseñanza de ELE tiene muchas ventajas pero al mismo tiempo tiene unas desventajas que no se pueden negar. A pesar de que su manejo puede ser complejo, los corpus pueden ser una manera muy interesante de conocer el uso real de la lengua española. Otra ventaja es su acceso fácil y gratuito. Además, en un corpus, la lengua aparece integrada en el contexto discursivo, y con respecto a la lengua oral, permite apreciar sus peculiaridades estilísticas, textuales o pragmáticas. Por otro lado, las desventajas que pueden presentar los corpus incluyen problemas técnicas por la falta de instrucción en los corpus o fallas en la conexión de Internet.

2015

Caminante, no hay camino

Saturday, October 14, 2017

Los corpus lingüísticos

No comments:

Post a Comment