Resumen de los artículos:
*Lingüística con corpus – Milka Villayandre Llamazares, Universidad
de León.
*Los ejes principales en el diseño de un corpus diacrónico: El caso
del CICA – Juan Toruela y Casañas, Universidad autónoma de Barcelona.
*El uso de los corpus lingüísticos como herramienta pedagógica para
la enseñanza y aprendizaje de ELE – Elena F. Pitkwoski y Javier Vásquez
Gamarra, Universidad de Montreal.
Un corpus es un conjunto de datos
reales, de muestras de uso de la lengua y su uso se considera una metodología
empírica de trabajo. El DRAE proporciona la definición de “corpus” como:
Conjunto lo más extenso y ordenado posible de datos o textos científicos,
literarios, etc., que pueden servir de base a una investigación.
En los primeros intentos de
construir un corpus, la falta de la tecnología requerida para organizar y
procesar los datos fue un obstáculo en el camino de realizar un corpus. Así,
antes de la ampliación en la tecnología de los ordenadores, es decir: antes del
Siglo XIX, un corpus se definía por ser conjunto de textos escritos que tiene
como finalidad el estudio de lenguas muertas (latín, sánscrito…). Estos corpus
eran necesarios para llevar a cabo los estudios lingüísticos porque constituían
el único acercamiento posible a esas lenguas. Hasta medidas del Siglo XX, se
amplía el uso de esos corpus para incluir el estudio del proceso de la
adquisición del lenguaje infantil a través de la transcripción de las
interacciones de los niños con sus padres. Eran útiles en establecer
convenciones ortográficas, obtener listas de vocabulario para la enseñanza de
segundas lenguas y realizar estudios comparativos de lenguas.
Con la empieza del siglo XX, y con
la ayuda de la lingüística estructural americana, se sentaron las bases de la
lingüística de corpus como metodología empírica basada en la observación de
datos. Se considera el corpus como la única herramienta válida para el estudio
de las lenguas. Este corpus estructuralista se caracterizaba por ser conjunto
de muestras orales o transcripciones escritos que tenía por finalidad el
estudio de lenguas vivas. Se centraba en los aspectos fonéticos y
(morfo)fonológicos pero no atendía a cuestiones de representatividad. Este
último aspecto fue la fuente de muchas críticas que recibía este concepto de
corpus, sobre todo por Chomsky quien imponía el racionalismo como filosofía de
fondo que debe guiar todas las investigaciones. Como resultado de la
parcialidad de los corpus de esta época y las críticas duras hacia ellos, se
produjo un desprestigio general de la metodología basada en corpus. El
empirismo antiguo se definía por la actuación mientras que el racionalismo de
Chomsky se centraba en la intuición. Aunque, cabe mencionar que el corpus
seguía ser útil de usar en la fonética (que requiere datos externos, no juicios
de valor), la adquisición de lenguas (los niños no han desarrollado su
capacidad metalingüística) y la lingüística histórica. Se puede diferenciar
entre dos posturas de crítica dirigidas hacia los corpus en esta época: la
crítica teórica de Chomsky y la práctica de Abercrombie.
La crítica teórica de Chomsky se
basaba en la apelación al recurso de la intuición, a la introspección del
lingüista, como el único criterio válido para el estudio de las lenguas y el
papel central otorgado a la sintaxis en las primeras versiones del modelo
generativista. Las críticas de Chomsky pueden ser resumido en tres puntos
esenciales: primero, la centralización de los corpus en la fonética y la
fonología que son aspectos externos de las lenguas y dependen de la actuación
personal de los hablantes mientras que el papel presupuesto por Chomsky de un
lingüista es reflejar la competencia o el conocimiento interiorizado de la
lengua que posee un hablante-oyente; es decir la concentración en la sintaxis.
Segundo, la parcialidad de los corpus ya que no pueden contener todas las
oraciones de una lengua y solo reflejan los elementos lingüísticos más
frecuentes e ignoran los más raros. Este es la confrontación entre la
concepción de la lengua como finita (el estructuralismo) en frente a la
concepción de ella como infinita (el generativismo). Por último, los corpus de
esta época se presentaban como completos y como la única explicación mientras
que el generativismo chomsquista presenta la intuición de lingüista como la
única explicación.
Las críticas prácticas de
Abercrombie partieron de las críticas teóricas de Chomsky para presentar
problemas cruciales al empezar en usar un corpus: el procesamiento lento de los
datos, su propenso al error y su costo alto. Esas críticas son válidas a
razonables ya que la tecnología era retrasada en esta época.
En los años 60 y 70, y con la
introducción de los ordenadores, una segunda generación de lingüística de
corpus va ser gestada. Desde entonces los corpus electrónicos han llegado a
erigirse en recursos imprescindibles para diversos fines relacionados con la
investigación. Esos corpus, que contenían hasta un millón de palabras, se
caracterizaban por su representatividad y su tendencia a desfavorecer los datos
orales por las dificultades técnicas y de transcripción.
En los años 80, resurgieron otra vez
la lingüística de corpus gracias a los
argumentos de G. Leech a favor del uso de corpus como: el aspecto científico de
los corpus ya que ofrecen datos cuantitativos frente a la subjetividad de la
intuición de Chomsky, la gramaticalidad de los enunciados de un corpus, así los
corpus reflejan la competencia, la utilidad de los datos cuantitativos para la
extracción de información y por último, el procesamiento lento de los datos ya
es una crítica no válida gracias al avance en la tecnología.
Superadas las críticas teóricas y
prácticas, los corpus electrónicos se convirtieron en la década de los 80 en un
recurso indispensable para el estudio del lenguaje natural. Fue entonces cuando
se generalizó el término “corpus lingüístico” y ya se empieza a hablar de una
“lingüística de Corpus”.
Algunos elementos han favorecido
este progreso: el auge de las áreas aplicadas de la lingüística en general y de
la lingüística computacional en particular, el eclecticismo (acepta la
intuición y la facultad interpretativa), la mayor disponibilidad de los corpus
electrónicos gracias a Internet, el desarrollo de nuevas tecnologías para la
informatización de textos de forma más rápida, la utilidad de los datos
cuantitativos y por último, su utilidad en tratar los textos reales producidos
por los hablantes.
En la actualidad, el concepto de
corpus ha cambiado mucho con respecto al que manejaban los primeros lingüistas
que lo empleaban. Hoy en día, un corpus
debe cumplir lis siguientes requisitos:
1.
Formato electrónico: el empleo del ordenador permite automatizar
tareas como la búsqueda y la recopilación de información, el cómputo de la frecuencia de aparición de
una palabra o secuencia de palabras y la clasificación de los datos contenidos.
2.
Autenticidad de los datos: los textos deben ser muestras reales de
uso de la lengua objeto de estudio.
3.
Criterios de selección: los textos incluidos deben haber sido
elegidos de acuerdo con unos determinados criterios lingüísticos y/o
extralingüísticos condicionados por el objetivo del corpus.
4.
Representatividad: la selección de textos debe responder a
parámetros estadísticos que garanticen que los textos representan la variedad
de la lengua objeto de estudio. Debe asegurar la selección de textos de
diversos géneros, tipologías, temas, medios de publicación, etc.
5.
Tamaño: tamaño finito que se suele medir en millones de palabras o
de formas que se fija antes de empezar la recogida de los textos. Existen
también corpus abiertos o monitor como el CREA.
Hay definiciones de “corpus” que
recogen estas características como la Santalla: “Un corpus es un conjunto de
textos de lenguaje natural e irrestricto, almacenados en un formato
electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios
explícitos, para ser utilizados como modelo de un estado o nivel de lengua
determinado, en estudios a aplicaciones relacionados en mayor o menor medida
con el análisis lingüístico”.
En general, los principales
parámetros para establecer tipologías de corpus se centran en: la modalidad de
la lengua, el número de lenguas a que pertenecen los textos, los límites del
corpus, el carácter general o especializado de los textos, el período temporal
que abarcan los textos, el tamaño de los textos y, por último, el tratamiento
aplicado al corpus.
Según esos parámetros, se puede
distinguir entre diferentes tipos de corpus:
1.
Según la modalidad, hay tres tipos: corpus escritos, corpus orales
y corpus mixtos.
2.
Según el número de lenguas, los corpus se clasifican en monolingües
y multilingües.
3.
Según los límites establecidos, los corpus se clasifican en corpus
cerrados (número finito de palabras establecido antes de empezar la
recopilación de textos) y corpus abiertos o monitor (dinámicos). Según la
especificidad de los textos, los corpus pueden ser generales (reflejan la
lengua o la variedad lingüística de la forma más equilibrada posible) o
especializados (describen un tipo particular de la lengua).
4.
En función del período temporal, los corpus pueden ser diacrónicos
(históricos) o sincrónicos (en un momento dado).
5.
Según el tamaño, hay corpus de referencia (fragmentos, información
lo más completa posible sobre una lengua) o corpus textuales (textos enteros
sin fragmentar).
6.
Según el proceso al que se someta el corpus, se distingue ente
corpus simples (textos guardados sin formato alguno y sin añadir información) y
corpus codificados o anotados.
Como aplicación de lo mencionado
arriba, en la sección siguiente, vamos a tratar una aplicación real de los
conceptos y ejes principales en el diseño de un corpus diacrónico que es el
caso del corpus CICA.
Según lo dicho antes, la elaboración
de un corpus requiere la adopción de una serie de criterios selectivos y
estructurales esenciales para determinar la validez de los trabajos que se
realicen a partir de su explotación. En este caso particular, un corpus
diacrónico, y para que desempeña su función, debe partir de tres ideas
esenciales: 1) Tiene que estar estructurado en apartados y subapartados que faciliten
la observación de los datos de una manera selectiva y ordenada; 2) es preciso
que los textos seleccionados para cada uno de sus apartados sean
representativos; y 3) es necesario que la cantidad de palabras de cada
apartado, sea, dentro de lo posible, semejante (corpus equilibrado). Por otro
lado, un corpus diacrónico además de tener que representar las diferentes
variedades y los diferentes tipos de lengua en las diversas épocas (aspectos
que exigen que esté estructurado según parámetros dialectales, temáticos y
sincrónicos), los debe representar porcentajes que hagan posible extraer
valores cuantitativos que permitan o bien dar nuevas informaciones sobre la
lengua o bien afirmar o negar aquellas que ya se suponían pese a que nunca
habían estudiado y valorado con datos reales y representativos.
A partir de eso, un corpus diacrónico
debe de estar organizado y estructurado según tres ejes o parámetros principales:
1.
Eje temporal: Hay dos conceptos básicos: a) límites que los marca
el inicio de la historia de la lengua, o sea, desde los primeros testimonios
escritos que tenemos de esta lengua; y b) periodización, es decir la
delimitación de franjas temporales dentro de las cuales el objeto de estudio,
como los elementos lingüísticos que marcan la evolución de la lengua, muestra
una particular coherencia. Es imprescindible la organización de los textos en
períodos temporales para poder realizar la ordenación de los elementos
analizados. La cuestión que surge al realizar esta periodización es decidir
cuál criterio vamos a seguir: criterios lingüísticos o internos (determinan las
distintas etapas lingüísticas) o criterios extralingüísticos o externos (según
acontecimientos políticos, acontecimientos sociales, acontecimientos
literarios, etc. o aplicando el sistema de una división precisa del tiempo en
períodos cronológicamente iguales).
2.
Eje tipológico: como en un
texto puede aparecer representados distintos registros y se puede encontrar más
de una tipología en un registro, es crucial el parámetro tipológico ya que
facilita el análisis de la lengua según el tipo de documentos y según los
registros lingüísticos. Debe advertirse que algunas tipologías a veces no son
muy efectivos para dar cuenta del aspecto sintáctico de la lengua.
3.
Eje dialectal: Este eje nos permite observar cuándo un fenómeno
lingüístico se produce solamente en una parte del territorio o cuándo se
producen en su totalidad.
Por otro lado, los datos son de diversa índole y abarcan diferentes
aspectos lingüísticos:
·
Variantes gráficas: Una misma forma puede cambiar ortográficamente
pero sigue de llevar el mismo valor semántico.
·
Cambios semánticos: Una misma palabra puede tener más de un
significado a lo largo de su existencia.
·
Fonética: Una palabra puede evolucionar de manera diferente en
distintos lugares.
·
Monoptongación: El hecho de que una palabra puede cambiar de ser
diptongada a ser monoptongada.
·
Aspectos léxico-semánticos: La distribución geográfica de algunas
palabras.
El uso de los corpus en la enseñanza
de ELE
Resumiendo lo dicho antes, los
corpus reflejan el contexto en el que se utiliza la lengua e intentan ser un
modelo de la realidad lingüística, muestran el uso que sus hablantes hacen de
ella. Por eso, los corpus tienen una importancia práctica tanto para los
estudiantes como para los profesores. Algunas sugerencias en el campo de la
enseñanza son: buscar el uso frecuente de palabras o construcciones en los
libros de textos y lecturas recomendados, corregir malos usos lingüísticos
(errores más repetidos, construcciones no normativos, léxico mal usado, grafías
incorrectas, etc.) y, por último, recopilar corpus de producciones de estudiantes
de ELE como fuente de datos. Otras ideas que se pueden ser utilizados muestran
el poder de contextualizar una palabra o una expresión en relación a un tema
específico, averiguar el empleo de un prefijo o sufijo, extraer frecuencias de
palabras para comprobar los usos reales, consultar el empleo de ciertas formas
en diferentes países, indagar los rasgos contextuales de una palabra,
sistematizar el conocimiento intuitivo ante algo que suene mal pero no se sepa
la razón, etc.
Hay muchos corpus que se pueden
utilizar ahora, como COSER (el corpus oral y sonoro del español rural), CREA
(corpus de referencia del español actual), CORDE (corpus diacrónico del
español), etc. Esos corpus pueden utilizarse para combinar palabras, comprobar
la frecuencia de aparición de un término, consultar el uso de palabras y
expresiones o averiguar la época o el país en el cual el empleo de una palabra
o frase resulta más frecuente.
Algunas sugerencias específicas en
el uso de los corpus en la enseñanza de ELE para niveles intermedios o
avanzados son:
·
En equipos, escoger un país y crear una lista de palabras
particulares de argot, y de los términos compartidos con otros países para
realizar una presentación oral.
·
Consultar blogs y foros disponibles en Internet, ver qué palabras
no comprenden posteriormente y averiguar si se trata de una palabra de una
jerga.
·
Realizar un corpus propio de palabras nuevas, por ejemplo cuando
los estudiantes viajan a un país de lengua hispana.
El uso de los corpus en la enseñanza
de ELE tiene muchas ventajas pero al mismo tiempo tiene unas desventajas que no
se pueden negar. A pesar de que su manejo puede ser complejo, los corpus pueden
ser una manera muy interesante de conocer el uso real de la lengua española.
Otra ventaja es su acceso fácil y gratuito. Además, en un corpus, la lengua
aparece integrada en el contexto discursivo, y con respecto a la lengua oral,
permite apreciar sus peculiaridades estilísticas, textuales o pragmáticas. Por
otro lado, las desventajas que pueden presentar los corpus incluyen problemas
técnicas por la falta de instrucción en los corpus o fallas en la conexión de
Internet.
2015
No comments:
Post a Comment