CLUVI

Junio 19, 2008 at 6:13 pm (Joseba Abaitua, Language Resources 07/o8) ()

El corpus Lingüístico de la Universidad de Vigo es un corpus lingüístico paralelo de la traducción elaborada por el Seminario de Lingüística Informática de la Universidad de Vigo

El CLUVI puede ser consultado libremente en la web en el enlace http://sli.uvigo.es/CLUVI. Su extensión total actual es de unos 22 millones de palabras.

Las secciones principales de CLUVI son estas:

  • Corpus xurídico LEGA galego-español (5.877.769 palabras)
  • Corpus UNESCO inglés-galego-francés-español de divulgación científica (3.724.620 palabras)
  • Corpus LOGALIZA de localización de software inglés-galego (1.701.834 palabras)
  • Corpus literario TECTRA inglés-galego (1.476.020 palabras)
  • Corpus literario FEGA francés-galego (1.267.119 palabras)
  • Corpus CONSUMER español-galego-catalán-euskara de información sobre consumo (5.586.431 palabras)
  • Corpus xurídico LEGE-BI euskara-castelán (2.384.053 palabras)

Otras secciones de CLUVI que se encuentran en construcción son:

  • Corpus EGAL de economía galego-castelán (718.642 palabras)
  • Corpus literario TECTRA inglés-portugués (735.529 palabras)
  • Corpus literario TECTRA inglés-castelán (122.251 palabras)
  • Corpus literario DEGA alemán-galego (76.364 palabras)
  • Corpus VEIGA de subtitulación de películas inglés-galego (78.032 palabras)
  • Corpus PALOP de literatura poscolonial portugués-castelán (566.590 palabras)

En esta página viene muy bien explicado el sistema de búsqueda de palabras simples o de expresiones. Nos muestra paso a paso lo que debemos hacer efectuar la búsqueda. A la hora de construir una expresión regular de tipo PCRE , los símbolos más importantes que se pueden utilizar son los siguientes:

Símbolos para caracteres

  • . – calquera carácter, incluído o espacio en branco
  • \w – calquera carácter que poida formar parte dunha palabra, como letras, números e guións de subliñado
  • \d – calquera díxito
  • \s – calquera tipo de espacio en branco (espacio, tabulación, salto de liña, salto de páxina…)
  • \b – límite de palabra
  • [abc] – un dos caracteres da serie, isto é, “a” ou “b” ou “c”
  • [^abc] – calquera carácter que non sexa nin “a”, nin “b”, nin “c”
  • [0-9] – calquera número de 0 a 9, isto é, “0″, ou “1″, ou “2″…
  • [a-z] – calquera letra do “a” ao “z”, isto é, “a”, ou “b”, ou “c”, ou “d”…
  • (abc|xyz) – unha das dúas secuencias de caracteres: “abc” ou “xyz”

Símbolos de repetición

  • x+ (unha ou máis aparicións do carácter “x”, isto é “x”, “xx”, “xxx”….)
  • x? (ningunha ou unha aparición do carácter “x”, isto é “” ou “x”)
  • x* (ningunha, unha ou máis aparicións do carácter “x”, isto é “”, “x”, “xx”, “xxx”….)
  • x{n} (o carácter “x” repetido “n” veces seguidas)
  • x{m, n} (o carácter “x” repetido entre “m” e “n” veces seguidas)

Símbolos de literalidade

  • \+ (o carácter “+”)
  • \* (o carácter “*”)
  • \. (o carácter “.”)
  • \? (o carácter “?”)

En esta página también aparece una sección sobre las obras que están disponibles, una extensa lista ordenada sobre las obras que incluye esta página y sobre las que se hace la búsqueda. Aparecen divididas según el tema y sobretodo según los idiomas.

Una de las partes más interesantes que presenta esta página es la de “más información”, donde aparece una definición muy detallada sobre lo que es el CLUVI y de lo que trata y ofrece. En esta sección, podemos encontrar también enlaces de artículos sobre CLUVI muy interesantes, y también información sobre los proyectos de investigación sobre CLUVI y el Seminario de Lingüística informática.

Y por último quería comentar una cosa muy importante sobre esta página, que es que existe la posibilidad de cambiar el idioma de gallego al inglés, simplemente haciendo un click, y que esto hara que esta página siga cosechando tanto éxito ya no sólo en nuestro país, sino que ya extendiendose mucho más.

BIBLIOGRAPHY

Escribe un comentario