The Guitar Player
This article belongs to Aroa Rezola.
When, for the first time, we face a painting like this (The Guitar Player) we might not notice anything at first. What we see at first side is just an image of a girl who is just playing a guitar. Althought we do not see anyone else in the painting, it seems that she is looking at somebody. Her eyes seem to be focusing on something or somebody. Her fingers´ position suggest that she is procuding sounds. She seems to be playing for somebody who can be hearing and does not appear in the painting. The girl playing the guitar expresses delicacy and softness. Behind her there is anothing painting (which is very common in Vermeer´s paintings). This is a painting of a landscape. Finally, on the right of the girl there is a table with two old books on the top of it and also a kind of rag.
Introduction to Corpus Linguistics
Lecture notes for the JSI postgraduate school
1. Overview
1.1. What is a corpus?
- Guidelines of the Expert Advisory Group on Language Engineering Standards, EAGLES:
Corpus : A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.
Computer corpus : a corpus which is encoded in a standardised and homogeneous way for open-ended retrieval tasks. Its constituent pieces of language are documented as to their origins and provenance.
1.2. Using corpora
- Applied linguistics:
- Lexicography: mono-lingual dictionaries, terminological, bi-lingual
- Language studies: hypothesis verification, knowledge discovery
(lexis, morphology, syntax, …) - Translation studies: a source translation equivalents and their contexts
translation memories, machine aided translations - Language learning: real-life examples
“idiomatic teaching”, curriculum development
- Language technology:
- testing set for developed methods;
- training set for inductive learning
1.3. Characteristics of a corpus
- Quantity:
the bigger, the better - Quality :
the texts are authentic; the mark-up is validated - Simplicity:
the computer representation is understandable, with the markup easily separated from the text - Documented:
the corpus contains bibliographic and other meta-data
1.4. Typology of corpora
- Corpora of written language, spoken and speech corpora (authenticity/price)
e.g. the agency ELRA catalog - Reference corpora (representative) and sub-language corpora (specialised)
e.g. BNC, ICE, COLT - Corpora with integral texts or of text samples (historical and legal reasons)
e.g. Brown - Static and monitor corpora (language change)
- Monolingual and multilingual parallel and comparable corpora
e.g. Hansard, Europarl - Plain text and annotated corpora
1.5. History
- 1950 — 1960: empiricism
weak computers: frequency lists - 1970 — 1980: cognitive modeling (generative approaches, artificial intelligence )
deep analysis / “basic science”: computational linguistics - 1990 — …: empiricist revival, also combined approaches
quantity / usefulness: language technologies - 2000 — …: The Web
- First milestones: Brown (1 million words) 1964; LOB (also 1M) 1974
- The spread of reference corpora: Cobuild Bank of English (monitor, 100..200..M) 1980; BNC (100M) 1995; Czech CNC (100M) 1998; Croatian HNK (100M) 1999…
- Slovene language reference corpora: FIDA (100M), Nova Beseda (100M…) 1998; FIDA+ (600M) 2006.
- EU corpus oriented projects in the ‘90: NERC, MULTEXT-East,…
- Language resources brokers: LDC 1992, ELRA 1995
Compilation of corpora,Examples of use and The future of corpus and data-driven linguistics
Compilation of corpora
1.1. Steps in the preparation of a corpus
-
Choosing the component texts:
linguistic and non-linguistic criteria; availability; simplicity; size
-
Copyright
sensitivity of source (financial and privacy considerations); agreement with providers; usage, publication
-
Acquiring digital originals
Web transfer; visit; OCR
-
Up-translation
conversion to standard format; consistency; character set encodings
-
Linguistic annotation
language dependent methods; errors
-
Documentation
TEI header; Open Archives etc.
-
Use / Download
-
(Web-based) concordancers for linguists
-
download needed for HLT use
-
licences for use
-
1.2. What annotation can be added to the text of the corpus?
Annotation = interpretation
-
Documentation about the corpus
-
Document structure
-
Basic linguistic markup: sentences, words , punctuation, abbreviations
-
Lemmas and morphosyntactic descriptions
-
Syntax
-
Alignment
-
Terms, semantics, anaphora, pragmatics, intonation,…
1.3. Markup Methods
-
hand annotation: documentation, first steps
generic (XML, spreadsheet) editors or specialised editors
-
semi-automatic: morphosyntactic and other linguistic annotation
cyclic approach: machine, hand, validate, correct, machine, …
-
machine, with hand-written rules: tokenisation
regular expression
-
machine, with inductivelly built models from annotated data:
“supervised learning”; HMMs, decision trees, inductive logic programming,…
-
machine, with inductivelly built models from un-annotated data:
“unsupervised leaning”; clustering technigues
-
overview of the field
1.4. Computer coding of corpora
A good encoding must ensure durability, enable interchange between computer platforms and applications
-
The basic standard used is Extended Markup Language, XML
-
There are a number of companion standards and technologies: XML transformations (XSLT), data definition (DTD, XML Schema, ISO Relax NG), addressing and queries (XPath, XQuery), …
-
The vocabulary of annotations for corpora and other language resources are defined by the Text Encoding Initiative, TEI
XML/TEI used much wider than just for corpora:
-
documentation: these slides slides
-
annotation of dictionaries: English-Slovene, Japanese-Slovene (from jaSlo)
-
for annotating text-critical editions
1.5. Examples of TEI encoding in corpora: meta-data
<teiHeader id=”ecmr.H” type=”text” lang=”sl-en” creator=ET
status=”update” date.created=”1999-04-13″ date.updated=”1999-06-22″ >
<fileDesc>
<titleStmt>
<title lang=”sl”>Ekonomsko ogledalo; 13 številk 98/99</title>
<title lang=”en”>Slovenian Economic Mirror; 13 issues, 98/99</title>
<respstmt>
<name>Andrej Skubic, FF</name>
<resp lang=”sl”>Zagotovitev digitalnega originala, poravnava</resp>
<resp lang=”en”>Provision of digital original, alignment</resp>
<name>Tomaž Erjavec, IJS</name>
<resp lang=”sl”>Tokenizacija, pretvorba v TEI</resp>
<resp lang=”en”>Tokenisation, conversion to TEI</resp>
</respStmt>
</titleStmt>
…
1.6. Examples of TEI encoding in corpora: Structure of the text
<quote id=”Osl.1.8.18″ rend=”center;it”>
<lg id=”Osl.1.8.18.1″>
<l id=”Osl.1.8.18.1.1″>Tam pod kostanjevim drevesom</l>
<l id=”Osl.1.8.18.1.2″>izdala si me,</l>
<l id=”Osl.1.8.18.1.3″>izdal sem te,</l>
<l id=”Osl.1.8.18.1.4″>ne da bi trenila z očesom.</l>
</lg>
</quote>
<p id=”Osl.1.8.19″>
<s id=”Osl.1.8.19.1″>Trije možje se niso niti ganili.</s>
<s id=”Osl.1.8.19.2″>Toda ko je <name>Winston</name>
znova pogledal v Rutherfordov propadli obraz, je opazil,
da so njegove oči polne solz.</s>
…
1.7. Examples of TEI encoding in corpora: Morphosyntactic descriptions
<s id=”Osl.1.2.2.1″>
<w lemma=”biti” ana=”Vcps-sma”>Bil</w>
<w lemma=”biti” ana=”Vcip3s–n”>je</w>
<w lemma=”jasen” ana=”Afpmsnn”>jasen</w><c>,</c>
<w lemma=”mrzel” ana=”Afpmsnn”>mrzel</w>
<w lemma=”aprilski” ana=”Aopmsn”>aprilski</w>
<w lemma=”dan” ana=”Ncmsn”>dan</w>
<w lemma=”in” ana=”Ccs”>in</w>
<w lemma=”ura” ana=”Ncfpn”>ure</w>
<w lemma=”biti” ana=”Vcip3p–n”>so</w>
<w lemma=”biti” ana=”Vmps-pfa”>bile</w>
<w lemma=”trinajst” ana=”Mcnpnl”>trinajst</w><c>.</c>
</s><fs id=”Vcps-sma” select=”sl” feats=”V0. V1.c V2.p V3.s V5.s V6.m V7.a”/>
<fs id=”Vcps-sman—-n” select=”cs” feats=”V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.n V13.n”/>
<fs id=”Vcps-smay—-n” select=”cs” feats=”V0. V1.c V2.p V3.s V5.s V6.m V7.a V8.y V13.n”/>
<fs id=”Vcps-sna” select=”sl” feats=”V0. V1.c V2.p V3.s V5.s V6.n V7.a”/>
<fs id=”Vcps-snan—-n” select=”cs” feats=”V0. V1.c V2.p V3.s V5.s V6.n V7.a V8.n V13.n”/><fLib type=”Verb”>
<f id=”V0.” select=”en ro sl cs bg et hu hr sr sl-rozaj” name=”PoS”><sym value=”Verb”/></f>
<f id=”V1.m” select=”en ro sl cs bg et hu hr sr sl-rozaj” name=”Type”><sym value=”main”/></f>
<f id=”V1.a” select=”en ro sl cs bg et hu hr sr sl-rozaj” name=”Type”><sym value=”auxiliary”/></f>
<f id=”V1.o” select=”en ro sl cs et hr sr sl-rozaj” name=”Type”><sym value=”modal”/></f>
<f id=”V1.c” select=”ro sl cs hr sr sl-rozaj” name=”Type”><sym value=”copula”/></f>
<f id=”V1.b” select=”en” name=”Type”><sym value=”base”/></f>
1.8. Examples of TEI encoding in corpora: Alignment
<linkGrp id=”Oslen.1″ type=”body” targtype=”s” domains=”Oen Osl”>
<link xtargets=”Osl.1.2.2.1 ; Oen.1.1.1.1″>
<link xtargets=”Osl.1.2.2.2 ; Oen.1.1.1.2″>
<link xtargets=”Osl.1.2.3.1 ; Oen.1.1.2.1″>
<link xtargets=”Osl.1.2.3.2 ; Oen.1.1.2.2″>
… <link xtargets=”Osl.1.2.6.5 ; Oen.1.1.5.5″>
<link xtargets=”Osl.1.2.6.6 ; Oen.1.1.5.6 Oen.1.1.5.7″>
<link xtargets=”Osl.1.2.6.7 ; Oen.1.1.5.8″>
…
2. Examples of use
2.1. Lexicology
-
Concordances and collocations
“You shall know a word by the company it keeps.” (Firth, 1957)
-
Induction of multilingual lexica:
-
D.Tufis, Ana-Maria Barbu: Revealing translators knowledge: statistical methods in constructing practical translation lexicons for language and speech processing, in International Journal on Speech Technology, Vol.5, No. 3, 2002 Kluwer Pbls.
-
Nancy Ide, Tomaž Erjavec and Dan Tufiş: Sense Discrimination with Parallel Corpora, in Proceedings of the SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. ACL2002, July Philadelphia 2002, pp. 56-60.
Automatically built 7-language dictionary from ‘1984′ corpus of EU project MULTEXT-East:
first 100 entries
-
2.2. Automatic translation
-
VIČIČ, Jernej, ERJAVEC, Tomaž. Statistično strojno prevajanje na osnovi vzporednih korpusov. ERK 2002, 23.-25. 2002.
The Menola translator
Slovene sentence: evropi vlada veliki brat
ELAN model: europe government big brother
Bible model: evropi brother chief upright .
Czech translation: evropi vláda velké bratr .
3. The future of corpus and data-driven linguistics
3.1. The future of corpus and data-driven linguistics
Size:
-
Larger quantities of readily accessible data (Web as corpus)
-
Larger storage and processing power (Moore law)
Complexity:
-
Deeper analysis:
syntax, deixis, semantic roles, dialogue acts, …
-
Multimodal corpora:
speech, film, transcriptions,…
-
Annotation levels and linking:
co-existence and linking of varied types of annotations; ambiguity
-
Development of tools and platforms:
precision, robustness, unsupervised learning, meta-learning
3.2. Development of corpus linguistics for smaller languages
-
varied, high-quality and accessible corpora
-
technology of morphosyntactic annotation / lemmatisation
-
syntactically annotated corpora (treebanks)
-
application of developed methods
-
development of curricula…
BIBLIOGRAPHY:
European Language Resources Asociation (ELRA)

A not-for.profit organisation, the European Language Resources Association (ELRA) association is established under the law of the Grand Duchy of Luxembourg. Its seat is in Luxembourg, headquarters in Paris (France).
A not-for.profit organisation, the European Language Resources Association (ELRA) association is established under the law of the Grand Duchy of Luxembourg. Its seat is in Luxembourg, headquarters in Paris (France).
Activities
Since its foundation in 1995, the European Language Resources Association (ELRA) has been a conduit for the distribution of speech, written and terminology Language Resources (LRs) for the Human Language Technology (HLT), a key compound of IST. In order to do so, a number of technical and logistic, commercial (prices, fees, royalties), legal (licensing, Intellectual Property Rights, Management), and information dissemination issues had to be addressed. Since its foundation, ELRA’s mission has enlarged slightly, broadening its objectives and responsibilities towards the HLT community. ELRA is now involved in the production, or commissioning of the production, of language resources through a number of initiatives, also actively committed to the evaluation of language engineering tools as well as to the identification of new resources. Finally, every other year, ELRA organizes a major conference LREC on language resources and evaluation; the latest edition has taken place in May 2006 in Genoa, Italy.
Mission
The mission of the Association is to promote language resources and evaluation for the Human Language Technology sector in all their forms and their uses, in a European context. Consequently, the goals are: to coordinate and carry out identification, production, validation, distribution, standardisation of languages resources, as well as support for evaluation of systems, products, tools, etc.
LANGUAGE RESOURCES (LRs)
DEFINITION
The term language resources refers to a set of speech or language data and descriptions in machine readable form, used e.g. for building, improving or evaluating natural language and speech algorithms or systems, or, as core resources for the software localisation and language services industries, for language studies, electronic publishing, international transactions, subject-area specialists and end users.
Examples of language resources are written and spoken corpora, computational lexicons, terminology databases, speech collection and processing, etc. Basic software tools are also important for the acquisition, preparation, collection, management, customisation and use of these language resources and other resources.
APPLICATIONS

BIBLIOGRAPHY:
del.icio.us
This semester, we did a review of the “del.icio.us” program that we met the last semester in “Digital Resources Management”.
I’m going to do a short introduction of that program, that in my opinion, I think that it is a very important program that we never had heart before.
What is del.icio.us?
“del.icio.us” is a collection of favorites – yours and everyone else’s. You can use del.icio.us to:
- Keep links to your favorite articles, blogs, music, reviews, recipes, and more, and access them from any computer on the web.
- Share favorites with friends, family, coworkers, and the del.icio.us community.
- Discover new things. Everything on del.icio.us is someone’s favorite — they’ve already done the work of finding it. So del.icio.us is full of bookmarks about technology, entertainment, useful information, and more. Explore and enjoy.
“del.icio.us” is a social bookmarking website — the primary use of del.icio.us is to store your bookmarks online, which allows you to access the same bookmarks from any computer and add bookmarks from anywhere, too. On del.icio.us, you can use tags to organize and remember your bookmarks, which is a much more flexible system than folders.
You can also use del.icio.us to see the interesting links that your friends and other people bookmark, and share links with them in return. You can even browse and search del.icio.us to discover the cool and useful bookmarks that everyone else has saved — which is made easy with tags.
What can I use del.icio.us for?
del.icio.us is an open-ended system, so you decide how you want to use it. Here are examples of things you can do with saving bookmarks on del.icio.us:
- Research – Writing an article? Researching an industry? Slaving away on your dissertation? Use del.icio.us to keep track of all the source materials and commentary that you find online.
- Wishlist – Go to any commerce site, find what you like, save it to del.icio.us and tag it as wishlist. Then you can tell people to check out your wishlist bookmarks by giving them a link to http://del.icio.us/username/wishlist .
- Podcast – Want to hear some great podcasts? Visit the mp3+podcast tag combination and start listening. Are you a podcaster? Start posting your mp3 files to del.icio.us and we will create an RSS feed for you.
- Vacation – Planning a trip? Save links to hotels, activities, and transportation and use tags like “travel”, “vacation”, and “to-visit”. Collaborate with friends and family by using the “for:username” tag.
- Linklog – Save bookmarks to interesting websites and add a bit of commentary to create a lightweight linklog. Then, use linkrolls or the daily blog posting feature to include your del.icio.us bookmarks on your blog or website.
- Cookbook – Whenever you find a great recipe on a website, save it to del.icio.us. Tag it with the recipe’s ingredients or style of cooking, and then when you’re wondering what to make for dinner, you can use your saved bookmarks to help you remember the perfect recipe.
- Collaboration – Friends, coworkers, and other groups can use a shared account, special tag, or their del.icio.us networks to collect and organize bookmarks that are relevant — and useful — to the entire group.
CLUVI
El corpus Lingüístico de la Universidad de Vigo es un corpus lingüístico paralelo de la traducción elaborada por el Seminario de Lingüística Informática de la Universidad de Vigo
El CLUVI puede ser consultado libremente en la web en el enlace http://sli.uvigo.es/CLUVI. Su extensión total actual es de unos 22 millones de palabras.
Las secciones principales de CLUVI son estas:
- Corpus xurídico LEGA galego-español (5.877.769 palabras)
- Corpus UNESCO inglés-galego-francés-español de divulgación científica (3.724.620 palabras)
- Corpus LOGALIZA de localización de software inglés-galego (1.701.834 palabras)
- Corpus literario TECTRA inglés-galego (1.476.020 palabras)
- Corpus literario FEGA francés-galego (1.267.119 palabras)
- Corpus CONSUMER español-galego-catalán-euskara de información sobre consumo (5.586.431 palabras)
- Corpus xurídico LEGE-BI euskara-castelán (2.384.053 palabras)
Otras secciones de CLUVI que se encuentran en construcción son:
- Corpus EGAL de economía galego-castelán (718.642 palabras)
- Corpus literario TECTRA inglés-portugués (735.529 palabras)
- Corpus literario TECTRA inglés-castelán (122.251 palabras)
- Corpus literario DEGA alemán-galego (76.364 palabras)
- Corpus VEIGA de subtitulación de películas inglés-galego (78.032 palabras)
- Corpus PALOP de literatura poscolonial portugués-castelán (566.590 palabras)
En esta página viene muy bien explicado el sistema de búsqueda de palabras simples o de expresiones. Nos muestra paso a paso lo que debemos hacer efectuar la búsqueda. A la hora de construir una expresión regular de tipo PCRE , los símbolos más importantes que se pueden utilizar son los siguientes:
Símbolos para caracteres
- . – calquera carácter, incluído o espacio en branco
- \w – calquera carácter que poida formar parte dunha palabra, como letras, números e guións de subliñado
- \d – calquera díxito
- \s – calquera tipo de espacio en branco (espacio, tabulación, salto de liña, salto de páxina…)
- \b – límite de palabra
- [abc] – un dos caracteres da serie, isto é, “a” ou “b” ou “c”
- [^abc] – calquera carácter que non sexa nin “a”, nin “b”, nin “c”
- [0-9] – calquera número de 0 a 9, isto é, “0″, ou “1″, ou “2″…
- [a-z] – calquera letra do “a” ao “z”, isto é, “a”, ou “b”, ou “c”, ou “d”…
- (abc|xyz) – unha das dúas secuencias de caracteres: “abc” ou “xyz”
Símbolos de repetición
- x+ (unha ou máis aparicións do carácter “x”, isto é “x”, “xx”, “xxx”….)
- x? (ningunha ou unha aparición do carácter “x”, isto é “” ou “x”)
- x* (ningunha, unha ou máis aparicións do carácter “x”, isto é “”, “x”, “xx”, “xxx”….)
- x{n} (o carácter “x” repetido “n” veces seguidas)
- x{m, n} (o carácter “x” repetido entre “m” e “n” veces seguidas)
Símbolos de literalidade
- \+ (o carácter “+”)
- \* (o carácter “*”)
- \. (o carácter “.”)
- \? (o carácter “?”)
En esta página también aparece una sección sobre las obras que están disponibles, una extensa lista ordenada sobre las obras que incluye esta página y sobre las que se hace la búsqueda. Aparecen divididas según el tema y sobretodo según los idiomas.
Una de las partes más interesantes que presenta esta página es la de “más información”, donde aparece una definición muy detallada sobre lo que es el CLUVI y de lo que trata y ofrece. En esta sección, podemos encontrar también enlaces de artículos sobre CLUVI muy interesantes, y también información sobre los proyectos de investigación sobre CLUVI y el Seminario de Lingüística informática.
Y por último quería comentar una cosa muy importante sobre esta página, que es que existe la posibilidad de cambiar el idioma de gallego al inglés, simplemente haciendo un click, y que esto hara que esta página siga cosechando tanto éxito ya no sólo en nuestro país, sino que ya extendiendose mucho más.
BIBLIOGRAPHY
DEFINICIÓN DE CORPUS
El concepto de llevar a cabo la investigación sobre textos hablados o escritos no se limita a la lingüística de corpus. De hecho, a menudo, cada uno de los textos se utilizan para muchos tipos de obras literarias y análisis lingüístico – el análisis estilístico de un poema, una conversación o análisis de un talk show de televisión. Sin embargo, la noción de un corpus como la base para una forma empírica de la lingüística es diferente de varias menras del único examen de los textos fundamentales. En principio, cualquier colección de más de un texto puede ser llamado un corpus (corpus para ser latín “cuerpo”, por lo tanto, un corpus es cualquier cuerpo de texto). Pero el término “corpus” cuando se utiliza en el contexto de la lingüística moderna tiende con mayor frecuencia a tener más connotaciones específicas que esta simple definición.
La siguiente lista describe los cuatro principales características del corpus moderno:
- Forma legible por máquina
- Un patrón de referencia
- Muestreo y representatividad
- Tamaño pequeño
METADATA
Metadatos son datos que describen otros datos. En general, un grupo de metadatos se refiere a un grupo de datos, llamado recurso.
El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos.
Se clasifica metadatos usando tres criterios:
- Contenido. Subdividir metadatos por su contenido es lo más común. Se puede separar los metadatos que describen el recurso mismo de los que describen el contenido del recurso.
- Función. Los datos pueden ser parte de una de las tres capas de funciones: subsimbólicos, simbólicos o lógicos. Los datos subsimbólicos no contienen información sobre su significado. Los simbólicos describen datos subsimbólicos, es decir añaden sentido. Los datos lógicos describen cómo los datos simbólicos pueden ser usados para deducir conclusiones lógicas, es decir añaden comprensión.
ESTEBAN TERREROS Y PANDO
Esteban Terreros y Pando nació el día 12 de Julio del año 1707 en Trucios. Aparte de dedicarse a la docencia también destacó en otras facetas como por ejemplo lexicógrafo, paleógrafo, traductor, y didacta de la lengua.
Entre las múltiples facetas de este polifacético vizcaíno tenemos que destacar dos que están relacionadas entre sí: la de traductor y la de lexicógrafo. Su labor de traducción le demandó la elaboración de un trabajo lexicográfico, que es considerado por los expertos “como el más importante diccionario del siglo XVIII, tanto por recoger el léxico general y el científico y técnico, como por el carácter marcadamente enciclopédico que dan las minuciosas descripciones hechas por su autor en cada artículo”.
Finalmente Esteban Terreros y Pando falleció en Forlí el día 3 de enero del 1782 a sus 75 años de edad.
*Lista de unos trabajos, muy preciados por la gente, que hizo durante su vida:
- Paleografía española (Madrid, 1758).
- Reglas de la lengua toscana o italiana (Forlí, 1771).
- Diccionario castellano con las voces de ciencias y artes y sus correspondientes en las tres lenguas francesa, latina é italiana (Madrid, 1786-1793), 4 v.
- Espectáculo de la Naturaleza, o conversaciones acerca de las particularidades de la Historia Natura (Madrid, 1753-1755), 16 v.
- Carta de un padre de familias, en orden de la educación de la juventud, de uno y otro sexo (Madrid, 1754).
Bibliografía Digital
- CINDOC: Centro de información y documentación científica. Su función primordial es prestar apoyo documental a proyectos científicos, desarrollar proyectos de investigación, recopilar información científica, promover cursos de especialización y proporcionar cuanta información científica requieran los usuarios. Permite la consulta a través de la web de bibliografía especializada de tipo científico y académico.
- PARES: Portal de Archívos Españoles. Destinado a la difusión en Internet del Patrimonio Histórico Documental Español conservado en su red de centros. PARES ofrece un acceso libre y gratuito, no solo al investigador, sino también a cualquier ciudadano interesado en acceder a los documentos con imágenes digitalizadas de los Archivos Españoles.
- AHEB: Arvhivo histórico eclesiástico de Bizkaia. Contiene todo tipo de documentación relativa a cuestiones eclesiásticas de la diócesis de Vizcaya. Su personal asesora a los usuarios presenciales y facilita el acceso a las copias. Sólo una pequeña parte de los fondos del archivo están disponibles para su consulta on-line. Para el resto es necesario personarse en las dependencias de esta institución situada en el edificio del Seminario Mayor de Derio. El archivo también ofrece un servicio de reprografía que permite la realización de extractos y copias literales de los documentos.
- ISOC: Instituto de Información en Ciencias Sociales y Humanidades. Analiza desde 1975 toda la información publicada en las revistas españolas.