Metadata via Artificiële Intelligentie
Hoe kunnen we het beschrijven van publicaties in Open Vlacc vereenvoudigen, efficiënter en ook ‘consistenter’ maken met behulp van slimme technieken? Snel en kwalitatief staan tegenover arbeidsintensief en subjectief in het hele catalografieproces. Daarom willen we de toepassing van artificiële intelligentie (AI) binnen de catalografie onderzoeken. Kan AI ervoor zorgen dat we het catalogiseren kunnen optimaliseren?
Het project
We willen voor de catalografen van het Bibliografisch Centrum en de invoerpartners een nieuwe manier van catalogiseren mogelijk maken op basis van artificiële intelligentie. Met als verschillende doelen:
- Het catalografieproces objectiever en consistenter maken, waarbij de focus ligt op de inhoudelijke ontsluiting.
- Het catalografieproces versnellen voor de toekenning SISO, ZIZO en etiketgenres.
- Het catalografieproces efficiënter maken: de AI-suggesties op vlak van plaatsing moeten ervoor zorgen dat catalografen minder tijd verliezen aan opzoekwerk waardoor een titel beschrijven sneller kan gebeuren.
- Documenteren en bijleren hoe we het catalografieproces kunnen vernieuwen vanuit een nieuwe werkwijze voor het toekennen van onderwerpen (trefwoorden en/of thema’s).
Stand van zaken
Het project AI en catalografie is een innovatieproject waarin we in de eerste fase vanuit meerdere experimenten (piloten) vertrokken zijn. We zetten de voorbije maanden verschillende kleinere deelexperimenten op poten:
- Via verschillende (open source) AI-tools, zoals annif, BERT- en GPT-modellen laten we in een testomgeving KleuterZIZO, ZIZO volwassenen en genres voor net verschenen titels voorspellen.
- Voor onderwerpen (thema’s en trefwoorden) hebben we in een experiment onderzocht of we via GPT-4 onderwerpen kunnen laten voorspellen voor diezelfde titels, maar dan los van onze bestaande lijsten. Doel hierbij is om te evalueren of we deze onderwerpen mee kunnen nemen in de catalografieflow dan wel als extra ondersteuning voor het zoeken in de catalogus kunnen inschakelen.
- Tot slot onderzoeken we nog twee pistes om SISO te laten toekennen door AI. SISO is veel uitgebreider dan een ZIZO-systeem. We hebben niet voor elke rubriek een voorbeeld in de catalogus. Daarom namen we SISO nog niet in de eerdere experimenten mee, maar behandelen we dit via een eigen deelexperiment.
Eind juni ronden we de testfase van alle piloten af en evalueren we de eindresultaten. We onderzoeken dan welke van de geteste AI-tools en taalmodellen we kunnen opschalen als bruikbare toepassing in de catalografische workflow. Idealiter wordt de toepassing ook ingebed in het nieuwe invoersysteem.
Het plan
- Midden 2024: afronden experimenteerjaar + eindrapport
- Augustus - september 2024: aanbesteding
- Vanaf oktober 2024: start opschaling
- Eind 2025: afronding van het project.