Zo bouwde Beeld & Geluid zijn immense online media-archief de Schatkamer

Afgelopen maand zette Beeld & Geluid de deuren van de Schatkamer open: een streamingplatform waarop een archief van ongeveer 700.000 Nederlandse radio- en televisieprogramma's openbaar beschikbaar is. Wat kwam er zoal kijken bij de vier jaar durende ontwikkeling van dit monsterproject?

Het was een ambitieuze opdracht, die Beeld & Geluid in 2021 kreeg van het kabinet-Rutte IV: maak zoveel mogelijk van de gearchiveerde programma's online beschikbaar. Het instituut beheert al jaren een Nederlands archief van radio- en tv-programma's, dat teruggaat tot eind 19e eeuw. Tot dusver was die Nederlandse mediageschiedenis alleen niet openbaar te zien. Het algemene publiek kon de programma's alleen in het museum zelf of (tegen betaling) op aanvraag bekijken.

Dat dit nu wél kan, komt door een nieuwe Europese auteursrechtrichtlijn. Deze richtlijn zorgt ervoor dat het erfgoedbelang van programma's die niet langer in de handel zijn, zwaarder weegt dan een eventueel commercieel belang. Vervolgens hebben de NPO, Beeld & Geluid en andere producenten en omroepen een convenant opgesteld om deze wet te concretiseren voor audiovisueel materiaal.

In deze afspraak staat onder meer dat dergelijk 'out-of-commercemateriaal' minstens 25 jaar oud moet zijn. Ook moeten rechthebbenden de mogelijkheid krijgen om hun toestemming op ieder moment in te trekken via een opt-outconstructie. Voor meer dan negentig procent van deze titels kreeg Beeld & Geluid toestemming.

Zo werd het ineens realistisch om in één keer een zeer groot deel van het archief te publiceren. Beeld & Geluid kreeg vanuit het ministerie van Onderwijs, Cultuur en Wetenschap budget om ook veel titels die jonger zijn dan 25 jaar af te kopen. Ongeveer 50 procent van het gehele archief van Beeld & Geluid is nu online toegankelijk.

Dat sommige content nog ontbreekt, hoeft niet per se te maken te hebben met een gebrek aan rechten. Het kan ook zijn dat het programma gewoonweg niet volledig is gearchiveerd.

In het verleden kwam het voor dat programmamakers slechts een deel van de afleveringen archiveerden. Van oude programma's als 'Ja zuster, nee zuster' is een groot aantal afleveringen verloren gegaan met de tijd.

Beeld & Geluid hoopt een deel van de lost media toch te kunnen archiveren door mensen op te roepen om videobanden op te sturen met verloren gewaand materiaal. Daardoor zijn onder meer oude Jeugdjournaal-afleveringen al boven water gehaald.

Nu de rechten het mogelijk maakten om veel content online te zetten, was het zaak om een streamingplatform op te tuigen. De backend maakt in de basis nog gebruik van dezelfde (ingekochte) software die al in gebruik is voor de andere portals waarop de programma's digitaal toegankelijk zijn. Dat zijn die voor het museum, voor onderwijs, onderzoekers en mediamakers.

Beeld & Geluid wilde de portal van de Schatkamer alleen een stuk gebruiksvriendelijker maken; daar had het instituut ook voldoende budget voor. De taak was dus om een platform te bouwen dat meekan met andere streamingdiensten, zoals Netflix. Het belangrijkste daarbij was dat bezoekers de bergen content eenvoudig moeten kunnen doorzoeken. Om programma's goed vindbaar te maken, moet er voor alle content voldoende metadata aanwezig zijn.

Aanvankelijk was de datakwaliteit niet goed op orde, vertelt Willemijn Dijkhuizen, productmanager van de Schatkamer. "Ons archiefsysteem bestaat uit een fusie van een hoop andere archieven. De hoeveelheid metadata verschilt dus ontzettend. De ene keer hebben we een titel van twee karakters, de andere keer van tweeduizend. Er zit letterlijk geen validatie op."

Beeld & Geluid heeft geprobeerd zoveel mogelijk van die metadatabreuken op te lossen, maar dat blijft werk in uitvoering. "Dat vond ik best spannend aan dit project", zegt Dijkhuizen. "Als je een website maakt, weet je normaliter precies wat je gaat publiceren. Maar door de grote hoeveelheid aan materiaal konden we niet alles op voorhand controleren." Dat geldt bijvoorbeeld ook voor het aanwezige propagandamateriaal uit de Tweede Wereldoorlog. "We proberen daar context bij te geven, maar ik heb het gevoel dat het Nederlandse publiek wel snapt dat we vooral een archief zijn en dat een archief ook kan schuren."

Voordat het bedrijf Hypersolid begon met de bouw van de Schatkamer, had Beeld & Geluid de vereisten al vrij gedetailleerd vastgelegd in een Programma van Eisen. Daarin stond bijvoorbeeld dat de architectuur op Kubernetes gebaseerd moest zijn, vertelt projectmanager Frank Lippes. "Het moest een hybride architectuur zijn, waarbij we makkelijk componenten tussen de cloud en on-prem kunnen verplaatsen."

Andere specifieke eisen gingen onder meer over de herstelbaarheid van de systemen, de aanwezigheid van een personenpagina en de maximale responstijd van een zoekopdracht (te weten: twee seconden).

Het verzamelen van de metadata was een van de eerste taken van Hypersolid, het bedrijf dat de aanbesteding voor de bouw van de Schatkamer won. Hypersolid haalde samen met partner Oncore de data op met het OAI-PMH-protocol, sloeg deze raw op en maakte hem relationeel, legt Frank Lippes uit, projectmanager bij Hypersolid. "Soms is bijvoorbeeld de titel van een programma niet ingevuld, maar staat er wel een titel in een ander metadataveld, dus gebruiken we die. Als de functie van een persoon in zijn naam staat, halen we die eruit. We hebben alles bij elkaar best wat datatransformaties doorgevoerd."

Tegelijkertijd heeft Beeld & Geluid er bewust voor gekozen om bepaalde informatie die wél aanwezig was in de metadata, niet te gebruiken voor de Schatkamer. Zo staat er bij de programma's geen (technische) achtergrondinformatie getoond, zoals over de oorspronkelijke datadrager van het programma. Ook is er bij de programma's bewust geen opdeling in seizoenen. "Dat waren allemaal overwegingen om het platform zo simpel mogelijk te maken voor de huis-tuin-en-keukengebruiker", verklaart Dijkhuizen.

Uiteindelijk is alle relevante metadata in een grote zoekmachine gestopt: Elasticsearch. "Het was daarbij de uitdaging om te bepalen hoeveel gewicht we aan ieder veld geven", vervolgt Lippes. Hypersolid wilde voorkomen dat bezoekers allerlei irrelevante programma's in de zoekopdrachten tegenkwamen. Er is dan ook besloten om de ondertiteling niet doorzoekbaar te maken, want dat zou leiden tot veel valspositieve resultaten. "Het was flink zoeken naar een goede balans, waarbij je gemiddeld gezien alles goed kan vinden."

Vervolgens heeft Hypersolid aan de voorkant de homepagina en informatiepagina's ontwikkeld. Tienduizenden mensen die te zien zijn in items op de Schatkamer, hebben een eigen pagina gekregen. Hiervoor heeft Lippes een Wikidata-scraper gevibecoded. Die haalt de data van de personen, zoals een korte bio en afbeelding, automatisch van Wikidata en Wikipedia.

De hosting van de hele infrastructuur gebeurt bij CloudFront van Amazon, in plaats van bij een Europees alternatief. "Toen deze keuze drie jaar geleden werd gemaakt, was er geen Europese content delivery network voor deze schaal beschikbaar", verklaart Tristan Zondag, ict-engineer bij Beeld & Geluid. "Misschien is dat er inmiddels wel, maar als we zouden overstappen, moeten we bij AWS 500 terabyte aan egresskosten betalen, dus dat doet wel pijn."

Hoewel de bouw van het platform zelf ongeveer een jaar in beslag nam, ging er een hoop voorbereidingswerk aan vooraf. Het was vooral een behoorlijk tijdrovende klus om de honderdduizenden videobestanden geschikt te maken voor streaming. Hoewel de meeste programma's al waren gedigitaliseerd, moesten ze voor dit project worden geüpload naar AWS Media Converter om er HLS-streams van te maken.

De eerste stap daarvoor was een omzetting naar een mezzanine-tussenformaat, vertelt Zondag. "We zijn in juni 2023 begonnen met het transcoderen van videobestanden naar een tussenformaat van hoge kwaliteit MP4 met een bitrate van 8Mbit/s voor hd-bestanden en 4Mbit/s voor sd-bestanden. Dit proces is nog steeds niet klaar. Voor versie 1 wilden we alle content tot 2020 beschikbaar hebben, maar we zijn nu bezig om alle nieuwere content ook te uploaden naar AWS. Zodra die content wordt vrijgegeven, kunnen we die meteen publiceren."

De MP4-bestanden in het tussenformaat worden bij het transcoderen naar een nas bij Beeld & Geluid geschreven, vervolgt Zondag. "Software van Qumulo presenteert dat als SMB- en NFS-shares." In totaal gaat het om meer dan 700TB aan data. Dat zijn dankzij compressie al veel minder terabytes dan de bestanden innemen op de fysieke tapes in de kelder van Beeld & Geluid. Daarbij gaat het om zo'n 18 petabyte aan data.

Deze bestanden staan allemaal opgeslagen op LTO-tapes. Momenteel is Beeld & Geluid bezig met de migratie van LTO-5-tapes van 1,5TB per stuk naar LTO-8 van 12TB. "De groei van de opslagcapaciteit gaat harder dan de groei van het archief", vertelt Zondag. "We hebben steeds minder tapes nodig om het archief op te slaan." Over twee jaar gaat Beeld & Geluid over naar LTO-10, waarbij zelfs 30TB per tape op past.

De taperobot waarin al deze tapes zijn opgeslagen is al relatief compact, maar wordt in de toekomst nog kleiner. In het huidige systeem is ruimte voor 10.000 LTO-tapes, maar met LTO-10 zijn er maar 600 tapes nodig. Beeld & Geluid gaat dan ook overstappen op een unit met ruimte voor 1000 tapes. Van al deze bestanden worden minstens twee kopieën elders in Nederland opgeslagen. De originele gegevensdragers (bijvoorbeeld Betamax) zijn ook nog aanwezig in het gebouw; de depots waarin die zijn opgeslagen beslaan meerdere kilometers.

Het uploaden van content naar AWS en oplossen van de metadatabreuken zijn niet de enige projecten die nu nog lopen. Beeld & Geluid worstelt ook al geruime tijd met de beeldverhoudingen van bepaalde content. "In de jaren 2000 tot 2012 was er nog geen hd-televisie, maar wel breedbeeldtelevisie", legt Zondag uit. "In die tijd hebben omroepen ervoor gekozen om breedbeeldmateriaal in 4:3-formaat anamorf op te slaan. 16:9-beelden werden in het uitzendsysteem dus ingedrukt voor 4:3-televisies."

Toen Beeld & Geluid die uitzendbanden later digitaliseerde, waren alle bestanden standaard in dat 4:3-formaat. Alles zag er dus uitgerekt uit. Zondag vervolgt: "Ik ben in de database gedoken om te kijken of we ergens metadata konden achterhalen om erachter te komen welke bestanden de verkeerde beeldverhouding hadden, maar dat is maar deels gelukt."

Beeld & Geluid begon daarop een crowdsourceproject om mensen de beelden handmatig te laten beoordelen, maar dat was een traag en duur proces. Vervolgens zocht het instituut naar een cloudleverancier die de beelden kon analyseren. "We vonden een geschikt bedrijf uit Hongkong, maar onze juridische afdeling wilde niet dat we data gingen uploaden naar een server die onder Chinese controle stond."

Uiteindelijk ging Beeld & Geluid in zee met een Italiaans bedrijf dat een machinelearningtool op maat ontwikkelde. Die is met de data van Beeld & Geluid getraind en draait on-prem in Hilversum. In drie weken tijd heeft de tool het hele archief geanalyseerd. Dit project is alleen nog niet klaar, omdat uit de eerste keer draaien bleek dat hij niet met alle content even goed overweg kan. De tool gaat bijvoorbeeld de mist in bij Sesamstraat, omdat poppen als Bert standaard al een uitgerekt koppie hebben.

"We zijn nu bezig om de tool nog een keer te draaien met die uitzonderingen, zodat we de bronbestanden in ons archief kunnen aanpassen." Vooralsnog kan het dus voorkomen dat programma's in de Schatkamer in de verkeerde beeldverhouding worden getoond, maar er is wel een knopje waarmee gebruikers de beeldverhouding handmatig kunnen aanpassen.

Nadat de Schatkamer vorige maand online ging, werd het platform volgens Dijkhuizen al snel veel populairder dan verwacht. "We hadden gemikt op 500.000 bezoekers in het eerste jaar, maar die hadden we al in de eerste drie dagen." Lippes: "We hadden de cachetijden wel preventief verhoogd, omdat we zeker wilden weten dat we niet plat zouden gaan." Zondag vult aan: "We hebben bij AWS bijvoorbeeld ook de grootste VM's genomen voor Elasticsearch, want voor een week zijn de kosten wel te overzien."

Beeld & Geluid heeft het budget om het platform in elk geval tot en met 2027 door te ontwikkelen. Het instituut is onder meer bezig met de toevoeging van nieuwe programma's, want momenteel lopen er nog veel gesprekken met rechthebbenden.

Aan de featurekant wordt ook doorontwikkeld. Het gaat dan bijvoorbeeld om het toevoegen van meer personalisatiemogelijkheden. Ook andere wensen, zoals het maken van een telefoon- en televisie-app, zijn onderwerp van gesprek. "Ik denk dat we dat allemaal wel willen, maar het is een tijd- en geldvraagstuk", zegt Dijkhuizen. "Voor 2026 zie ik eerder gebeuren dat we naast de Chromecast-ondersteuning ook nog AirPlay-ondersteuning kunnen toevoegen. Maar de toekomst na 2026 ligt echt nog open."

Redactie: Kevin Krikhaar • Eindredactie: Marger Verschuur

Source: Tweakers.net

Home

Zo bouwde Beeld & Geluid zijn immense online media-archief de Schatkamer