15.08.2023
Media

NYT laat zich niet meer ‘misbruiken’ door AI-chatbots

By: Ron Smeets

BlogMedia

ChatGPT, Bard en andere generatieve AI-chatbots zijn voor een groot deel afhankelijk van input die zowel handmatig als automatisch in hun ‘systemen’ gepompt wordt. Allemaal content die ze nodig hebben als training zodat ze zelf weer goede antwoorden, en content, kunnen leveren. Een groot deel van de ‘training’ gebeurt automatisch. De chatbots zuigen, simpel gezegd, als het ware hele sites en databases leeg om zo alwetend mogelijk te worden. Over dat ‘content zuigen’ is de afgelopen maanden al wat commotie ontstaan, vooral over privacygevoelige gegevens en data die op deze manier op straat komt te liggen.

AI-training met NYT content verboden

Kranten en andere nieuwssites zijn natuurlijk een hele waardevolle bron van informatie voor het trainen van generatieve AI-tools. Welnu, de New York Times heeft onlangs haar voorwaarden aangepast. De krant verbiedt nu het gebruik van haar content om AI-tools mee te trainen. Het is niet de eerste keer dat de media actie onderneemt tegen het ‘zomaar leegzuigen’ en gebruik van hun content.

In de nieuwe voorwaarden staat dat die gelden voor alle content, tekst, foto’s, afbeeldingen, illustraties, ontwerpen, audioclips, videoclips, “look and feel” en metadata. Daarnaast mogen van de NYT webcrawlers pagina’s niet meer indexeren zodat LLM’s of AI-tools deze kunnen gebruiken om hun systemen te trainen.

De krant dreigt bij overtreding van de nieuwe voorwaarden met boetes. Al is het nog niet duidelijk hoe ze overtredingen gaan opsporen. Webcrawlers, ook die van zoekmachines, indexeren pagina’s, maar daarmee kun je niet zien of dat voor een zoekmachine is, of voor het trainen van een AI-tool of LLM aan de hand van de content van de geïndexeerde pagina.

Chatbot bedrijven terughoudend

Hoe de verschillende chatbots van Google en OpenAI getraind worden, daar doen de bedrijven nogal geheimzinnig over. Ze willen natuurlijk, en begrijpelijk, niet te diep in hun keuken laten kijken.

Uit onderzoek van onder andere The Washington Post, is gebleken dat Google voor het trainen haar kleinere versie van de CommomCrawl dataset de inhoud van 15 miljoen websites gebruikt. Daar zit ook de New York Times bij. Die crawler wordt gebruikt om LLM’s zoals Meta’s LLaMAa en Google’s T5 te trainen – een open-source taalmodel dat ontwikkelaars helpt bij het bouwen van software voor vertaaltaken.

Share this post