Datennutzung durch KI
Einem Bericht der New York Times ist zu entnehmen, wie die großen KI-Akteure versucht haben, ihren Zugang zu neuen Daten zu ermöglichen.
Kürzlich berichtete die Wall Street Journal, dass KI-Unternehmen auf Schwierigkeiten stoßen, hochwertige Trainingsdaten zu sammeln. Heute hat die New York Times einige Möglichkeiten aufgezeigt, wie Unternehmen damit umgegangen sind. Es ist wenig überraschend, dass dies Maßnahmen beinhaltet, die in den rechtlichen Grauzonen des Urheberrechts im Bereich KI liegen.
Die Geschichte beginnt mit OpenAI, das angeblich seine Whisper-Audio-Transkriptionsmodell entwickelte, um über den Berg zu kommen, indem es über eine Million Stunden YouTube-Videos transkribierte, um GPT-4 zu trainieren, sein fortschrittlichstes großes Sprachmodell. Laut der New York Times wusste das Unternehmen, dass dies rechtlich fragwürdig war, glaubte aber, dass es fair use sei. OpenAI-Präsident Greg Brockman war persönlich daran beteiligt, Videos zu sammeln, die verwendet wurden, so die Times.
Empfohlen von LinkedIn
OpenAI-Sprecherin Lindsay Held sagte The Verge in einer E-Mail, dass das Unternehmen "einzigartige" Datensätze für jedes seiner Modelle kuratiert, um deren Verständnis der Welt zu verbessern und seine globale Forschungswettbewerbsfähigkeit aufrechtzuerhalten. Held fügte hinzu, dass das Unternehmen "zahlreiche Quellen einschließlich öffentlich verfügbarer Daten und Partnerschaften für nicht-öffentliche Daten" verwendet und daran arbeitet, eigene synthetische Daten zu generieren.
Der Times-Artikel besagt, dass das Unternehmen im Jahr 2021 die Vorräte an nützlichen Daten aufgebraucht hatte und nach dem Verbrauch anderer Ressourcen die Möglichkeit der Transkription von YouTube-Videos, Podcasts und Hörbüchern diskutierte. Zu diesem Zeitpunkt hatte es seine Modelle auf Daten trainiert, die Computercode von Github, Schachzug-Datenbanken und Schulmaterial von Quizlet enthielten. YouTube-CEO Neal Mohan äußerte ähnliches über die Möglichkeit, dass OpenAI diese Woche YouTube verwendet hat, um sein Sora-Videoerstellungsmodell zu trainieren.
Google sammelte auch Transkripte von YouTube, so die Quellen der Times. Bryant sagte, dass das Unternehmen seine Modelle "auf einigen YouTube-Inhalten trainiert hat, in Übereinstimmung mit unseren Vereinbarungen mit YouTube-Erstellern." Die Times schreibt, dass die Rechtsabteilung von Google das Datenschutzteam des Unternehmens gebeten hat, die Richtliniensprache zu ändern, um zu erweitern, was es mit Verbraucherdaten tun konnte, wie beispielsweise seine Büro-Tools wie Google Docs.
AI Experts - Join our Network of AI Speakers, Consultants and AI Solution Providers. Message me for info.
7 MonateSehr interessante Entwicklungen im Bereich KI-Forschung!
LinkedIn Top Sales Voice | Helping Businesses Grow | Lead Generation | Head of Sales | Recruitment Specialist | Marketing Strategist | Consultant
7 MonateSehr spannend!