Kanäle
Jetzt personalisiertes
Audiomagazin abonnieren
Log-in registrieren
forum verwendet Cookies und andere Analysewerkzeuge um den Dienst bereitzustellen und um dein Website-Erlebnis zu verbessern.

handverlesenswert

Kluge Köpfe filtern für dich relevante Beiträge aus dem Netz.
Entdecke handverlesene Artikel, Videos und Audios zu deinen Themen.

Du befindest dich im Kanal:

Technologie und Gesellschaft

KI-Leistungstests – größtenteils Willkür

Jannis Brühl
Redakteur
Zum Kurator'innen-Profil
Jannis BrühlMittwoch, 31.07.2024

Es ist ein Überbietungswettbewerb: Im Rhythmus weniger Wochen veröffentlichen KI-Unternehmen wie OpenAI, Meta, Google, Anthropic und andere neue Versionen ihrer KI-Modelle. Noch größer, noch mehr weights, und noch mehr Fähigkeiten in Mathematik, Logik und Sprache – behaupten zumindest die Unternehmen hinter den Modellen. Immer wieder geben sie an, dass ihre KIs die der Konkurrenz in "Benchmark"-Vergleichen schlagen, die meist aus Multiple-Choice-Wissenstests und kleinen Logikaufgaben und moralischen Fragen bestehen. Zuletzt war es Meta, dessen neuestes Llama-Modell mit Chat-GPT Turbo von OpenAI und Claude Sonnet 3.5 von Anthropic gleichgezogen sein soll.

The Markup, ein auf Algorithmen-Recherchen spezialisiertes US-Portal, hat sich diese Performance-Vergleiche genauer angesehen, die in Tech-Zirkeln seit dem Boom der LLMs immer wieder die Runde machen und von Fanboys und Griftern oft marktschreierisch verkündet werden. Fazit der Recherche:

many benchmarks were designed to test systems far simpler than those in use today. Some are years old, increasing the chance that models have already ingested these tests when being trained. Many were created by scraping amateur user-generated content like Wikihow, Reddit, and trivia websites rather than collaborating with experts in specialized fields. Others used Mechanical Turk gig workers to write questions to test for morals and ethics

Dennoch etablierten sich die Tests, und sei dies einmal geschehen, werde es schwierig, diese Messstandards wieder zurückzunehmen oder zu korrigieren. Das könnte ein Problem sein, denn die Benchmarks könnten Endkonsumenten und Investoren in die KI-Firmen blenden.

Die Ergebnisse seien wenig aussagekräftig, schreibt auch Benj Edwards bei Ars Technica über Llama und den Vergleich des neuen Meta-Modells mit der Konkurrenz: 

 this traditional slate of AI benchmarks is so generally useless to laypeople that even Meta's PR department just posted a few images of numerical charts without attempting explain their significance in any detail.

Die Autoren der Markup-Recherche kommen zu dem Schluss, dass die Benchmarks dringend standardisiert werden müssen – und zwar ohne die kommerziellen Interessen bestimmter Unternehmen ins Zentrum zu stellen. Zudem sollten Menschen die Testergebnisse bewerten, um der Automatisierung nicht zu viel Raum zu geben. Denn Maschinen, die einander immer weiter in den Himmel loben, brauchen wir vermutlich nicht.

KI-Leistungstests – größtenteils Willkür

Möchtest du kommentieren? Dann werde jetzt kostenlos Mitglied!

Bleib immer informiert! Hier gibt's den Kanal Technologie und Gesellschaft als Newsletter.

Abonnieren

Deine Hörempfehlungen
direkt aufs Handy!

Einfach die Hörempfehlungen unserer Kurator'innen als Feed in deinem Podcatcher abonnieren. Fertig ist das Ohrenglück!

Öffne deinen Podcast Feed in AntennaPod:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Öffne deinen Podcast Feed in Apple Podcasts:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Öffne deinen Podcast Feed in Downcast:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Öffne deinen Podcast Feed in Instacast:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Öffne deinen Podcast Feed in Apple Podcasts:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Öffne deinen Podcast Feed in Podgrasp:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Bitte kopiere die URL und füge sie in deine
Podcast- oder RSS-APP ein.

Wenn du fertig bist,
kannst du das Fenster schließen.

Link wurde in die Zwischenablage kopiert.

Öffne deinen Podcast Feed in gpodder.net:

Wenn alles geklappt hat,
kannst du das Fenster schließen.

Öffne deinen Podcast Feed in Pocket Casts:

Wenn alles geklappt hat,
kannst du das Fenster schließen.