Einsatz von Large Language Models im KIVEDU-Projekt: Herausforderungen und Erkenntnisse 18. August 2023 | 6 Minuten zum Lesen

Einsatz von Large Language Models im KIVEDU-Projekt: Herausforderungen und Erkenntnisse

Inhaltsverzeichnis

Das Projekt KIVEDU

Im Zuge des KIVEDU-Projekts entwickeln wir ein innovatives, KI-basiertes System für die automatische Erkennung von Verletzungen von Unterlassungserklärungen in Online-Produktbeschreibungen. Derzeit läuft die Überprüfung der Einhaltung dieser rechtlich bindenden Erklärungen manuell ab und ist entsprechend extrem zeitaufwendig. Im Ergebnis können die Verbraucherzentralen diese Prüfung nicht oder nur selten durchführen, wodurch viele Unternehmen weiterhin verbraucherfeindliche Handlungen ausführen.

Unsere Vision ist es, diesen Prüfungsprozess durch den Einsatz künstlicher Intelligenz (KI) zu automatisieren, um Verbraucherrechte zu schützen und einen fairen Wettbewerb zu gewährleisten.

Entdecken Sie die offizielle KIVEDU-Website mit spannenden Einblicken in das Projekt.

zur Website

Die von uns bei KIVEDU verwendeten Large Language Models (LLMs) erhalten die Unterlassungserklärung und die Produktbeschreibung als Input und treffen dann eine Entscheidung, ob eine Verletzung vorliegt oder nicht. Basierend auf dieser Entscheidung benachrichtigen wir dann die relevanten Parteien und erstellen automatisch einen Beweis der vorliegenden Verletzung, der manipulationssicher abgespeichert wird.

Das KIVEDU-Projekt ist zwar gerade erst angelaufen, aber wir haben bereits verschiedene Herausforderungen bei der Implementierung von Large Language Models identifizieren können, die wir im Folgenden diskutieren werden.

Die Wahl des richtigen Modells

Die Auswahl des passenden Large Language Models ist zweifellos eine der größten Herausforderungen. Die Landschaft der Large Language Models ist vielfältig und schnelllebig - wöchentlich werden neue Modelle vorgestellt. Um evaluieren zu können, welche der verfügbaren Modelle für unser KIVEDU am besten geeignet sind, haben wir einen umfangreichen Testdatensatz aufgebaut, der sowohl einfache als auch schwierige Fälle enthält. Anhand von der Erkennungsrate der Modelle auf diesem Datensatz können wir die Modelle vergleichen und die besten auswählen.

Gegenwärtig haben proprietäre Modelle wie GPT-4, ChatGPT und Claude 2 mit einer Erkennungsgenauigkeit von 70-80% noch die Nase vorn, doch einige Modelle, die Open Source verfügbar sind, holen rapide auf. Dabei sind insbesondere Falcon und Llama 2 zu nennen.

Datenschutz & Co.

Bei dem Vergleich von proprietären mit Open Source Modellen ist es gleichzeitig wichtig zu beachten, dass die meisten proprietären Modelle von US-Unternehmen bereitgestellt und betrieben werden. Dies wirft datenschutzrechtliche Fragen auf und kann somit den Einsatz dieser Modelle in europäischen oder speziell deutschen Projekten erschweren - insbesondere in Projekten wie KIVEDU, wo potenziell hochsensible und personenbezogene Daten verarbeitete werden. Open Source Modelle können hier eine Alternative darstellen, da sie in der Regel auf eigenen Servern betrieben werden können, zwar mit entsprechendem Aufwand und Kosten, jedoch auch mit voller Kontrolle über die Daten. Des Weiteren ist die Leistungsfähigkeit des Modells bei der Open Source Variante auch garantiert, während bspw. die Leistung von GPT-4 nachweislich über die Zeit gefallen ist.

Neben der Leistungsfähigkeit der Modelle und datenschutzrechtlichen Aspekten spielen weitere Faktoren wie die Kosten, Geschwindigkeit und Kontextgröße eine Rolle bei der Auswahl des passenden Modells. Besonders die Kontextgröße, die beschreibt, wie viel Text vom Modell verstanden und verarbeitet werden kann, ist im KIVEDU-Projekt relevant, da wir es häufig mit sehr umfangreichen Produktbeschreibungen und Unterlassungserklärungen zu tun haben, und Verstöße auch durch kleine Details ausgelöst werden können.

Strukturierter Output

Ein weiterer Faktor, der bei der Modellauswahl beachtet werden sollte, ist die Frage nach der Fähigkeit des Modells, strukturierten Output zu liefern. Dies ist immer dann notwendig, wenn die Ergebnisse des Modells maschinell verarbeitet werden sollen, also bspw. dann, wenn basierend auf der Modellausgabe bestimmte Aktionen ausgeführt werden sollen wie im KIVEDU-Projekt. Der strukturierte Output kann verschiedene Formen annehmen. Im KIVEDU-Projekt haben wir mit JSON-Output gearbeitet, der von ChatGPT, GPT-4 und Claude 2 geliefert werden kann. Bei anderen Modellen wie Luminous war dies nicht der Fall, weshalb wir hier auf binären Output zurückgreifen mussten (also “1” oder “0”). Dieser kann zwar auch maschinell verarbeitet werden, ist aber nicht so flexibel wie strukturierter Output. Im Fall von Falcon konnte weder strukturierter noch binärer Output generiert werden, weshalb wir hier auf ChatGPT zurückgreifen mussten, um den unstrukturierten Falcon-Output in JSON zu “übersetzen”.

Zuletzt ist zu beachten, dass viele Modelle, insbesondere viele Open Source Modelle, nicht auf deutschen Texten trainiert wurden und somit nicht für Inhalte in deutscher Sprache verwendet werden können. Dabei handelt es sich bspw. um BLOOM und MPT.

Marian Lambert | Senior Consultant bei XPACE
Marian Lambert | Senior Consultant bei XPACE

„Large Language Models bieten ein nie zuvor gesehenes Potenzial, doch bei der Auswahl des richtigen Modells müssen Leistung, Datenschutz und Kosten gegeneinander abgewogen werden.“

Die Herausforderungen von LLMs

Trotz der beeindruckenden Fähigkeiten von LLMs, ohne die ein Projekt wie KIVEDU nicht möglich wäre, ist es wichtig, sich den Limitierungen dieser Technologie bewusst zu sein. Dies betrifft bspw. die Erklärbarkeit der Modellentscheidungen. Während wir bei KIVEDU den Ansatz verfolgen, die Modelle selbst nach einer Begründung für ihre Entscheidungen zu fragen, bleibt die tiefere Durchdringung der Modellogik derzeit ein ungelöstes Problem. Darüber hinaus können LLMs noch immer durch bestimmte “Tricks” getäuscht werden, die für uns Menschen offensichtlich sind. In unserem Projekt haben wir beispielsweise gesehen, dass einige Modelle fälschlicherweise eine Verletzung erkannt haben, obwohl der Textinhalt klar von der verbotenen Formulierung abwich.

Prompt Engineering

Das sogenannte Prompt Engineering, bei dem der Input für das Modell optimiert wird, kann dabei helfen, solche Probleme zu mindern, kann sie aber nicht vollständig lösen. Im Rahmen von KIVEDU stellte insbesondere die Entscheidung, wann eine Formulierung genau oder nur sinngemäß verwendet werden muss, um eine Verletzung darzustellen, eine Herausforderung dar. Oftmals verbesserte die Veränderung des Prompts das Modellverhalten in einigen Fällen, verschlechterte es aber in anderen und führte somit nicht zu einer Verbesserung der Gesamtleistung.

Jailbreaks

Darüber hinaus mussten wir feststellen, dass einige der getesteten LLMs so stark auf Sicherheit trainiert wurden, dass sie für unsere Zwecke nicht mehr geeignet waren. Dies ist uns insbesondere bei BARD (PaLM 2) aufgefallen, das in den meisten unserer Testfälle antwortete, dass es keine Rechtsberatung geben könne. Dies lässt sich zwar mit verschiedenen Jailbreak-Ansätzen umgehen (dabei wird die eigentliche Aufgabe in einen anderen, unscheinbaren Kontext eingebettet), allerdings verstoßen diese Ansätze gegen die Nutzungsbedingungen und funktionieren auch nicht zuverlässig.

Die Zukunft des LLM-Ökosystems

Unsere Arbeit im KIVEDU-Projekt hat gezeigt, dass das LLM-Ökosystem noch in den Kinderschuhen steckt. Zwar ist das Potenzial der Sprachmodelle enorm, aber es gibt derzeit noch zahlreiche Herausforderungen, die es zu bewältigen gilt.

Auf Seite der LLM-Tools gibt es verschiedene, vielversprechende Projekt wie langchain oder Semantic Kernel. Diese sind recht umfangreich und bieten Integrationen mit verschiedensten anderen Tools, die für die Arbeit mit LLMs nützlich sind. Allerdings sind diese Projekte noch nicht vollständig ausgereift und können noch nicht alle Anforderungen erfüllen. So ist bspw. die Unterstützung von Sprachen wie Deutsch noch nicht vollständig gegeben und einige der intern verwendeten Prompts sind noch nicht optimal auf die Modelle abgestimmt.

Trotz der oben genannten Herausforderungen bietet die Arbeit mit LLMs im KIVEDU-Projekt eine faszinierende Gelegenheit, die Grenzen dieser Technologie auszuloten und ihre Anwendbarkeit in realen Szenarien zu testen. Die rapiden Fortschritte in der Entwicklung von KI und maschinellem Lernen lassen darauf schließen, dass viele der von uns diskutierten Herausforderungen in absehbarer Zeit gelöst werden könnten.