Retrieval-Augmented Generation (RAG) kombiniert das Wissen großer Sprachmodelle mit der Fähigkeit, schnell relevante Informationen aus einer Daten- oder Wissensbank abzurufen. Dies ist besonders nützlich für Aufgaben wie die Beantwortung von Fragen, bei denen das Modell z.B. auf bestehende unternehmensinterne Dokumente zurückgreifen muss, um präzise und informative Antworten zu geben.
Die Verarbeitung großer Textmengen stellt dabei jedoch oft eine Herausforderung dar, besonders hinsichtlich der Effizienz und Genauigkeit von Sprachmodellen. Obwohl das Kontextfenster bei aktuellen Modellen größer wird, leidet die Qualität bei sehr großem Input weiterhin. Forschende von Apple Research haben nun mit der Methode des Superposition Prompting eine innovative Lösung vorgestellt.
Herausforderungen großer Sprachmodelle (LLMs)
Moderne Transformer-basierte LLMs wie GPT, Claude oder Gemini sind bekannt für ihre hohen Rechenkosten, die quadratisch mit der Textlänge skalieren. Dies führt zu teuren und ineffizienten Prozessen in realen Anwendungen wie der Retrieval-Augmented Generation (RAG). Zusätzlich neigen LLMs dazu, durch irrelevante Kontexte in den Eingaben abgelenkt zu werden, was die Qualität der Ausgaben beeinträchtigt.
Die Lösung: Superposition Prompting
Superposition Prompting ermöglicht es LLMs, Eingabedokumente parallel zu verarbeiten und irrelevante Pfade frühzeitig zu verwerfen. Diese Methode kann direkt auf vortrainierte Transformer-basierte LLMs angewendet werden, ohne dass ein Fine-Tuning erforderlich ist.
Vorteile:
- Effizienzsteigerung: Reduktion der Rechenzeit um das 93-fache.
- Genauigkeitsverbesserung: Erhöhung der Genauigkeit um 43% bei großen Kontexten, wie am NaturalQuestions-Open-Datensatz mit dem MPT-7B-Modell demonstriert.
Fazit
Superposition Prompting revolutioniert die Textverarbeitung durch signifikante Effizienzsteigerungen und Genauigkeitsverbesserungen. Für Unternehmen bedeutet dies eine kosteneffiziente und leistungsfähige Lösung für den Einsatz großer Sprachmodelle in der Praxis.