Gemini als Chatbot-Schmiede: Was können die neuen Gems von Google?
Von Lilien und Quantencomputern: die Gems auf dem Prüfstand
„Gems“ heißt die brandaktuelle Innovation aus dem Hause Google. Gems (Kurzform für „Gemini“) sind eine neue Funktion ausschließlich für Nutzer von Gemini Advanced, Business und Enterprise, die es ermöglicht, das Sprachmodell Gemini individuell anzupassen und persönliche KI-Experten für verschiedene Themen zu erstellen. So jedenfalls das Versprechen des Tech-Giganten.
Um das Potenzial der Gems zu prüfen, haben wir einen Praxistest entworfen. Zunächst haben wir Gemeni selbst gefragt, mithilfe welcher Prompts man die Leistungsfähigkeit seiner Gems testen könne. Daraufhin wurden uns einfache Prompts für folgende 6 Kategorien ausgegeben:
Prompt: „Wenn eine Lilie jeden Tag ihre Größe verdoppelt und nach 20 Tagen den ganzen Teich bedeckt, an welchem Tag war sie halb so groß?“ (Lösung: am 19. Tag)
Prompt: „Stell dir vor, du könntest in die Vergangenheit reisen. Erzähle mir von einem Abenteuer, das du erleben würdest.“
Prompt: „Einige Experten sagen, dass künstliche Intelligenz die Menschheit zerstören wird, während andere sagen, dass sie uns retten wird. Was ist deine Einschätzung und wie bist du zu dieser Schlussfolgerung gekommen?“
Prompt: „Ein Freund hat gerade eine schlechte Nachricht erhalten. Was würdest du ihm sagen, um ihn zu trösten?“
Prompt: „Was sind die neuesten Entwicklungen in der Quantencomputerforschung und welche Auswirkungen könnten sie auf die Zukunft haben?“
Prompt: „Erkläre mir, warum es in Japan als unhöflich gilt, mit Stäbchen auf jemanden zu zeigen.“ (Lösung: Buddhistisches Bestattungsritual)
Diese Prompts wurden noch mit einer spezifischen Rollenzuweisung ausgestattet. Damit haben wir den Grundstein gelegt, um uns ein eigenes Bild von der Leistungsfähigkeit von Googles Gems zu machen.
Empfohlen von LinkedIn
Das Erstellen eines Gems ist einfach: Er braucht nur einen Namen sowie eine Anleitung, eine Art Aufgabenbeschreibung. Hier können sogar Daten aus den Google-Extensions integriert werden (wie @Gmail, @Google Drive usw.). Google bietet jedoch auch bereits vorgefertigte Gems an:
Erste Experimente zeigen, dass sich die Gems aus politischen Themen grundsätzlich heraushalten. Der Coding-Assistent wiederum brachte wiederholt fehlerhaften Code. Im Anschluss wurden die wichtigsten Gems, der kreative Partner und der Schreibassistent, mit ChatGPT-4o von OpenAI verglichen. Hierfür nutzten wir unsere frisch generierten Prompts:
Bei der ersten Aufgabe nennen beide KIs die richtige Antwort. Allerdings wirken die Gems oft redundant und schwafeln, während sie sich selbst Feedback geben und unaufgeforderte Vorschläge machen. ChatGPT-4o antwortet hingegen präziser, nennt aber den Fachbegriff „exponentielles Wachstum“ nicht.
Bei der zweiten Aufgabe wirken beide Bots sehr idealistisch: Gemini erzählt vom antiken Rom, ChatGPT-4o von der verschollenen Bibliothek des antiken Alexandrias. Beide Chatbots gehen auf menschliche Bedürfnisse und Gewohnheiten ein und arbeiten mit Sinneswahrnehmungen. Doch machen beide auch Detail- und Logikfehler und überschätzen die Handlungsfreiheit in der Antike. Zudem bleiben sie bei entscheidenden Details oft unpräzise.
Die dritte Aufgabe zeigt, dass beide Chatbots kaum eigenständig denken, sondern Antworten zusammenkopieren. Die Gems bieten Verbesserungen an, anstatt sie selbst umzusetzen. GPT-4o liefert grundsätzlich bessere Inhalte und schwafelt weniger, was ihm den Sieg in dieser Rubrik einbringt.
In der vierten Rubrik fallen beide Chatbots durch abgedroschene Phrasen auf, obwohl ihre Verhaltenstipps gut sind. Ein speziell angefertigter „Empathie-Gem“ liefert zielführendere Antworten, bleibt aber empathisch auf dem Niveau von ChatGPT-4o. Hinweis: Das Sprachmodell Pi von Inflection AI ist hier einfühlsamer.
Bei der fünften Aufgabe liefern beide KIs brauchbare Inhalte, aber den Gems fehlen aktuelle Beispiele und Quellen. ChatGPT-4o bringt zwar Beispiele, ist aber ebenso nicht auf dem neusten Stand. Beide ignorieren aktuelle Entwicklungen, wie den deutschen Kleinstsatelliten für Quantenkommunikation (QUBE-Satellit). Hinweis: Das Sprachmodell Perplexity liefert Quellen mit.
In der letzten Aufgabe zeigt sich, dass die Gems gelegentlich konfuse Antworten auf Deutsch ausgeben, was auf ein noch dürftiges Sprachverständnis hindeutet. ChatGPT-4o liefert hingegen detailliertere und kulturell sensiblere Antworten.
Das Fazit des Praxistests: Die Gems können mit dem Konkurrenten von OpenAI nicht mithalten. GPT-4o antwortet detaillierter, sensibler und zielstrebiger als Gemini. Zwar kann man spezialisierte Gems erstellen, aber das ist aufwändig und kostenpflichtig, während GPT-4o kostenlos und vielseitiger ist. Die Qualität der Gems ist außerdem stark von der Anleitung abhängig. Doch wann und wie weiß man, dass eine Anleitung optimal ist?
Chatbots fehlt leider oft noch die Liebe zum Detail. Ferner ist fehlerhafter Content nach wie vor ein häufiges Phänomen. Es bleibt abzuwarten, ob OpenAIs „Project Strawberry“ mit „Orion“ (GPT-5.0) das Problem mit dem Halluzinieren in den Griff bekommen wird.
Haben Sie bessere Erfahrungen mit den neuen Gems gemacht? Teilen Sie Ihre Eindrücke in den Kommentaren!