Praxisbeispiele zur Nutzung von KI-Technologie im Terminal mit Dateizugriff (~ ‚KI-Agenten‘)

Ein gekritzeltes Strichmännchen neben einem Computer als Chatbot dargestellt.

Ich bin bei Erkundungen zu sogenannten KI-Agenten reichlich spät dran. Dafür aber jetzt gerade umso begeisterter von den Möglichkeiten.

Skeptisch war ich lange Zeit, weil ‚KI-Agenten‘ als Begriff bei mir falsche Vorstellungen weckte und eher Angst machte. Ich stellte mir einen KI-Agenten in diesem Sinne beispielsweise als einen Bot vor, dem ich meine Kreditkartendaten gebe und der mir damit eine Reise z.B. in die USA vorbereiten und alle notwendigen Sachen buchen soll und der dann blöderweise auf eine andere Bot-generierte Website reinfällt und ich bin 30.000 Euro ärmer … Ich weiß, dass es durchaus auch KI-Agenten gibt, die in solche Richtungen entwickelt und genutzt werden. Und da finde ich Skepsis durchaus sehr angebracht.

Meine Erkundungen beziehen sich stattdessen auf Bereiche, in denen ‚KI-Agenten‘ viel weniger spektakulär sind. Konkret sieht die Nutzung von agentischer KI bei mir zurzeit so aus, dass ich nicht mehr über eine Web-Oberfläche, sondern über das Terminal meines Geräts in Interaktion mit einem KI-Sprachmodell gehe. (Das Terminal ist die Konsole, d.h. das kleine schwarze Fenster, in das man Befehle eintippen kann, was du vielleicht früher schon einmal zur Installation von Programmen genutzt hast, oder um meine Anleitung zur Einrichtung eines KI-Chatbots für Lieblingsblogs durchzugehen).

Der Clou liegt dann darin, dass ich über solch eine Terminal-Nutzung dem KI-Sprachmodell Zugriff auf bestimmte Ordner und Anwendungen auf meinem Gerät geben kann. Außerdem kann das Tool potentiell auch Ressourcen im Internet nutzen. Auf diese Weise kann ich das KI-Sprachmodell mit meinen eigenen Dateien und Online-Ressourcen arbeiten lassen. Und vor allem auch selbst direkt daran weiter arbeiten.

Einfacher Einstieg: Wie geht das?

Ich arbeite zurzeit mit Claude Code. Es handelt sich dabei um ein KI-Sprachmodell von der Firma Anthropic, das mit diesem Angebot für solch eine Terminal-Nutzung aufbereitet wurde. Der erste (und einmalige) Schritt ist, dass ich mir dieses Tool über das Terminal auf meinem Gerät installiere und entweder mit einer API-Schnittstelle oder einem Claude-Account verbinde. Das ist relativ selbsterklärend und auf der Website des Anbieters beschrieben. Mir geht es im Folgenden allerdings nicht um dieses spezifische Tool, sondern um eine grundsätzliche Beschreibung, wie solche agentische KI genutzt werden kann.

Wenn ich also dieses oder ein anderes, ähnliches KI-Tool über das Terminal auf meinem Gerät installiert habe, dann kann ich als nächstes einen bestimmten Ordner auf meinem Gerät ansteuern. Der Befehl dazu ist cd ordnername. Bei mir könnte also z.B. der Ordner test-mit-claude sein und ich würde cd test-mit-claude eingeben. Anschließend aktiviere ich den Bot (in diesem Fall) mit dem Befehl claude, um in diesem Ordner aktiv zu werden.

Der Ordner ist in diesem Fall zu Beginn leer. Was darin passieren soll, kläre ich über das Terminal. Ich kann dort, obwohl man das im Terminal eher nicht vermuten würde, so chatten, wie ich es normalerweise von einem KI-Sprachmodell gewohnt bin. Mir stehen dabei zusätzlich mehr ‚Befehlsmöglichkeiten‘ im Terminal-Sinne zur Verfügung. Aber da kann ich mich Schritt für Schritt darum kümmern. Erst einmal könnte ich ganz einfach so etwas eintippen wie:

„Erstelle mir die Datei bot-vorstellung.md, in der du für technisch nicht affine Menschen ganz kurz beschreibst, wie du funktionierst.“

Ich werde dann wahrscheinlich auch ein paar Freigabe-Sachen gefragt, wo ich jeweils entscheiden kann, ob ich das zulassen will oder nicht. Kurz darauf kann ich den angelegten Ordner dann öffnen und darin tatsächlich eine neue Datei mit dem angeforderten Namen finden. In meinem Fall war dieser Text darin:

Ich bin ein KI-Sprachmodell, also ein Computerprogramm, das mit sehr vielen Texten trainiert wurde und dadurch Sprache verstehen und produzieren kann. Ich lebe nicht auf deinem Computer, sondern antworte über das Internet. Was mich hier besonders macht: Ich kann Dateien in diesem Ordner lesen, erstellen und bearbeiten. Wenn du mir also sagst, was du brauchst, kann ich direkt loslegen und das Ergebnis als Datei für dich ablegen. Ich denke dabei nicht wirklich nach, sondern berechne, welche Wörter als nächstes am wahrscheinlichsten passen. Das klappt oft erstaunlich gut, aber ich kann mich auch irren.

Wir sehen also: Über das Terminal habe ich mir eine gewünschte Datei auf meinem Rechner erstellen lassen.

Dieses Beispiel ist nun noch nicht wirklich sinnvoll, sondern eher großer Blödsinn, weil es ja eine Aufgabe ist (= Erstelle mir einen Text zu Thema xy), die ich früher einfach in ein KI-Sprachmodell eingegeben hätte und dann direkt den Text erhalten hätte. Jetzt gehe ich den Umweg über einen Ordner. Das Beispiel habe ich nur deshalb gewählt, um überhaupt erst einmal zu erklären, wie das Prinzip der Freigabe auf dem eigenen Gerät funktioniert. Und vielleicht hast du jetzt direkt viele Ideen, was für dich mit solch einer Ordner-Freigabe an ein KI-Modell nützlich sein könnte:

Hier sind ein paar Beispiele, die mir als erstes in den Sinn kamen:

  • Suche in einem freigegebenen Ordner mit mehreren Texten alles zusammen, was sich um OER und freie Bildungsmaterialien dreht und erstelle mir eine Übersicht dazu.
  • In einem freigegebenen Verzeichnis mit den Dateien für eine statische Website soll der Footer auf allen Seiten geändert werden. Der neue Text lautet: xxx (Das wäre ansonsten für mich eine ewige und nervige Frickel-Arbeit gewesen)
  • Ich habe 50 Fotos in einem Ordner. Sie sollen alle nach einem bestimmten Schema umbenannt werden.
  • Es sollen Texte in einem Ordner gelesen und eine Liste aller darin erwähnter Links erstellt werden.
  • Aus einer freigegebenen Tabelle im CSV-Format soll eine einfache HTML-Seite mit einer sortierbaren Übersicht entstehen.

Du siehst also: Es gibt ziemlich viele Möglichkeiten!

Meine erste Begeisterung war und ist, diese Form von agentischer KI zur Gestaltung von kleinen Webprojekten zu nutzen. Ich habe auf diese Weise zum Beispiel das Tool linkheftchen.de online gestellt und auch ein Update für mein Tool Zupfzettel gemacht, so dass diese Anwendung als statische Website funktioniert, statt wie früher mit einer WordPress-Installation. Letzteres war besonders cool, weil mein Terminal-Input hier der Verweis auf die bisherige Website war, mit der Aufforderung sich Favicon und weitere Bilder sowie auch Text-Ressourcen wie die FAQ zu sichern und dann mit diesen Ressourcen eine Umgestaltung erst einmal lokal zu machen. Nachdem ich getestet hatte, ob alles funktioniert, habe ich dann alle bisherigen Dateien vom Server gelöscht und den neuen Ordner hochgeladen.

Neben solchen Webgestaltungs-Experimenten im Sinne eines klassischen Codings von statischen Websites lässt sich aber auch noch sehr viel mehr versuchen, was vielleicht für pädagogisch tätige Menschen näher liegende Einsatzbereiche sind. Zum Beispiel eine Transkript-Erstellung zu Videos und die Entwicklung von H5P-Inhalten dazu. Dieses Beispiel beschreibe ich im Folgenden genauer, weil es mich ziemlich begeistert hat.

Konkretes Beispiel aus der Praxis: Ein Transkript zu einem Video erstellen und daraus eine H5P-Datei entwickeln

Meine konkrete Herausforderung sah so aus, dass ich ein Video aufgezeichnet hatte. Nun wollte ich dieses Video auf einer Moodle-Lernplattform teilen. Das mache ich sehr gerne im Format H5P. Hilfreich finde ich es dann, dabei auch ein Transkript zur Verfügung zu stellen. Und für Menschen, die sich nur einen schnellen Überblick verschaffen wollen, setze ich darunter meist ein H5P-Akkordeon, das man aufklappen kann und darin dann eine kurze Zusammenfassung mit den wichtigsten Punkten findet.

Ich wollte also versuchen, ob ich über das Terminal solch eine (bis dato eher nervige und langwierige) Aufgabe auch einfacher erledigen kann.

Spoiler: Der Versuch klappte!

So bin ich vorgegangen:

Ich habe einen Ordner auf meinem Rechner neu erstellt und das Video dort hineingelegt. Außerdem auch eine einfache Datei mit Anweisungen für das KI-Tool.

Du findest in diesem Ordner ein Video. Deine Aufgaben:

  1. Erstelle ein Transkript für das Video
  2. Gestalte einen H5P-Inhalt mit diesem Video mit dem Inhaltstyp Transkript: https://github.com/otacke/h5p-transcript (zusätzliche Ressource: https://github.com/otacke/h5p-transcript-library)
  3. Speichere den Inhalt mit dem Namen der Videodatei als .h5p in diesem Ordner ab
  4. Erstelle zusätzlich ein H5P-Akkordeon mit einem Akkordeon zum Aufklappen, das ‚Wichtige Punkte aus dem Video‘ benannt ist, in dem du die wesentlichen Aspekte aus dem Transkript zusammenfassend und übersichtlich darstellst. Speichere diesen Inhalt als .h5p und benenne die Datei [videoname]-akkordeon in diesem Ordner ab.

Mein Befehl war dann im Terminal: Folge den Anweisungen in anweisungen.md

Mehr war dann schon nicht mehr nötig. Es gab immer wieder Freigabeaufforderungen und ich konnte beobachten, wie das Tool vorgeht: Verwendet wurde die Open Source Transkriptionssoftware Whisper und die Angaben aus dem GitHub-Repository zu den einzelnen Inhaltstypen. Das brauchte natürlich etwas Zeit. Ich konnte dabei im Terminal so umschalten, dass die Transkription des Videos im Hintergrund lief, während zugleich schon einmal die H5P-Inhalte erstellt wurden.

Als beide H5P-Inhalte im Ordner lagen, meldete das Tool, dass die Aufgabe abgeschlossen sei. Leider funktionierte der Upload in einen H5P-Editor zunächst noch nicht. Ich erhielt eine Fehlermeldung über falsche Dateiformate, die ich mit der Aufforderung zur Überarbeitung im Terminal teilte. Daraufhin wurde eine weitere Version erstellt, die ich dann hochladen und verwenden konnte.

Beim Ansehen stellte ich allerdings fest, dass das Transkript mit vielen Fehlern war. Ich habe deshalb noch eine weitere Schleife gedreht und die Aufforderung gegeben, dass das mit Whisper erstellte Transkript noch einmal überprüft und korrigiert werden sollte. Dann sollte damit der Inhalt angepasst werden.

Da ich diese Aufgabe der Transkription eines Videos und Umwandlung in diese beiden H5P-Inhalte in meiner Praxis relativ häufig benötige, habe ich mich abschließend noch dazu entschieden, dazu einen sogenannten Skill anzulegen. Das ist eine Anweisung, die ich zukünftig über den Befehl /skillname direkt abrufen kann. Damit muss ich also gar nicht mehr die lange Erläuterung schreiben, die ich jetzt beim ersten Mal in den Ordner gepackt hatte. Und vor allem muss ich zukünftig dann (hoffentlich) nicht mehr die zwei beschriebenen Fehlerschleifen drehen.

Mein Befehl dazu war:

Erstelle eine skill.md Datei, in der du den Skill ‚Video zu H5P‘ in der beschriebenen Form und dein Vorgehen festhältst, so dass du diese Aufgabe später wiederholen und ich mit dem Befehl /video-zu-h5p abrufen kann. Achte darauf, dass von vorne herein nicht erst ein falsches Dateiformat generiert wird. Nimm außerdem mit auf, dass das Transkript auf offensichtliche Fehler überprüft und korrigiert werden soll.

Kurz darauf lag auch diese Datei in meinem Ordner und wenn ich neugierig bin, kann ich mir darin anschauen, wie ein KI-Modell sich erklärt, was es genau bei dieser Aufgabe tun soll, das überarbeiten und dann als projektübergreifenden Skill abspeichern.

In Hinblick auf Kollaboration ist spannend, dass solche Skills auch online geteilt werden können. Für mich individuell ist es nützlich, weil ich zukünftig jetzt nur noch /video-zu-h5p eingeben muss, um all die Schritte von oben an weiteren Videos entwickeln zu lassen.

Fazit

Ich habe KI-Technologie bisher sehr stark unter dem Aspekt der Lernverstärkung betrachtet. Also die Fragen gestellt:

  • Wie kann ich mich durch diese Technologie herausfordern lassen und lernen?
  • Und wie kann ich in meiner pädagogischen Tätigkeit auch Lernende dazu ermächtigen?

Bei den Beispielen in diesem Beitrag ist der Fokus ein anderer. Die Frage ist hier vielmehr, wie ich nervige und zeitaufwendige Prozesse mit KI besser bearbeiten kann und mir auf diese Weise einfacher Zeit für andere Dinge nehmen kann, zum Beispiel diesen Blogbeitrag zu schreiben. Damit wird die didaktische Nutzung von KI als Lernverstärkung natürlich nicht hinfällig. Es ist einfach ein anderer und weiterer Aspekt.

Für den Bildungsbereich ergibt sich daraus die Frage, wie sehr wir in der Lernkultur Technologie weiterhin als ein mögliches Add-On, das aber oft auch ausgeschlossen wird, betrachten und auf eine vermeintliche ‚Eigenleistung‘ setzen, oder inwieweit wir viel mehr auf den Prozess statt das entstehende Produkt orientieren und in Hinblick auf digitale Mündigkeit vor allem auch Lernräume öffnen, in denen solche Erkundungen, wie ich sie hier vorgestellt habe, gelernt und reflektiert werden können.

Das ist dann auch die Voraussetzung, um die systemische Ebene einer gemeinwohlorientierten Digitalpädagogik sinnvoll angehen zu können. Denn natürlich führt meine individuelle Abkürzung und Vereinfachung hier zu sehr vielen Folgefragen, insbesondere: Wie stellen wir sicher, dass all die offene Infrastruktur, mit der solch eine agentische KI zugreifen kann, gut finanziert und ermöglicht wird?

PS. Auch diesen Text habe ich übrigens über das Terminal in KI-Interaktion korrigiert, nachdem ich ihn geschrieben habe und nicht mehr wie bisher über die klassische KI-Chatbot-Oberfläche. Mein Befehl war:

Wir gehen gemeinsam den Text in diesem Ordner durch. Du korrigierst Tippfehler und offensichtliche Formulierungsfehler und Satzzeichen. Zugleich sammelst du Lücken und Unstimmigkeiten im Text, um diese dann Schritt für Schritt mit mir gemeinsam durchzugehen. Du machst hierfür jeweils einen Vorschlag und fragst, was ich dazu ergänzen will. Danach schlägst du 5 mögliche Titel vor und fragst mich, welchen ich nehmen will oder ob ich einen selbst formulieren will. Am Ende speicherst du den Text so ab, dass ich ihn in einen WordPress-Gutenberg Editor reinkopieren kann. Der Titel ist dabei H1, danach folgt H2 usw. Außerdem gibst du mir hier im Terminal einen Vorschlag für eine SEO-optimierte Kurzbeschreibung und Meta Tags im Terminal aus. Ganz am Ende erstellst du eine weitere Datei, in der du den Skill „Textkorrektur“ in den beschriebenen Schritten festhältst und auch Änderungen/Learnings im Verlauf des Prozesses berücksichtigst, so dass ich darauf später als /textkorrektur zurückgreifen kann.


Beitrag weiternutzen und teilen

Dieser Beitrag steht unter der Lizenz CC BY 4.0 und kann somit gerne offen weitergenutzt und geteilt werden. Hier kannst du dir den Beitragslink und/oder den Lizenzhinweis kopieren. Wenn du den Beitragslink in das Suchfeld im Fediverse (z.B. bei Mastodon) eingibst, wird er dir dort angezeigt und du kannst ihn kommentieren.


Erschienen in der Kategorie:
Reaktionen im Fediverse
Anregungen zum Weiterlesen