Große Datenmengen mit QA-System durchsuchbar machen

Question&Answer (QA)-Systeme haben in den letzten Jahrzehnten eine beeindruckende Entwicklung durchgemacht. An ihnen kann die Entwicklung der künstlichen Intelligenz (KI) gezeigt werden, mit dem Ziel, Maschinen zu konstruieren, die die menschliche Sprache verstehen und natürlich auch auf diese reagieren können.

Anfangs konzentrierten sich QA-Systeme noch darauf, domänenspezifisches Wissen in Datenbanken zu organisieren und trotz begrenzter Ressourcen zu einem praktischen Werkzeug zu machen. Der technologische Fortschritt hat die Landschaft jedoch dramatisch verändert, und heute können QA-Systeme große Datenmengen verarbeiten und komplexe Fragen beantworten. Diese Systeme sind zuverlässig und können vielseitig eingesetzt werden, um bei der Lösung alltäglicher Probleme zu unterstützen. Als Beispiel eines QA-Systems kann ChatGPT genannt werden, der es Nutzer:innen ermöglicht, Fragen zu stellen und präzise und passende Antworten zu erhalten.

Mit der VDE-AR-N 4110 arbeiten wir immer wieder mit einem umfangreichen Dokument, in dem Vorgaben und Bestimmungen definiert sind. Um das Heraussuchen dieser Informationen effizienter zu gestalten, haben wir unser eigenes QA-System erstellt.

Dieses QA-System besteht aus den beiden Komponenten Retriever und Reader. Der Retriever bekommt die VDE-AR-N 4110, unterteilt in kleine Textabschnitte, übergeben und sucht unter diesen die Abschnitte heraus, die mit hoher Wahrscheinlichkeit die Frage der Nutzer:innen beantworten können. Dazu nutzt der Retriever den BM25-Algorithmus.

Der Reader bekommt die Textabschnitte übergeben und sucht aus diesen die passende Antwort zur Frage der Nutzer:innen. Dazu haben wir ein eigenes Sprachmodell erstellt und auf unsere Domäne angepasst, indem das Sprachmodell mit einem eigenen Datensatz mit Inhalten aus der domänenspezifischen Anlagenzertifizierung trainiert wurde. Als Architektur des Sprachmodells haben wir Transformer verwendet, welche auch in großen Sprachmodellen wie ChatGPT genutzt werden.

Unsere Tests zeigen, dass die KI in der Lage ist, spezifische Informationen auf Grundlage einer Frage aus Dokumenten zu extrahieren. Jedoch müssen auch noch andere Faktoren wie Geschwindigkeit und Qualität der Ergebnisse betrachtet werden.

So wird es in Zukunft nicht mehr nötig sein, einen Retriever in einem QA-System zu verwenden, um die Textabschnitte zu bewerten und dem Reader zu übergeben, da dieser nur eine bestimmte Anzahl an Wörtern verarbeiten kann. Die Sprachmodelle werden immer größer, so dass auch bald Dokumente wie die VDE-AR-N 4110 als ein Ganzes verarbeitet werden können, was die Qualität der Ergebnisse weiter verbessern wird.