Artikel teilen

Europäische KI “Teuken 7B” geht an den Start

Der Westdeutsche Rundfunk (WDR) und zwei Fraunhofer-Institute machen auf den Start eines europäischen Sprachmodells mit künstlicher Intelligenz (KI) aufmerksam. Als Partner des europäischen Forschungsprojekts OpenGPT-X sei der WDR an der Entwicklung des neuen großen Sprachmodells „Teuken 7B“ beteiligt gewesen, teilt der Sender am Dienstag in Köln mit. Die KI solle auch in der ARD eingesetzt werden.

Das KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort auf der Plattform des US-Unternehmens Hugging Face zum Download bereit, wie die Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme (IAIS) und für Integrierte Schaltungen IIS am Dienstag in Sankt Augustin bei Bonn mitteilten. „Teuken-7B“ sei von Grund auf mit den 24 Amtssprachen der EU trainiert worden. Forschung und Unternehmen könnten das kommerziell einsetzbare Open-Source-Modell für ihre eigenen Anwendungen der Künstlichen Intelligenz (KI) nutzen.

Teuken-7B-v0.4 enthält nach Fraunhofer-Angaben rund 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und rund 40 Prozent englische „Pretraining-Daten“. Damit unterscheide sich Teuken-7B-v0.4 von den meisten bisher verfügbaren mehrsprachigen Modellen, die erst später um mehrsprachige Daten erweitert wurden. Ein eigens entwickelter Tokenizer, eine Art Wortzerleger, habe zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Systemen geführt, erklärten die Fraunhofer-Experten. Dies komme insbesondere bei Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen.

Das Verbundprojekt OpenGPT-X wurde im digitalen „Ökosystem Gaia-X“ gefördert. Im Gegensatz zu bestehenden Cloud-Lösungen handele es sich bei Gaia-X um ein System, über das sich Dienstanbieter und Dateneigentümer verbinden könnten. „Die Daten verbleiben stets beim Eigentümer und werden ausschließlich nach festgelegten Bedingungen geteilt“, wie die Fraunhofer-Forscher erklärten.

Trainiert wurde Teuken-7B mithilfe des Supercomputers Juwels am Forschungszentrum Jülich. Auch der KI-Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz, IONOS, Aleph Alpha und ControlExpert arbeiteten neben WDR und Fraunhofer als Partner an OpenGPT-X mit, wie es hieß. Das Forschungsprojekt läuft noch bis zum 31. März. Es startete am 1. Januar 2022 mit einer Förderung des Bundesministeriums für Wirtschaft und Klimaschutz in Höhe von rund 14 Millionen Euro.