
Kyutai
Französisches Non-Profit-Open-Science-Labor, das Open-Source-Modelle für Sprache, Text und multimodale KI veröffentlicht.
📍 Frankreich 🇫🇷, Paris
Produktübersicht
Kyutai ist ein gemeinnütziges Open-Science-KI-Labor mit Sitz in Paris, gegründet im November 2023 mit einer Ausstattung von 300 Millionen Euro durch den französischen Milliardär Xavier Niel (Iliad/Free), CMA-CGM-CEO Rodolphe Saadé und den ehemaligen Google-CEO Eric Schmidt. Unter der Leitung von Patrick Pérez und mit Yann LeCun als wissenschaftlichem Berater arbeitet das Labor in der Station F und nutzt rund 1.000 NVIDIA H100 GPUs, die von Scaleway, Niels Cloud-Unternehmen, zum Selbstkostenpreis bereitgestellt werden. Kyutais erste große Veröffentlichung war Moshi, ein 7-Milliarden-Parameter-Sprachdialogsystem mit Full-Duplex-Konversation, 200 Millisekunden Latenz und über 70 emotionalen Stilen. Moshi und der dazugehörige neuronale Audio-Codec Mimi wurden im September 2024 vollständig als Open Source veröffentlicht. Helium-1 ist ein 2-Milliarden-Parameter-Modell für mehrere Sprachen, das für mobile Geräte konzipiert ist und sechs europäische Sprachen abdeckt. Hibiki-Zero bietet durchgängige Echtzeit-Sprachübersetzung. Das Labor veröffentlichte außerdem Kyutai TTS (einschließlich einer 100-Millionen-Parameter-Pocket-Version), Speech-to-Text-Modelle und MoshiVis für Bildverständnis. Alle Modelle werden als Open Source veröffentlicht, mit frei verfügbaren Gewichten, Trainingscode und Datensätzen auf GitHub und Hugging Face. Gradium, ein kommerzielles Spin-off, bündelt die Forschung zu produktionsreifen Sprachsystemen. Das kleine Team des Labors hat Moshi entwickelt, bevor OpenAI seinen vergleichbaren GPT-4o-Sprachmodus auslieferte. WICHTIGSTE MERKMALE: - Alle Modelle vollständig Open Source mit Gewichten, Trainingscode und Datensätzen - Moshi: 7B-Parameter-Sprachdialogsystem mit 200 ms Latenz und Full-Duplex-Konversation - Helium-1: 2B-Mehrsprachen-Modell für Mobilgeräte mit sechs europäischen Sprachen - Läuft auf Scaleway (französischer Cloud-Anbieter) mit NVIDIA H100 GPUs - Gradium: kommerzielles Spin-off für produktionsreife Sprach-KI-Anwendungen