Nvidias KI-Audiomodell, Claudes neue Funktionen und Finanzierung für KI-Agenten: Die KI-Starts dieser Woche

Außerdem haben zwei KI-Startups Modelle zur Bildgenerierung auf den Markt gebracht

Jede Woche fasst Quartz Produkteinführungen, Updates und Finanzierungsnachrichten von Startups und Unternehmen zusammen, die sich auf künstliche Intelligenz konzentrieren.

Hier erfahren Sie, was diese Woche in der sich ständig weiterentwickelnden KI-Branche passiert.

2 / 6

Nvidias KI-Audiomodell Fugatto

Nvidia (NVDA) kündigte sein neues KI-Audiomodell, Fugatto, diese Woche, das „jede Mischung aus Musik, Stimmen und Klängen erzeugen oder transformieren kann, die mit Prompts beschrieben werden und unter Verwendung jeder Kombination aus Text und Audiodateien verwendet werden.“

Fugatto ist die Abkürzung für Foundational Generative Audio Transformer Opus 1, sagte Nvidia.

Mit dem neuen Modell können Benutzer eine Textaufforderung eingeben und einen Musikausschnitt generieren, Instrumente zu einem bereits vorhandenen Song entfernen oder hinzufügen, Akzente oder Emotionen in einer Stimme ändern und „noch nie zuvor gehörte Klänge erzeugen“.

„Fugatto ist das erste grundlegende Modell einer generativen KI, das emergente Eigenschaften aufweist – Fähigkeiten, die aus der Interaktion seiner verschiedenen trainierten Fähigkeiten entstehen – und die Fähigkeit, frei formulierte Anweisungen zu kombinieren“, sagte Nvidia.

3 / 6

Claudes neue Funktionen

Anthropic hat diese Woche neue Updates für seinen Claude AI-Chatbot angekündigt.

Mit dem neuen Google (GOOGL) Durch die Docs-Integration könne Claude Kontext aus den Dokumenten eines Benutzers nutzen, um die Relevanz und Genauigkeit seiner Antworten zu verbessern, sagte Anthropic. Claude könne lange Dokumente zusammenfassen und „auf den historischen Kontext“ aus Google Docs-Dateien verweisen.

Die Integration ist für Claude Pro-, Team- und Enterprise-Benutzer verfügbar.

Claudes neue Stile-Funktion ermöglicht Benutzern, die Antwortweise des Chatbots anzupassen, um einem bevorzugten Kommunikationsstil und Arbeitsanforderungen zu folgen. Benutzer können einen formellen, prägnanten oder erklärenden Stil wählen. Claude kann auch benutzerdefinierte Stile aus hochgeladenen Beispielinhalten generieren. Anthropic hat auch die Möglichkeit hinzugefügt, globale Profileinstellungen für den Chatbot hinzuzufügen, um ihm „Dinge anzuweisen, die er immer im Betracht ziehen soll“, wie eine bevorzugte Programmiersprache.

4 / 6

56 Millionen US-Dollar Kapitalerhöhung für AI-Agent-Startup/Entwickler/Agenten

KI-Agenten Startup/Entwickler/Agenten kam aus dem Stealth-Modus diese Woche und kündigte eine Startkapitalrunde in höhe von 56 Millionen $ an. Die Finanzierungsrunde wurde gemeinsam von Index Ventures und CapitalG geleitet.

Das Startup, das ein Betriebssystem für KI-Agenten, wurde vom ehemaligen Chief Technology Officer von Stripe, David Singleton, und ehemaligen Vizepräsidenten von Google und Meta gegründet. (META): Hugo Barra, Ficus Kirkpatrick und Nicholas Jitkoff.

„Heute kann man innerhalb von Stunden eine KI-Demo erstellen, aber etwas zu bekommen, dem die Verbraucher ihre Kreditkarte tatsächlich anvertrauen können, ist nahezu unmöglich“, sagte Singleton. „So wie Android die mobile Entwicklung praktisch jedem Entwickler zugänglich gemacht hat, bauen wir die Plattform, die dazu beitragen wird, KI-Agenten zum Mainstream zu machen.“

5 / 6

Runways Bildgenerierungsmodell, Frames

Runway kündigte seine neues Basismodell zur Bildgenerierung, Frames, diese Woche. Das neue Modell stellt „einen großen Schritt vorwärts in der stilistischen Kontrolle und Bildtreue dar“, sagte das KI-Startup, das multimodale KI-Systeme für die Video-, Bild- und Audiogenerierung entwickelt.

Frames können bei der Bildgenerierung eine stilistische Konsistenz wahren, sagte Runway. Der Zugriff auf Frames wird im Gen-3-Alpha-Grundmodell und über die API von Runway eingeführt.

6 / 6

Lumas erstes Bildgenerierungsmodell

Die visuelle KI-Plattform Luma hat diese Woche ihr erstes Bildgenerierungsmodell, das Luma AI Photon Image Model, vorgestellt. Das Text-zu-Bild-Grundmodell basiert auf Lumas Universal Transformer-Architektur. Das Modell sei 800 % schneller und günstiger als andere Modelle, sagte Luma.

Luma hat außerdem einen kostenlosen und abonnementbasierten Service für seine Dream Machine angekündigt. visueller KI-Dienst im Web und unter iOS. Das Dream Machine-Modell wurde im Juni veröffentlicht und hat 25 Millionen registrierte Benutzer.