Meta und OpenAI: Neue KI-Modelle V-JEPA und Sora

Meta und OpenAI: Neue KI-Modelle V-JEPA und Sora

Fact FrAIday - Erkenntnis der Woche

Laut einer Gartner Studie soll das Suchmaschinenvolumen bis 2026 um 25 Prozent zurückgehen. Traditionelle Suchmaschinen wie zum Beispiel Google und Bing sollen außerdem Marktanteile an AI Chatbots und virtuelle Assistenten verlieren. Durch generative KI-Lösungen soll sich laut Studie auch unser Suchverhalten verändern. Langfristig soll diese Entwicklung auch bei Marketing-Strategien ein Umdenken erfordern, aber schon heute bieten Tools wie Perplexity AI – eine Conversational Answer Engine – KI basierte Antworten. Und auch OpenAI soll derzeit an einem KI-basierten Search Service arbeiten, der Google langfristig Konkurrenz im Suchmarkt machen könnte. Dieser soll allerdings durch Microsofts Suchmaschine Bing unterstützt werden.

OpenAI launcht Sora

Laut OpenAI kann Sora mit ganz einfachen Textbefehlen erschreckend realitätsnahe Videos erstellen. Bisher gibt es hier aber noch einige Einschränkungen, denn zunächst soll das Modell nur für Sicherheitsexperten, Gameentwickler und Künstler zur Verfügung gestellt werden, die das Produkt testen, bevor es ausgerollt wird. Die Länge der Videos ist momentan auf eine Minute begrenzt, aber das Ziel sei laut OpenAI, dass Sora gerade Filmschaffenden im kreativen Prozess hilft. Das Video, das Sora mit nur einem einfachen Prompt erstellte, wurde laut OpenAI nicht weiter nachbearbeitet. Das Ergebnis ist ein Video, das wie aus einer Intro-Szene aus einem echten Film gegriffen ist. Zuschauer sehen eine Frau in einem roten Kleid mit Lederjacke, die durch die Straßen Tokios schlendert. Sora berücksichtigt dabei jedes kleinste Detail aus dem Prompt. Weitere Beispielvideos wie der Trailer für einen Astronautenfilm zeigen Soras hollywoodreife Produktionen. Das Tool hat sogar mehrere Szenenwechsel integriert, die laut OpenAI in nur einem Durchgang erzeugt und auch nicht von einem Prompt vorgegeben wurden. Obwohl die Beispiele echt beeindruckend sind, erklärt OpenAI, dass das Modell noch zahlreiche Schwächen und noch Schwierigkeiten hat, die Physik einer Szene genau zu simulieren. So könnte zum Beispiel ein Keks, der gerade von einer Person gegessen wird, danach möglicherweise keine Bissspuren aufweisen. Bevor Sora für die Öffentlichkeit zugänglich wird, werden laut OpenAI noch eine Reihe an Sicherheitsmaßnahmen ergriffen – um sicherzustellen, dass Fehlinformationen, hasserfüllte Inhalte oder extreme Gewalt ausgeschlossen werden. Sie sagen aber auch, dass sie trotz umfangreicher Tests vermutlich nicht alle Möglichkeiten des Missbrauchs der Technologie vorhersagen können.

Metas V-JEPA ist Yann LeCuns jüngster Vorstoß in die mögliche Zukunft der KI

Meta hat ein neues KI-Modell, das Video Joint Embedding Predictive Architecture – kurz V-JEPA genannt wird. Es geht hauptsächlich darum, wie KI-Modelle besser trainiert werden können. V-JEPA wurde entwickelt, um komplexe Interaktionen in Videos vorherzusagen und zu verstehen. Statt neue Inhalte zu generieren, ergänzt das Modell fehlende oder verdeckte Teile eines Videos, dabei versucht es nicht jedes einzelne Pixel zu rekonstruieren, sondern dekodiert eine abstrakte Darstellung der Szene – laut Meta soll diese Vorgehensweise unserer Verarbeitung von Bildern ähneln. Meta erklärt das so, dass wir Menschen schon als Babys viel durch Beobachten lernen und dadurch schon früh lernen, was hochgeht auch wieder runterkommen muss. Die Idee hinter dem Modell ist, dass sie sich auf das konzentriert, was für das Verständnis und die Ausführung von Aufgaben wichtig ist – ohne dass sie sich in unwichtigen Details verliert. Wenn das Modell zum Beispiel einen Baum in einem Video analysiert, muss es nicht die Bewegung der einzelnen Blätter berücksichtigen. Für das Training von V-JEPA wird daher eine Maskierungsmethode verwendet. Für die Zukunft ist die Idee des Meta-Teams, die Fähigkeiten von V-JEPA zu erweitern sowie die Langzeitvorhersage zu verbessern und um Audiodaten zu erweitern. So kann es schon heute den Unterschied erkennen, ob jemand ein Stift ablegt, ihn aufhebt oder ob einfach nur so getan wird.

Tool der Woche - Mistral Next

Das Tool der Woche ist diesmal das französische Sprachmodell-Wunder Mistral Next, denn Mistral Next ist in der Chatbot-Arena im Direct-Chat-Modus verfügbar. Da zuletzt das Modell auf GPT-3.5 Niveau erschien, wird bereits von vielen Experten in dem Bereich vermutet, dass es sich bei Mistral Next um das größte Modell des Startups handeln könnte. Noch sind wenige Daten und Fakten zu Mistral Next bekannt, aber man kann jedenfalls die Chat-Version des Modells kostenlos ausprobieren und gegen eine Reihe anderer LLMs in der Chatbot Arena antreten lassen. Als „Gegner“ kann man unter anderem GPT-4 von OpenAI, Gemini Pro von Google, Claude 2.1 von Anthropic oder Llama 70B von Meta auswählen. So kann man die gleiche Aufgabe beziehungsweise Frage an die zwei ausgewählten Modelle stellen und die Antworten direkt vergleichen.

Quick News

  • Microsoft investiert in Deutschland: Der Techkonzern hat angekündigt, dass er in den nächsten fünf Jahren 3,2 Milliarden Euro in Deutschland investieren wird. Damit will das Unternehmen seine Rechenzentrums-Kapazitäten für KI-Anwendungen und den Bereich Cloud-Computing massiv ausbauen. Die Investition soll außerdem in KI-Weiterbildungsprogramme fließen – von der bis zu 1,2 Millionen Menschen profitieren sollen. So sollen die Investitionen vor allem nach Nordrhein-Westfalen gehen, wo Microsoft eine neue Region für das Cloud-Geschäft mit Datenspeicherung errichten will. Das Ziel ist dabei, die Datenlaufzeiten zwischen Rechenzentren und Computern vor Ort möglichst niedrig zu halten. Auch Hessen soll eine Teil abbekommen. Da soll der große Internetknoten DE-CIX profitieren – damit wird die bereits bestehende Microsoft Region im Rhein-Main-Gebiet noch weiter ausgebaut. Auf dem KI Markt führt Microsoft aktuell, weil der Konzern schon früh mehrere Milliarden in die Hand nahm, um bei OpenAI einzusteigen.

  • Chatbot verspricht Fluggast irrtümlich Rückerstattung – Airline muss zahlen: Air Canada und deren Chatbot erteilten einen Rabatt, den es gar nicht gab.Ein Schiedsgericht in British Columbia verurteilte den Konzern nun zur Zahlung von 812 kanadischen Dollar – umgerechnet ca. 560 Euro – die Air Canada nun an den Kunden zahlen muss. Der Kunde hatte sich beim Airline Chatbot zu einer kurzfristigen Buchung wegen eines Trauerfalls erkundigt, seine Großmutter war gestorben. Und bei Air Canada gibt es sogenannte Trauertarife, allerdings sehen ihre Richtlinien vor, dass ein solches Ticket vor Abflug gebucht werden muss.Der Chatbot riet dem Kunden aber, das Ticket zum Normalpreis zu buchen und sich innerhalb von 90 Tagen mit dem Unternehmen wegen einer Rückerstattung in Verbindung zu setzen, und als der Mann das tat, wollte Air Canada nicht zahlen. Stattdessen wälzten sie die ganze Verantwortung auf die Maschine ab, obwohl der Chatbot schließlich keine juristische Person ist und für seine Handlungen verantwortlich gemacht werden kann.

  • Adobe launcht KI Assistenten: Der Adobe AI Assistant ist eine neue generative, KI-gestützte Konversations-Engine in den Produkten Adobe Reader und Acrobat, der tief in die Arbeitsabläufe der beiden Produkte integriert ist. Laut Adobe soll der Assistent innerhalb kürzester Zeit Zusammenfassungen und Analysen aus langen Dokumenten liefern sowie Fragen beantworten und Infos formatieren, dass man sie für E-Mails, Berichte oder Präsentationen verwenden kann. Bei anderen KI-Modellen wie zum Beispiel ChatGPT, wird zwar ein PDF-Reader angeboten, doch da müssen User eine PDF erst hochladen. Beim KI-Assistenten von Adobe ist die Funktion einfach integriert, somit sparen sich User gleich einen Schritt. Der Adobe CEO betonte bei der Vorstellung des Assistenten auch, dass es ihr Ziel sei, den Zugang zu den zahlreichen PDFs weltweit zu demokratisieren. Nach Abschluss der Betaphase will Adobe den KI Assistenten im Abo anbieten. Genauere Infos zu Preise oder der Dauer der Betaphase sind derzeit nicht bekannt 

To view or add a comment, sign in

Explore topics