Diese Entwicklung verändert nicht nur die globale KI-Branche, sondern katapultiert auch chinesische Internetunternehmen in eine neue Ära der Innovation und des Wettbewerbs.

DeepSeek: Der Umbruch in der KI-Industrie

DeepSeek hat insbesondere mit seinem R1-Modell die KI-Gemeinschaft in Aufruhr versetzt. Der plötzliche Aufstieg des Unternehmens wird auf mehrere Schlüsselfaktoren zurückgeführt:

Kosteneffizienz: DeepSeek R1 wurde zu einem Bruchteil der Kosten im Vergleich zu seinen westlichen Pendants entwickelt. Das Unternehmen gibt an, nur 6 Millionen Dollar für die Rechenleistung zum Trainieren des Modells ausgegeben zu haben, was deutlich weniger ist als die geschätzten Kosten für Modelle wie ChatGPT oder Googles Gemini. Leistung: Trotz seiner geringeren Entwicklungskosten hat DeepSeek R1 beeindruckende Fähigkeiten bewiesen. Es hat sich gute Noten für seine Leistung verdient und kann bei wichtigen Benchmarks mit grösseren Konkurrenten mithalten. Preisgestaltung: DeepSeek bietet wesentlich niedrigere Kosten pro Token als die Modelle von OpenAI, was es zu einer kostengünstigen Lösung für Entwickler und Unternehmen macht. Open-Source-Ansatz: Im Gegensatz zu vielen proprietären Modellen hat DeepSeek sein R1-Modell in einer relativ quelloffenen Form veröffentlicht, die es Forschern und Entwicklern ermöglicht, frei auf den Code zuzugreifen und ihn zu verändern. Effizienz: DeepSeek R1 verwendet eine Mixture of Experts (MoE)-Architektur, bei der nur 37 Milliarden der 671 Milliarden Parameter pro Vorwärtsdurchlauf aktiviert werden. Dieses Design gewährleistet Skalierbarkeit ohne proportionalen Anstieg der Rechenkosten.

Das Auftauchen von DeepSeek hat tiefgreifende Auswirkungen gehabt. Es hat die Vorstellung in Frage gestellt, dass die Entwicklung modernster KI-Modelle enorme Ressourcen erfordert, und damit eine Neubewertung der KI-Entwicklungsstrategien weltweit ausgelöst. Der Erfolg des Unternehmens hat auch das Potenzial für Innovationen unter Zwang aufgezeigt, da DeepSeek sein Modell trotz der US-Chip-Exportbeschränkungen entwickelt hat.

Chinas Internet-Giganten: Beschleunigte KI-Investitionen

Der Durchbruch von DeepSeek hat ein KI-Wettrüsten unter Chinas Internetgiganten ausgelöst. Unternehmen wie Alibaba, Tencent, Kuaishou, Baidu und ByteDance verdoppeln jetzt ihre KI-Investitionen, da sie das Potenzial der KI für die Umgestaltung ihrer Unternehmen und die Aufrechterhaltung der globalen Wettbewerbsfähigkeit erkannt haben.

Diese Unternehmen gehören zu den wichtigsten Akteuren, die massiv in die KI-Forschung und -Entwicklung investieren. Bei diesem Investitionsschub geht es nicht nur darum, mit den globalen Wettbewerbern Schritt zu halten, sondern auch um die einzigartigen Chancen und Herausforderungen des chinesischen Marktes. Mit einer riesigen Nutzerbasis und vielfältigen industriellen Anwendungen sind chinesische Unternehmen gut positioniert, um KI-Lösungen zu entwickeln, die auf die lokalen Bedürfnisse zugeschnitten sind und gleichzeitig auf der globalen Bühne konkurrenzfähig sind.

Das neueste und fortschrittlichste grosse Sprachmodell (LLM) von Alibaba ist Qwen 2.5-Max, das im Januar 2025 veröffentlicht wurde. Dieses Modell nutzt eine MoE-Architektur wie DeepSeek und wurde auf über 20 Billionen Token trainiert. Qwen 2.5-Max hat in mehreren Benchmarks beeindruckende Leistungen gezeigt und Modelle wie DeepSeek-V3, GPT-4o und Llama-3.1-405B in verschiedenen Tests übertroffen. Das Modell ist in verschiedenen Grössen erhältlich, von 3 Milliarden bis 72 Milliarden Parametern, und umfasst eine Basis- und eine anweisungsangepasste Version. Qwen 2.5-Max zeichnet sich durch Sprachverständnis, Codierung, Mathematik und logisches Denken aus. Ausserdem verfügt es über multimodale Fähigkeiten, die es ihm ermöglichen, Text und visuelle Eingaben zu verarbeiten. Alibaba hat das Modell über APIs auf seiner generativen KI-Entwicklungsplattform Model Studio zugänglich gemacht, so dass Entwickler weltweit seine Fähigkeiten nutzen können.

Moonshot AI, ein von Alibaba finanziertes KI-Start-up, hat im Januar 2025 sein neuestes Modell Kimi k1.5 auf den Markt gebracht. Dieses multimodale Denkmodell hat eine vergleichbare Leistung wie das Modell o1 von OpenAI gezeigt, wobei es insbesondere bei mathematischen Aufgaben brilliert. Kimi k1.5 verfügt über ein erweitertes Kontextfenster für das Reinforcement Learning (RL) von 128k Token und nutzt fortschrittliche Techniken zur Optimierung der RL-Richtlinien. Das Modell hat in verschiedenen Benchmarks beeindruckende Ergebnisse erzielt, darunter eine Punktzahl von 77,5 bei AIME und 96,2 bei MATH 500. Kimi k1.5 glänzt auch bei multimodalen Argumentationsaufgaben wie MathVista, die ein visuelles Verständnis von komplexen Themen wie Geometrie und IQ-Tests erfordern. Moonshot AI hat effektive long2short-Methoden eingeführt, die es dem Modell ermöglichen, qualitativ hochwertige Antworten zu liefern und gleichzeitig die Kosten für die Schlussfolgerungen deutlich zu senken. Die Konzentration des Unternehmens auf die Verarbeitung langer Kontexte und multimodale Schlussfolgerungen hat Kimi k1.5 als vielseitiges und leistungsstarkes Werkzeug in der sich entwickelnden KI-Landschaft positioniert.

Das Vorzeige-LLM von Tencent ist Hunyuan-Large, ein Open-Source-Modell mit insgesamt 389 Milliarden Parametern und 52 Milliarden aktivierten Parametern. Hunyuan-Large wird Ende 2024 veröffentlicht und nutzt eine fortschrittliche MoE-Architektur, um eine Leistung zu erreichen, die der eines dichten Modells mit siebenmal mehr Aktivierungsparametern entspricht. Das Modell hat sowohl in der chinesischen als auch in der englischen Sprachverarbeitung seine Leistungsfähigkeit unter Beweis gestellt und übertrifft Meta's Llama 3.1 405B in vielen wichtigen Benchmarks. Hunyuan-Large kann Kontexte mit bis zu 256.000 Token verarbeiten und eignet sich damit für Anwendungen, die umfangreiche Kontexte und detaillierte Analysen erfordern. Tencent hat das Modell auf entwicklerfreundlichen Plattformen wie HuggingFace und GitHub zur Verfügung gestellt, um eine breite Akzeptanz und Innovation in der KI-Community zu fördern.

Das führende LLM von Kuaishou ist KwaiYii, das seit seiner Einführung bemerkenswerte Fortschritte gemacht hat. Anfang 2025 hat KwaiYii die Gesamtleistung von GPT-3.5 deutlich übertroffen und nähert sich in bestimmten Bereichen den Fähigkeiten von GPT-4. Das Modell zeichnet sich durch die Erstellung von Inhalten, die Konsultation von Informationen und das Lösen von mathematischen Problemen aus, wobei seine Leistung fast der von ChatGPT entspricht. KwaiYii ist Teil der umfassenden KI-Modellmatrix von Kuaishou, die auch Empfehlungsmodelle und Modelle zur visuellen Generierung umfasst. Das Unternehmen hat seine KI-Fähigkeiten aktiv erweitert und vor kurzem Kling eingeführt, ein Text-zu-Video-Modell, das in der Lage ist, qualitativ hochwertige Videos mit einer Länge von bis zu zwei Minuten und einer Auflösung von 1080p zu erzeugen. Die KI-Innovationen von Kuaishou zielen darauf ab, das Ökosystem für die Erstellung von Inhalten und die Vermarktung neu zu gestalten und den Nutzern fortschrittliche Tools für die Erstellung von Videos und den kreativen Ausdruck zur Verfügung zu stellen.

Baidu, Chinas führendes Suchmaschinenunternehmen, macht mit seinem Ernie LLM weiterhin grosse Fortschritte in der KI. Das Unternehmen plant, Anfang 2025 eine neue Version von Ernie herauszubringen, um seine Leistung, Genauigkeit und Unterstützung für verschiedene Nutzerbedürfnisse zu verbessern. Ende 2024 verarbeitete Ernie täglich beeindruckende 1,5 Milliarden Anrufe und über 1,7 Billionen Text-Token pro Tag - eine 30-fache Steigerung gegenüber dem Vorjahr. Baidu-CEO Robin Li sagt bis 2025 einen "exponentiellen" Anstieg der KI-Anwendungen voraus, der durch den raschen Einsatz von generativer KI in verschiedenen Branchen vorangetrieben wird. Im Rahmen seiner Strategie zur Kommerzialisierung von KI-Technologien hat das Unternehmen auch neue KI-gestützte Tools eingeführt, darunter I-RAG, einen Text-zu-Bild-Generator, und Miaoda, einen No-Code Application Builder.

Doubao-1.5-pro von ByteDance, das im Januar 2025 auf den Markt kam, ist ein bedeutender Fortschritt in den KI-Fähigkeiten des Unternehmens. Dieses Modell nutzt eine spärliche MoE-Architektur und erreicht eine Leistung, die der eines dichten Modells mit siebenmal mehr Aktivierungsparametern entspricht. Doubao-1.5-pro hat in verschiedenen Benchmarks beeindruckende Ergebnisse erzielt und Modelle wie GPT-4o und Claude 3.5 Sonnet in den Bereichen Wissen, Codierung, logisches Denken und Verarbeitung der chinesischen Sprache übertroffen. Das Modell verfügt über einen "Deep Thinking"-Modus, der seine Denkfähigkeiten durch umfangreiche Reinforcement Learning-Techniken verbessert. ByteDance hat auch multimodale Fähigkeiten in Doubao eingeführt, einschliesslich Text-, Bild- und Audioverarbeitung, mit einer zukünftigen Text-zu-Video-Funktion. Trotz seiner fortschrittlichen Fähigkeiten hat ByteDance die Preise für Doubao konkurrenzfähig gehalten, so dass es für Privatpersonen und Unternehmen weithin zugänglich ist.

Auswirkungen auf Chinas Internetunternehmen

Die rasche Weiterentwicklung von KI-Modellen durch chinesische Unternehmen hat weitreichende Auswirkungen:

Diese KI-Modelle werden es chinesischen Internetunternehmen ermöglichen, ihrer grossen Nutzerbasis anspruchsvollere und personalisierte Dienste anzubieten. Von verbesserten Suchfunktionen bis hin zu ansprechenderen Social-Media-Erlebnissen - KI wird die Art und Weise, wie Nutzer mit digitalen Plattformen interagieren, verändern.

KI-Modelle wie DeepSeek R1 und Qwen2.5-VL können die betriebliche Effizienz erheblich steigern. Das Modell von Alibaba beispielsweise könnte den E-Commerce revolutionieren, indem es Produktempfehlungen verbessert und die Logistik rationalisiert.

Die multimodalen Fähigkeiten dieser KI-Modelle eröffnen Möglichkeiten in Bereichen wie Gesundheit, Finanzen und Bildung. Chinesische Internetunternehmen können diese Technologien nutzen, um innovative, auf lokale Bedürfnisse zugeschnittene Lösungen zu entwickeln.

Wenn diese KI-Modelle weiter verbessert werden, sind chinesische Unternehmen in der Lage, auf dem globalen Markt effektiver zu konkurrieren. Dies könnte dazu führen, dass chinesische KI-Lösungen weltweit verstärkt eingesetzt werden.

Seit dem Start von ChatGPT im November 2022 hat der Nasdaq 100 Index um 81,6 % zugelegt, während der KraneShares CSI China Internet ETF (Ticker: KWEB) im gleichen Zeitraum nur um 17,5 % zugelegt hat.1 Wir glauben, dass DeepSeek der ChatGPT-Moment für chinesische Internetunternehmen sein und möglicherweise zu einer Neubewertung dieser Unternehmen führen könnte, die mehr im Einklang mit ihren US-Konkurrenten steht.

Fazit

Zusammenfassend lässt sich sagen, dass der Durchbruch von DeepSeek nicht nur Chinas Fähigkeit demonstriert hat, KI-Modelle von Weltklasse zu produzieren, sondern auch eine neue Welle von Innovationen und Investitionen in der chinesischen Technologielandschaft ausgelöst hat. Wenn diese Unternehmen die Grenzen der KI-Technologie weiter verschieben, können wir mit transformativen Veränderungen in der Art und Weise rechnen, wie digitale Dienste sowohl in China als auch weltweit angeboten und genutzt werden. Das Rennen ist eröffnet, und Chinas Internetgiganten sind bereit, eine führende Rolle bei der Gestaltung der Zukunft der KI zu spielen.

Index-Definitionen:

Nasdaq-100-Index (NDX-Index): Ein Börsenindex, der sich aus den Aktienwerten der 100 grössten, an der Nasdaq-Börse notierten Nicht-Finanzunternehmen zusammensetzt. Es handelt sich um einen modifizierten, kapitalisierungsgewichteten Index.

Definitionen:

Large Language Model (LLM): Eine Art von künstlicher Intelligenz, die speziell darauf ausgelegt ist, menschliche Sprache zu verstehen und zu generieren, indem sie auf riesige Mengen von Textdaten trainiert wird, so dass sie Aufgaben wie Schreiben, Übersetzen, Zusammenfassen und Beantworten von Fragen auf menschenähnliche Weise ausführen kann; im Wesentlichen handelt es sich um ein komplexes KI-System, das Text mit einem hohen Mass an Genauigkeit und Flüssigkeit verarbeiten und generieren kann.

Mischung von Experten (MoE): Eine Technik des maschinellen Lernens, bei der mehrere spezialisierte Modelle, so genannte "Experten", zusammenarbeiten, wobei ein Gating-Netzwerk entscheidet, welcher Experte am besten geeignet ist, um die einzelnen Eingaben zu bearbeiten, wodurch ein komplexes Problem im Wesentlichen in kleinere, besser handhabbare Teilaufgaben auf der Grundlage spezifischer Fachkenntnisse aufgeteilt wird; dies ermöglicht effizientere und genauere Vorhersagen als ein einzelnes monolithisches Modell.

Verstärkungslernen (RL): Eine Technik des maschinellen Lernens (ML), bei der Software darauf trainiert wird, Entscheidungen zu treffen, um die optimalsten Ergebnisse zu erzielen. Es ahmt den Versuch-und-Irrtum-Lernprozess nach, den Menschen nutzen, um ihre Ziele zu erreichen.