LeCun bezweifelt die Inferenzfähigkeit großer Sprachmodelle und betont kontextuelles Lernen

站长之家

Veröffentlicht amKI-Nachrichten und -Informationen · 2 Minuten Lesezeit · Nov 24, 2023

LeCuns Kritik an der Inferenzfähigkeit großer Sprachmodelle

Kürzlich kritisierte Yann LeCun auf Twitter die Inferenzfähigkeit großer Sprachmodelle und argumentierte, dass deren Emergenzfähigkeit hauptsächlich auf kontextuelles Lernen zurückzuführen sei. Experimentelle Studien belegen, dass große Sprachmodelle bei komplexen Planungsproblemen schlecht abschneiden und ihre Inferenzfähigkeit eingeschränkt ist. Die Arbeit weist auch auf Probleme in der Forschung zu Planungsaufgaben für große Sprachmodelle hin, darunter die Verwechslung von Planwissen und der Ausführung von Plänen. Die Verbesserung der Planungsfähigkeit großer Sprachmodelle bleibt eine Herausforderung. Diese Diskussion liefert wichtige Einblicke in das tatsächliche Leistungsvermögen großer Sprachmodelle im Bereich des logischen Schließens und der Planung.

Große Sprachmodelle LeCun Inferenzfähigkeit

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Die Geheimnisse großer Modelle enthüllt! Die hinter den 'Gedankenwörtern' versteckten Informationen sind beeindruckend

Kürzlich hat ein Forschungsteam aus der Renmin-Universität, dem Shanghai Artificial Intelligence Lab, der University College London und der Dalian University of Technology eine wichtige Erkenntnis über den Schlussfolgerungsprozess großer Modelle enthüllt: Wenn das Modell nachdenkt, spiegeln die sogenannten "Gedankenwörter", die es verwendet, tatsächlich eine bemerkenswerte Zunahme seiner internen Informationsmenge wider. Diese Forschungsergebnisse bieten mit Methoden der Informationstheorie einen neuen Blickwinkel, um das Schlussfolgerungsverhalten künstlicher Intelligenz besser zu verstehen. Sie haben vielleicht bereits gesehen, wie große Modelle bei der Beantwortung von Fragen manchmal Sprache produzieren, die menschlich wirkt, wie beispielsweise "Hmm..." oder "Lass mich mal darüber nachdenken...".

Jul 4, 2025

DeepMind stellt Crome vor: Verbesserung der Ausrichtung großer Sprachmodelle auf menschliches Feedback

Im Bereich der künstlichen Intelligenz sind Belohnungsmodelle ein entscheidender Bestandteil, um große Sprachmodelle (LLMs) mit menschlichem Feedback auszurichten. Allerdings stehen bestehende Modelle vor dem Problem der sogenannten „Belohnungshacker“. Diese Modelle konzentrieren sich oft auf oberflächliche Merkmale wie die Länge oder das Format der Antwort, anstatt echte Qualitätskriterien wie Faktenkorrektheit und Relevanz zu erkennen. Die Ursache des Problems liegt darin, dass Standardtrainingsziele die falschen Korrelationen im Trainingsdatensatz nicht von echten kausalen Einflussfaktoren unterscheiden können. Dieser Versagen führt zu empfindlichen Belohnungsmodellen (RMs), was wiederum zu unangemessenen Strategien führt.

Jul 4, 2025

MiniMax veröffentlicht das weltweit erste Open-Source-Modell für große künstliche Intelligenz Technologischer Durchbruch löst Aufmerksamkeit in der Industrie aus

Jul 4, 2025

Neues im Urheberrechtsverfahren gegen OpenAI: The New York Times erhält Zugriff auf gelöschte Nutzerdaten

Im langwierigen Urheberrechtsverfahren der New York Times gegen OpenAI gab es eine wichtige Entwicklung. Laut Ars Technica hat ein Bundesrichter der New York Times und ihren Mitklägern, dem New York Daily News und dem Investigative Reporting Center, den Zugriff auf die Nutzerprotokolle von OpenAI gewährt, einschließlich gelöschter Inhalte, um den Umfang des Verstoßes genau zu ermitteln. Die New York Times ist der Ansicht, dass ChatGPT-Nutzer möglicherweise ihre Historie nach dem Umgehen der Bezahlsperre löschen könnten, weshalb eine umfassende Datenanalyse notwendig ist.

Jul 4, 2025

Der XPeng G7 Ultra macht seine große Premiere! Ein bahnbrechendes neues intelligentes Führungsmodell wird vorgestellt

Auf dem Markt für Elektrofahrzeuge hat XPeng Auto erneut Aufmerksamkeit erregt. Am 3. Juli wurde der XPeng G7 Ultra offiziell auf den Markt gebracht und ist das erste Fahrzeug, das ein lokales "VLA+VLM"-Modell integriert. Diese innovative Technologie markiert einen wichtigen Schritt in Richtung intelligenter Fahrtechnik für XPeng. Der XPeng G7 Ultra ist mit dem VLA-Modell (aktivem Denken und schnellen Entscheidungsfindung) ausgestattet, was die Fahrerfahrung noch intelligenter macht. Im Alltagsszenario kann der G7 Ultra verschiedene komplexe Fahrsituationen flexibel bewältigen, beispielsweise bei...

Jul 4, 2025

Geheimnisse der KI-Verträglichkeit für verstärkendes Lernen: Tsinghua University enthüllt Unterschiede zwischen Llama und Qwen und präsentiert OctoThinker

Große Sprachmodelle (LLM) haben in komplexen Schlussfolgerungsaufgaben durch die Kombination von Aufgabenprompting und großflächigem verstärkendem Lernen (RL) erhebliche Fortschritte gemacht, wie Modelle wie Deepseek-R1-Zero, die das verstärkende Lernen direkt auf Basismodelle anwenden und starke Schlussfolgerungsfähigkeiten zeigen. Allerdings ist dieser Erfolg in verschiedenen Basismodellsuiten schwer nachzuahmen, insbesondere bei der Llama-Serie. Dies wirft eine zentrale Frage auf: Welche Faktoren führen dazu, dass verschiedene Basismodelle im Prozess des verstärkenden Lernens unterschiedlich abschneiden? Verstärkendes Lernen in

Jul 3, 2025

Wissenschaftler haben etwas zu sagen! Die SciArena-Plattform ist online – umfassende Bewertung der wissenschaftlichen Leistung großer Sprachmodelle

Jul 3, 2025

Oracle wird durch Cloud-Computing und große Modelle beeinflusst, der Aktienkurs steigt auf ein Rekordhoch

Jul 1, 2025

Baidu bringt kraftvoll das WENXIN-Modell 4.5-Serie in den Open Source-Bereich, was den chinesischen Markt für große Modelle erneut ins Chaos stürzt!

Kürzlich gab Baidu offiziell die Open-Source-Verfügbarkeit seiner WENXIN-Modellreihe 4.5 bekannt und stellte insgesamt zehn Modelle vor, darunter Mischungsmodellen mit Experten (MoE) mit 47B- und 3B-Aktivierungsparametern sowie dichten Modellen mit 0,3B Parametern. Diese Open-Source-Veröffentlichung ermöglicht nicht nur die vollständige Offenlegung der vortrainierten Gewichte, sondern stellt auch Inferenzcodes bereit und markiert einen wichtigen Fortschritt in Baidus Bereich großer Modelle. Diese neu veröffentlichten Modelle können auf Plattformen wie PaddlePaddle Starry Sky Community und Hugging Face heruntergeladen und bereitgestellt werden. Darüber hinaus bietet auch die Baidu Intelligent Cloud Qianfan-Modellplattform

Jun 30, 2025

Tencent Open Source Hunyuan-A13B: Kleine Größe, große Weisheit im KI-Modell

Jun 30, 2025

230

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

LeCun bezweifelt die Inferenzfähigkeit großer Sprachmodelle und betont kontextuelles Lernen

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Die Geheimnisse großer Modelle enthüllt! Die hinter den 'Gedankenwörtern' versteckten Informationen sind beeindruckend

DeepMind stellt Crome vor: Verbesserung der Ausrichtung großer Sprachmodelle auf menschliches Feedback

MiniMax veröffentlicht das weltweit erste Open-Source-Modell für große künstliche Intelligenz Technologischer Durchbruch löst Aufmerksamkeit in der Industrie aus

Neues im Urheberrechtsverfahren gegen OpenAI: The New York Times erhält Zugriff auf gelöschte Nutzerdaten

Der XPeng G7 Ultra macht seine große Premiere! Ein bahnbrechendes neues intelligentes Führungsmodell wird vorgestellt

Geheimnisse der KI-Verträglichkeit für verstärkendes Lernen: Tsinghua University enthüllt Unterschiede zwischen Llama und Qwen und präsentiert OctoThinker

Wissenschaftler haben etwas zu sagen! Die SciArena-Plattform ist online – umfassende Bewertung der wissenschaftlichen Leistung großer Sprachmodelle

Oracle wird durch Cloud-Computing und große Modelle beeinflusst, der Aktienkurs steigt auf ein Rekordhoch

Baidu bringt kraftvoll das WENXIN-Modell 4.5-Serie in den Open Source-Bereich, was den chinesischen Markt für große Modelle erneut ins Chaos stürzt!

Tencent Open Source Hunyuan-A13B: Kleine Größe, große Weisheit im KI-Modell