ExllamaV2: Uma biblioteca de inferência para executar LLMs localmente em GPUs de consumo modernas

站长之家

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Sep 15, 2023

236

ExllamaV2 é uma biblioteca de inferência que permite a execução eficiente de modelos de linguagem de grande escala (LLMs) em GPUs de consumo comuns. Ela suporta o novo formato de quantização ajustável EXL2, alcançando uma melhoria de desempenho de 1,5 a 2 vezes. O objetivo do projeto é ser uma solução de inferência LLM fácil de usar, compatível com modelos Hugging Face, oferecendo exemplos interativos para uma experiência sem barreiras com o poder dos LLMs. Em resumo, o ExllamaV2 oferece uma maneira prática e viável de executar modelos de linguagem de grande escala utilizando recursos de GPU doméstica.

exllamav2 GPU LLM

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

json

{ título: Empresa Anthropic está desenvolvendo tecnologia de IA interpretável, o que pode redesenhar a estratégia de modelos grandes de linguagem corporate, conteúdo: A empresa de pesquisa em inteligência artificial Anthropic anunciou recentemente que está desenvolvendo um sistema de IA com 'interpretabilidade'. Essa tecnologia tem como objetivo permitir que as empresas entendam mais claramente o processo de decisão dos modelos grandes de linguagem (LLM). Essa descoberta pode ter um impacto profundo nas estratégias de aplicação de LLM das empresas.}

Jun 18, 2025

Avaliação profunda do LLM SEO Monitor: Ferramenta essencial para otimização de SEO com IA

Análise completa das funcionalidades e da experiência de uso da ferramenta LLM SEO Monitor, aprenda como monitorar profissionalmente para aumentar a visibilidade da sua marca nos motores de busca de IA como o ChatGPT e o Gemini, e obtenha valor comercial através do tráfego de pesquisa com IA.

Jun 17, 2025

Kimi-Dev-72B: LLM de código aberto habilitando a resolução de problemas de engenharia de software

Jun 17, 2025

Avaliação do LLM SEO Monitor: A ferramenta essencial para otimização de busca de marcas na era da IA

Entenda como a ferramenta revolucionária LLM SEO Monitor ajuda marcas a monitorar seu desempenho nos resultados de pesquisa de assistentes de IA como o ChatGPT e o Google Gemini. Analise as funcionalidades principais, comparação de vantagens e desvantagens de preços, bem como como utilizá-la para proporcionar novas vantagens competitivas no mundo da busca com IA.

Jun 16, 2025

Apple volta a criticar a capacidade de inferência da IA; Líder do GitHub responde: Esta não é a verdadeira imagem da capacidade de inferência!

Recentemente, a Apple publicou um artigo que gerou grande controvérsia, afirmando que os atuais Modelos de Linguagem Grande (LLM) têm sérios defeitos na capacidade de inferência. Essa opinião rapidamente chamou a atenção nas redes sociais, especialmente Sean Goedecke, engenheiro de software sênior no GitHub, que expressou fortes objeções. Ele acredita que as conclusões da Apple são excessivamente parciais e não refletem adequadamente a capacidade dos modelos de inferência. O artigo da equipe de pesquisa da Apple aponta que o desempenho dos LLMs em testes padrão como matemática e programação não é confiável. A equipe de pesquisa da Apple utilizou

Jun 10, 2025

MonkeyOCR para análise de documentos LLM impressiona: pequeno modelo de 3 bilhões vence Gemini

Jun 9, 2025

Huawei lança modelo de grande escala Ascend: sem GPU, problemas complexos de matemática só levam 2 segundos!

May 30, 2025

Laboratório Qwen, em parceria com a Universidade de Pequim, lança nova tecnologia ZeroSearch que reduz o custo da capacidade de pesquisa de LLM em 88%

May 29, 2025

Modelo de busca do YAMTA AI ° lançado, alcançando uma resposta de 400 tokens por segundo

O YAMTA AI Search lançou um novo modelo chamado \"Rápido\", marcando um grande avanço em sua tecnologia de pesquisa de inteligência artificial. Graças a meios inovadores, a velocidade de resposta do YAMTA AI Search atingiu um impressionante 400 tokens por segundo, garantindo que a maioria das perguntas receba uma resposta em até 2 segundos. Esse progresso não apenas melhorou a experiência do usuário, mas também aumentou significativamente a eficiência na obtenção de informações. A implementação desse modelo \"Rápido\" foi possível graças à aplicação de várias tecnologias avançadas. A equipe do YAMTA AI realizou otimizações no GPU \...

May 27, 2025

200

Red Hat se une ao Google e NVIDIA para lançar projeto open source llm-d, solucionando os problemas de custo e latência na inferência em IA de grande escala

A líder global em soluções open source, Red Hat, anunciou recentemente o lançamento do revolucionário projeto open source llm-d, projetado para atender às urgentes necessidades da inferência em IA gerativa de grande escala. O projeto reúne gigantes do setor como CoreWeave, Google Cloud, IBM Research e NVIDIA como contribuidores iniciais, com a missão de alcançar objetivos de serviço de produção rigorosos através de tecnologias inovadoras para a inferência de modelos de linguagem. A era da inferência está chegando, trazendo desafios cada vez mais sérios. De acordo com as previsões mais recentes do Gartner, até 202

May 27, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral