Recentemente, a AIbase obteve informações mais recentes das plataformas de mídia social e descobriu um provedor de modelos HuggingFace especializado em ajuste fino em japonês chamado Shisa.AI. Seu modelo bilíngue mais recente, que combina japonês e inglês, tem gerado grande atenção na indústria. Este artigo fornecerá uma análise detalhada dos últimos resultados da Shisa.AI e os avanços revolucionários alcançados no campo da IA em japonês.

111.jpg

O Shisa V2405B: O modelo de código aberto mais forte do Japão nasceu

Ao que a AIbase tomou conhecimento, a Shisa.AI lançou recentemente o modelo Shisa V2405B baseado no Llama3.1. Esse modelo de código aberto é considerado o "maior modelo de linguagem treinado com mais sucesso na história do Japão". Além de se destacar nas tarefas em japonês, ele também mantém uma capacidade poderosa de processamento em inglês, demonstrando excelentes performances como um modelo bilíngue japonês-inglês.

Os dados de teste mostram que o Shisa V2405B supera o GPT-4 e o GPT-4Turbo em várias avaliações de benchmark em japonês e está à altura do mais recente GPT-4o e DeepSeek-V3 em tarefas de idioma japonês. Essa conquista marca o surgimento de laboratórios de IA japoneses globais na competição mundial de IA, abrindo novas possibilidades para aplicativos de IA em japonês.

Focado no ajuste fino em japonês, tecnologia de microajuste atualizada

A Shisa.AI é uma startup sediada em Tóquio, especializada no desenvolvimento e implantação de avançados modelos de linguagem e voz de código aberto para o mercado japonês. A AIbase descobriu que, em comparação com os modelos anteriores, a série Shisa V2 abandonou a pré-treinagem contínua cara e a extensão do tokenizador, concentrando-se no aprimoramento do fluxo de pós-treinamento, melhorando significativamente o desempenho do modelo por meio de métodos baseados em dados sintéticos.

Sua principal base de dados, ultra-orca-boros-en-ja-v1, após ser filtrada, regenerada e reamostrada, é considerada uma das maiores bases de dados bilíngues japonês-inglês atualmente disponíveis, adequada para melhorar a capacidade de praticamente qualquer modelo base em japonês. Essa base de dados está disponível gratuitamente sob a licença Apache2.0, oferecendo aos desenvolvedores globais recursos valiosos.

Família de modelos amplamente aplicável, cobrindo de 7B a 405B parâmetros

A série Shisa V2 abrange modelos com diferentes escalas de parâmetros, variando de 7B a 405B, atendendo às necessidades de dispositivos leves a computação de alto desempenho. A AIbase foi informada de que esses modelos se destacam em tarefas como gramática japonesa, interpretação de papéis, tradução etc., especialmente nos testes shisa-jp-ifeval (teste de avaliação de instrução em japonês), shisa-jp-rp-bench (benchmark de interpretação de papéis em japonês) e shisa-jp-tl-bench (benchmark de tradução entre japonês e inglês), onde todos superam seus respectivos modelos base.

É importante notar que o Shisa V2405B incorporou pequenas quantidades de dados em coreano e chinês tradicional durante o treinamento, fortalecendo ainda mais sua capacidade multilíngue e oferecendo mais possibilidades para aplicações multilíngues.

O espírito de código aberto impulsiona a inovação global da IA

O esforço da Shisa.AI não apenas melhorou o desempenho da IA em japonês, mas também impulsionou o desenvolvimento da comunidade global de IA por meio de código aberto. A AIbase observou que os logs de treinamento da série Shisa V2 estão publicamente disponíveis na plataforma Weights and Biases, utilizando um cluster H100 de 4 nós da AWS Sagemaker, combinado com tecnologias avançadas como Axolotl, DeepSpeed e Liger Kernel, garantindo um desenvolvimento eficiente do modelo.

Além disso, a Shisa.AI planeja tornar pública sua ferramenta de avaliação de benchmarks dedicada ao japonês, ajudando no estudo e avaliação de grandes modelos de linguagem em japonês, oferecendo mais suporte aos desenvolvedores globais.

Perspectivas futuras: A competitividade global da IA japonesa

O sucesso da Shisa.AI mostra que até mesmo pequenos laboratórios de IA podem ocupar um lugar na competição global de IA. O lançamento de seus modelos e conjuntos de dados de código aberto fornece um forte suporte para a popularização de aplicativos de IA em japonês. A AIbase acredita que, com a constante atualização de seus modelos e recursos pela Shisa.AI, a posição do Japão no campo global de IA será ainda mais consolidada.

Para desenvolvedores com demandas complexas em tarefas de japonês, a série Shisa V2 é claramente uma ferramenta poderosa digna de tentativa. A AIbase sugere acompanhar o site oficial da Shisa.AI e a página HuggingFace para obter mais detalhes técnicos e oportunidades de experiência com os modelos.

Através de sua série de modelos Shisa V2, a Shisa.AI demonstrou o poder inovador do Japão no campo da IA. Seja para pesquisa acadêmica ou aplicação comercial, esses modelos de código aberto pavimentam o caminho para o futuro desenvolvimento da IA em japonês.