Store

Yi-1.5 6B Chat (Free)

bysiliconcloud

Yi-1.5-6B-Chat est une variante de la série Yi-1.5, appartenant aux modèles de chat open source. Yi-1.5 est une version améliorée de Yi, pré-entraînée sur 500B de corpus de haute qualité et ajustée sur plus de 3M d'échantillons diversifiés. Comparé à Yi, Yi-1.5 montre de meilleures performances en codage, mathématiques, raisonnement et suivi des instructions, tout en maintenant d'excellentes capacités de compréhension du langage, de raisonnement de bon sens et de compréhension de lecture. Ce modèle propose des versions avec des longueurs de contexte de 4K, 16K et 32K, avec un total de pré-entraînement atteignant 3.6T de tokens.

Fournisseurs prenant en charge ce modèle

01-ai/Yi-1.5-6B-Chat

Longueur maximale du contexte

4K

Longueur de sortie maximale

--

Prix d'entrée

--

Prix de sortie

--

Suggestions similaires

DeepSeek R1

DeepSeek-R1 est un modèle d'inférence piloté par apprentissage par renforcement (RL), résolvant les problèmes de répétition et de lisibilité dans le modèle. Avant le RL, DeepSeek-R1 a introduit des données de démarrage à froid, optimisant encore les performances d'inférence. Il rivalise avec OpenAI-o1 dans les tâches de mathématiques, de code et de raisonnement, et améliore l'ensemble des performances grâce à des méthodes d'entraînement soigneusement conçues.

DeepSeek V3

DeepSeek-V3 est un modèle de langage Mixture-of-Experts (MoE) avec 6710 milliards de paramètres, utilisant une architecture d'attention multi-tête (MLA) et DeepSeekMoE, combinant une stratégie d'équilibrage de charge sans perte auxiliaire pour optimiser l'efficacité d'inférence et d'entraînement. Pré-entraîné sur 14,8 trillions de tokens de haute qualité, suivi d'un ajustement supervisé et d'un apprentissage par renforcement, DeepSeek-V3 surpasse d'autres modèles open source, se rapprochant des modèles fermés de pointe.

DeepSeek R1 Distill Llama 70B

DeepSeek-R1-Distill-Llama-70B est un modèle obtenu par distillation de Llama-3.3-70B-Instruct. Ce modèle fait partie de la série DeepSeek-R1, montrant d'excellentes performances dans plusieurs domaines, y compris les mathématiques, la programmation et le raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, montrant de puissantes capacités de raisonnement.

DeepSeek R1 Distill Qwen 32B

DeepSeek-R1-Distill-Qwen-32B est un modèle obtenu par distillation de Qwen2.5-32B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant d'excellentes performances dans plusieurs domaines, y compris les mathématiques, la programmation et le raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, atteignant 94,3 % de précision sur MATH-500, démontrant de puissantes capacités de raisonnement mathématique.

DeepSeek R1 Distill Qwen 14B

DeepSeek-R1-Distill-Qwen-14B est un modèle obtenu par distillation de Qwen2.5-14B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant d'excellentes capacités de raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, atteignant 93,9 % de précision sur MATH-500, 69,7 % de taux de réussite sur AIME 2024, et un score de 1481 sur CodeForces, montrant une forte puissance dans les domaines des mathématiques et de la programmation.

DeepSeek R1 Distill Llama 8B (Free)

DeepSeek-R1-Distill-Llama-8B est un modèle de distillation basé sur Llama-3.1-8B. Ce modèle a été affiné à l'aide d'échantillons générés par DeepSeek-R1, montrant d'excellentes capacités de raisonnement. Il a obtenu de bons résultats dans plusieurs tests de référence, atteignant 89,1 % de précision sur MATH-500, 50,4 % de taux de réussite sur AIME 2024, et un score de 1205 sur CodeForces, montrant de solides capacités en mathématiques et en programmation pour un modèle de 8B.

DeepSeek R1 Distill Qwen 7B (Free)

DeepSeek-R1-Distill-Qwen-7B est un modèle obtenu par distillation de Qwen2.5-Math-7B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant d'excellentes capacités de raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, atteignant 92,8 % de précision sur MATH-500, 55,5 % de taux de réussite sur AIME 2024, et un score de 1189 sur CodeForces, montrant une forte puissance dans les domaines des mathématiques et de la programmation pour un modèle de 7B.

DeepSeek-R1-Distill-Qwen-1.5B (Free)

DeepSeek-R1-Distill-Qwen-1.5B est un modèle obtenu par distillation de Qwen2.5-Math-1.5B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant de bonnes performances dans plusieurs tests de référence. En tant que modèle léger, il a atteint 83,9 % de précision sur MATH-500, 28,9 % de taux de réussite sur AIME 2024, et un score de 954 sur CodeForces, montrant des capacités de raisonnement dépassant sa taille de paramètres.