Unitalk
Retour
DeepSeek

DeepSeek V3

bysiliconcloud
DeepSeek-V3 est un modèle de langage Mixture-of-Experts (MoE) avec 6710 milliards de paramètres, utilisant une architecture d'attention multi-tête (MLA) et DeepSeekMoE, combinant une stratégie d'équilibrage de charge sans perte auxiliaire pour optimiser l'efficacité d'inférence et d'entraînement. Pré-entraîné sur 14,8 trillions de tokens de haute qualité, suivi d'un ajustement supervisé et d'un apprentissage par renforcement, DeepSeek-V3 surpasse d'autres modèles open source, se rapprochant des modèles fermés de pointe.

Fournisseurs prenant en charge ce modèle

SiliconCloud
DeepSeekdeepseek-ai/DeepSeek-V3
Longueur maximale du contexte
64K
Longueur de sortie maximale
--
Prix d'entrée
$0.14
Prix de sortie
$0.28

Suggestions similaires

siliconcloud
DeepSeek

DeepSeek R1

DeepSeek-R1 est un modèle d'inférence piloté par apprentissage par renforcement (RL), résolvant les problèmes de répétition et de lisibilité dans le modèle. Avant le RL, DeepSeek-R1 a introduit des données de démarrage à froid, optimisant encore les performances d'inférence. Il rivalise avec OpenAI-o1 dans les tâches de mathématiques, de code et de raisonnement, et améliore l'ensemble des performances grâce à des méthodes d'entraînement soigneusement conçues.
64K
siliconcloud
Meta

DeepSeek R1 Distill Llama 70B

DeepSeek-R1-Distill-Llama-70B est un modèle obtenu par distillation de Llama-3.3-70B-Instruct. Ce modèle fait partie de la série DeepSeek-R1, montrant d'excellentes performances dans plusieurs domaines, y compris les mathématiques, la programmation et le raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, montrant de puissantes capacités de raisonnement.
32K
siliconcloud
Qwen

DeepSeek R1 Distill Qwen 32B

DeepSeek-R1-Distill-Qwen-32B est un modèle obtenu par distillation de Qwen2.5-32B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant d'excellentes performances dans plusieurs domaines, y compris les mathématiques, la programmation et le raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, atteignant 94,3 % de précision sur MATH-500, démontrant de puissantes capacités de raisonnement mathématique.
32K
siliconcloud
Qwen

DeepSeek R1 Distill Qwen 14B

DeepSeek-R1-Distill-Qwen-14B est un modèle obtenu par distillation de Qwen2.5-14B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant d'excellentes capacités de raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, atteignant 93,9 % de précision sur MATH-500, 69,7 % de taux de réussite sur AIME 2024, et un score de 1481 sur CodeForces, montrant une forte puissance dans les domaines des mathématiques et de la programmation.
32K
siliconcloud
Meta

DeepSeek R1 Distill Llama 8B (Free)

DeepSeek-R1-Distill-Llama-8B est un modèle de distillation basé sur Llama-3.1-8B. Ce modèle a été affiné à l'aide d'échantillons générés par DeepSeek-R1, montrant d'excellentes capacités de raisonnement. Il a obtenu de bons résultats dans plusieurs tests de référence, atteignant 89,1 % de précision sur MATH-500, 50,4 % de taux de réussite sur AIME 2024, et un score de 1205 sur CodeForces, montrant de solides capacités en mathématiques et en programmation pour un modèle de 8B.
32K
siliconcloud
Qwen

DeepSeek R1 Distill Qwen 7B (Free)

DeepSeek-R1-Distill-Qwen-7B est un modèle obtenu par distillation de Qwen2.5-Math-7B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant d'excellentes capacités de raisonnement. Il a obtenu d'excellents résultats dans plusieurs tests de référence, atteignant 92,8 % de précision sur MATH-500, 55,5 % de taux de réussite sur AIME 2024, et un score de 1189 sur CodeForces, montrant une forte puissance dans les domaines des mathématiques et de la programmation pour un modèle de 7B.
32K
siliconcloud
Qwen

DeepSeek-R1-Distill-Qwen-1.5B (Free)

DeepSeek-R1-Distill-Qwen-1.5B est un modèle obtenu par distillation de Qwen2.5-Math-1.5B. Ce modèle a été affiné à l'aide de 800 000 échantillons sélectionnés générés par DeepSeek-R1, montrant de bonnes performances dans plusieurs tests de référence. En tant que modèle léger, il a atteint 83,9 % de précision sur MATH-500, 28,9 % de taux de réussite sur AIME 2024, et un score de 954 sur CodeForces, montrant des capacités de raisonnement dépassant sa taille de paramètres.
32K
siliconcloud
DeepSeek

DeepSeek V2.5

DeepSeek V2.5 intègre les excellentes caractéristiques des versions précédentes, renforçant les capacités générales et de codage.
32K