> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-sdk-testing-latest.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Modèles disponibles

> Parcourez les modèles de fondation disponibles dans Serverless Inference


Serverless Inference donne accès à plusieurs modèles de fondation open source. Chaque modèle a ses propres points forts et cas d'utilisation.

<div id="generally-available-models">
  ## Modèles généralement disponibles
</div>

Les modèles suivants sont [généralement disponibles](/fr/inference/lifecycle#model-lifecycle-stages) :

| Modèle                        | ID du modèle (pour l’utilisation de l’API)     | Type          | Fenêtre de contexte | Paramètres                 | Description                                                                                                                                                                                 |
| ----------------------------- | ---------------------------------------------- | ------------- | ------------------- | -------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| DeepSeek V4-Flash             | `deepseek-ai/DeepSeek-V4-Flash`                | Texte         | 1049k               | 13B-284B (Active-Total)    | DeepSeek V4-Flash est un modèle MoE doté d’une fenêtre de contexte de 1M, idéal pour le codage, le raisonnement et les flux de travail agentiques.                                          |
| DeepSeek V4-Pro               | `deepseek-ai/DeepSeek-V4-Pro`                  | Texte         | 1049k               | 49B-1.6T (actifs-total)    | DeepSeek V4-Pro est un modèle MoE de 1,6T de paramètres avec 49B de paramètres actifs, qui excelle dans le raisonnement avancé, le codage et les flux de travail agentiques complexes.      |
| DeepSeek V3.1                 | `deepseek-ai/DeepSeek-V3.1`                    | Texte         | 161k                | 37B-671B (Active-Total)    | Un grand modèle hybride qui prend en charge les modes avec et sans raisonnement via des templates de prompt.                                                                                |
| Google Gemma 4 31B            | `google/gemma-4-31B-it`                        | Texte, vision | 262k                | 31B (total)                | Gemma 4 31B Dense est conçu pour le raisonnement avancé, les flux de travail agentiques et les contextes plus longs, et il a été entraîné nativement sur plus de 140 langues.               |
| IBM Granite 4.1 8B            | `ibm-granite/granite-4.1-8b`                   | Texte         | 131k                | 8B (au total)              | Granite 4.1 8B est un modèle instruct à contexte long offrant des capacités améliorées d’appel à des outils, de suivi des instructions et de conversation.                                  |
| JetBrains Mellum2 12B A2.5B   | `JetBrains/Mellum2-12B-A2.5B-Instruct`         | Texte         | 131k                | 2.5B-12B (actifs-total)    | Mellum2-12B-A2.5B-Instruct est un modèle MoE rapide doté d’une fenêtre de contexte de 131K, conçu pour le codage, l’utilisation d’outils et les flux de travail d’IA à faible latence.      |
| Meta Llama 3.3 70B            | `meta-llama/Llama-3.3-70B-Instruct`            | Texte         | 128k                | 70B (total)                | Modèle multilingue qui excelle dans les tâches conversationnelles, le suivi précis des instructions et le codage.                                                                           |
| Meta Llama 3.1 70B            | `meta-llama/Llama-3.1-70B-Instruct`            | Texte         | 128k                | 70B (total)                | Modèle conversationnel performant optimisé pour des interactions réactives avec des chatbots multilingues.                                                                                  |
| Meta Llama 3.1 8B             | `meta-llama/Llama-3.1-8B-Instruct`             | Texte         | 128k                | 8B (au total)              | Modèle conversationnel performant, optimisé pour des interactions réactives avec des chatbots multilingues.                                                                                 |
| Microsoft Phi 4 Mini 3.8B     | `microsoft/Phi-4-mini-instruct`                | Texte         | 128k                | 3.8B (Total)               | Modèle compact et efficace, idéal pour fournir des réponses rapides dans des environnements aux ressources limitées.                                                                        |
| MiniMax M2.5                  | `MiniMaxAI/MiniMax-M2.5`                       | Texte         | 197k                | 10B-230B (actifs-total)    | Modèle MoE à l’architecture très clairsemée, conçu pour offrir un débit élevé et une faible latence, avec de solides capacités de programmation.                                            |
| Moonshot AI Kimi K2.6         | `moonshotai/Kimi-K2.6`                         | Texte, vision | 262k                | 32B-1T (actifs-total)      | Kimi K2.6 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.                             |
| Moonshot AI Kimi K2.5         | `moonshotai/Kimi-K2.5`                         | Texte, vision | 262k                | 32B-1T (actifs-total)      | Kimi K2.5 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.                             |
| NVIDIA Nemotron 3 Super 120B  | `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8` | Texte         | 262k                | 12B-120B (actifs/total)    | Nemotron 3 est un modèle LatentMoE conçu pour offrir de fortes capacités en matière d’agents, de raisonnement et de conversation.                                                           |
| NVIDIA Nemotron 3 Ultra       | `nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B`     | Texte         | 262k                | 55B-550B (actifs/total)    | Nemotron 3 Ultra est un puissant modèle MoE conçu pour des agents de longue durée d’exécution dans les domaines du codage, de la recherche approfondie et de l’automatisation d’entreprise. |
| OpenAI GPT OSS 120B           | `openai/gpt-oss-120b`                          | Texte         | 131k                | 5.1B-117B (actifs-total)   | Modèle Mixture-of-Experts efficace conçu pour les cas d’usage nécessitant un raisonnement poussé, des capacités agentiques et des usages généralistes.                                      |
| OpenAI GPT OSS 20B            | `openai/gpt-oss-20b`                           | Texte         | 131k                | 3.6B-20B (actifs-total)    | Modèle Mixture-of-Experts à faible latence, entraîné sur le format de réponse Harmony d'OpenAI et doté de capacités de raisonnement.                                                        |
| OpenPipe Qwen3 14B Instruct   | `OpenPipe/Qwen3-14B-Instruct`                  | Texte         | 32,8k               | 14,8 B (total)             | Un modèle multilingue dense et performant, entraîné pour le suivi d’instructions, optimisé par OpenPipe pour créer des agents grâce au fine-tuning.                                         |
| Qwen3.6 35B A3B               | `Qwen/Qwen3.6-35B-A3B`                         | Texte, vision | 262k                | 3B-35B (actifs-total)      | Qwen3.6-35B-A3B est un modèle MoE multimodal doté d’une fenêtre de contexte de 262K, optimisé pour les flux de travail de programmation agentique.                                          |
| Qwen3.6 27B                   | `Qwen/Qwen3.6-27B`                             | Texte, vision | 262k                | 27B (total)                | Qwen3.6-27B est un modèle multimodal dense de 27B avec une fenêtre de contexte de 262K, conçu pour la programmation agentique haut de gamme.                                                |
| Qwen3.5 35B A3B               | `Qwen/Qwen3.5-35B-A3B`                         | Texte, vision | 262k                | 3B-35B (actifs-total)      | Qwen3.5-35B-A3B est un modèle MoE multimodal à poids ouverts, conçu pour une inférence efficace et à haut débit pour le chat, le raisonnement et les tâches agentiques.                     |
| Qwen3 235B A22B Thinking-2507 | `Qwen/Qwen3-235B-A22B-Thinking-2507`           | Texte         | 262k                | 22B-235B (actifs au total) | Modèle Mixture-of-Experts haute performance optimisé pour le raisonnement structuré, les mathématiques et la génération longue.                                                             |
| Qwen3 235B A22B-2507          | `Qwen/Qwen3-235B-A22B-Instruct-2507`           | Texte         | 262k                | 22B-235B (actifs-total)    | Modèle multilingue efficace de type Mixture-of-Experts, affiné sur des instructions et optimisé pour le raisonnement logique.                                                               |
| Qwen3 30B A3B                 | `Qwen/Qwen3-30B-A3B-Instruct-2507`             | Texte         | 262k                | 3.3B-30.5B (actifs-total)  | Qwen3-30B-A3B-Instruct-2507 est un modèle MoE de 30,5B ajusté par instruction, avec des capacités renforcées en raisonnement, en programmation et en compréhension de contextes longs.      |
| Qwen3 Coder 480B A35B         | `Qwen/Qwen3-Coder-480B-A35B-Instruct`          | Texte         | 262k                | 35B-480B (actifs-total)    | Modèle à mélange d’experts optimisé pour les tâches de programmation agentique, comme l’appel de fonctions, l’utilisation d’outils et le raisonnement en contexte long.                     |
| Z.AI GLM 5.1                  | `zai-org/GLM-5.1`                              | Texte         | 203k                | 40B-744B (Actifs-Total)    | Puissant modèle MoE conçu pour l’ingénierie agentique à long horizon et le raisonnement avancé.                                                                                             |

<div id="experimental-models">
  ## Modèles expérimentaux
</div>

Les modèles suivants sont [expérimentaux](/fr/inference/lifecycle#model-lifecycle-stages) :

| Modèle      | ID du modèle (pour l’utilisation avec l’API) | Type          | Fenêtre de contexte | Paramètres  | Description                                                                                                                          |
| ----------- | -------------------------------------------- | ------------- | ------------------- | ----------- | ------------------------------------------------------------------------------------------------------------------------------------ |
| Qwen3.5 27B | `Qwen/Qwen3.5-27B`                           | Texte, vision | 262k                | 27B (Total) | Qwen3.5-27B est un modèle dense de la famille Qwen3.5, conçu pour offrir de hautes performances sur un large éventail de benchmarks. |

<div id="deprecated-models">
  ## Modèles obsolètes
</div>

Les modèles suivants sont [obsolètes](/fr/inference/lifecycle#model-lifecycle-stages) :

*Aucun pour le moment*

<div id="use-model-ids">
  ## Utiliser les ID de modèle
</div>

Pour spécifier un modèle lors d’un appel à l’API, utilisez son `ID du modèle` figurant dans les tableaux précédents. Par exemple :

```python theme={null}
response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[...]
)
```

<div id="next-steps">
  ## Étapes suivantes
</div>

Après avoir choisi un modèle, poursuivez avec l’une des ressources suivantes :

* Consultez les [limites d’utilisation et la tarification](/fr/inference/usage-limits/) pour chaque modèle.
* Consultez la [référence de l’API](/fr/inference/api-reference/) pour savoir comment utiliser ces modèles.
* Essayez les modèles dans le [W\&B Playground](/fr/inference/ui-guide/).