Tutoriel de l'API Claude pour les débutants : Guide complet de démarrage

2026-06-15 · FreeClaude

TL;DR : L'API Claude vous permet d'intégrer les modèles d'IA d'Anthropic dans vos propres applications. Ce guide vous fait passer de zéro au code fonctionnel — couvrant l'authentification, votre premier appel API, les réponses en diffusion continu, la gestion des conversations, l'utilisation d'outils et les bonnes pratiques de production — avec des exemples Python et JavaScript prêts à copier-coller tout au long du guide.

Qu'est-ce que l'API Claude ?

L'API Claude est l'interface programmatique d'Anthropic pour intégrer directement les modèles de langage de Claude dans vos applications, scripts, workflows et produits. Au lieu d'utiliser l'interface web Claude.ai, l'API vous donne un contrôle programmatique complet — vous envoyez du texte, vous obtenez du texte (ou des données structurées) en retour, et vous décidez exactement comment votre application l'utilise.

L'API alimente tout, des simples chatbots aux systèmes multi-agents sophistiqués. Les développeurs l'utilisent pour créer l'automatisation du service client, les pipelines d'analyse de documents, les outils de génération de code, les systèmes de modération de contenu, les workflows d'extraction de données, et bien plus encore. Toute tâche que Claude peut accomplir dans un navigateur, il peut la faire via l'API — intégrée dans votre propre produit.

En 2026, l'API fournit l'accès à trois principales familles de modèles : Claude Opus 4.7 (plus capable, contexte de 1M de tokens, idéal pour le raisonnement complexe), Claude Sonnet 4.6 (performance équilibrée et vitesse, meilleur pour la plupart des charges de travail de production) et Claude Haiku 4.5 (plus rapide et moins cher, parfait pour les tâches sensibles à la latence en grand volume). Chaque modèle est accessible via un seul endpoint API unifié avec un format de requête/réponse cohérent.

La tarification est basée sur les tokens — environ 750 mots équivalent à environ 1 000 tokens. Les tokens d'entrée (ce que vous envoyez) et les tokens de sortie (ce que Claude génère) sont tarifés séparément, l'entrée étant moins chère. Un appel API typique pourrait utiliser 500 tokens d'entrée et générer 300 tokens de sortie, coûtant des fractions de cent. L'API Claude est considérablement plus rentable pour les charges de travail de production que la tarification par siège au scale.

Si vous souhaitez expérimenter les capacités de Claude avant de vous engager dans les coûts de l'API, FreeClaude fournit un accès gratuit à Claude Max x20 — la même intelligence de modèle sous-jacente — par le biais d'un programme de parrainage ne nécessitant aucune carte de crédit.

Configuration de votre environnement

Avant d'écrire du code, vous avez besoin de trois choses : un compte Anthropic, une clé API et le SDK installé dans votre projet.

Étape 1 : Créer un compte Anthropic

Visitez console.anthropic.com et inscrivez-vous. Les nouveaux comptes reçoivent un petit crédit pour les tests initiaux — généralement suffisant pour des centaines d'appels de test. Une fois les crédits consommés, ajoutez une méthode de paiement. La tarification de l'API est pay-as-you-go sans engagement minimum.

Étape 2 : Générer une clé API

Dans la Console Anthropic, accédez à Paramètres → Clés API → Créer une clé. Donnez-lui un nom descriptif (par exemple, « dev-local »). Copiez la clé immédiatement — elle ne s'affiche qu'une seule fois. Stockez-la dans un gestionnaire de mots de passe ou un gestionnaire de secrets comme AWS Secrets Manager. Ne codez jamais en dur une clé API dans le code source.

Étape 3 : Installer le SDK

Anthropic fournit des SDK officiels pour Python et TypeScript/JavaScript. Les deux sont activement maintenus et synchronisés avec les nouvelles versions de modèles.

# Python
pip install anthropic

# Node.js / TypeScript
npm install @anthropic-ai/sdk

Étape 4 : Définir votre clé API comme variable d'environnement

Le SDK lit automatiquement la variable d'environnement ANTHROPIC_API_KEY :

export ANTHROPIC_API_KEY="sk-ant-..."

Pour les projets utilisant un fichier .env, installez python-dotenv (Python) ou dotenv (Node) et chargez-le au démarrage. Ajoutez .env à .gitignore immédiatement — ne commitez jamais les credentials au contrôle de version.

Faire votre premier appel API

Avec votre environnement configuré, voici le code minimal pour faire un appel API fonctionnel — le « Hello World » du développement de l'API Claude.

Python

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Explain what an API is in two sentences."}
    ]
)

print(message.content[0].text)

JavaScript / Node.js

import Anthropic from '@anthropic-ai/sdk';

const client = new Anthropic();

const message = await client.messages.create({
  model: 'claude-sonnet-4-6',
  max_tokens: 1024,
  messages: [
    { role: 'user', content: 'Explain what an API is in two sentences.' }
  ]
});

console.log(message.content[0].text);

Décomposer les paramètres clés : model spécifie quel modèle Claude utiliser. max_tokens limite la longueur des réponses — trop bas tronque les réponses, trop haut ne gaspille rien sauf si Claude utilise ces tokens. messages est un tableau de tours de conversation, chacun avec un role (user ou assistant) et du content.

L'objet réponse contient un tableau de blocs de contenu. Pour les réponses texte standard, le texte se trouve à message.content[0].text. La réponse inclut également des données d'utilisation : message.usage.input_tokens et message.usage.output_tokens — utile pour surveiller les coûts dès le départ.

Gérer les conversations multi-tours

L'API Claude est sans état — elle ne stocke pas l'historique des conversations sur le serveur. Votre application doit suivre la conversation et envoyer l'historique complet à chaque requête.

import anthropic

client = anthropic.Anthropic()
conversation = []

def chat(user_message):
    conversation.append({"role": "user", "content": user_message})
    response = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=1024,
        messages=conversation
    )
    assistant_message = response.content[0].text
    conversation.append({"role": "assistant", "content": assistant_message})
    return assistant_message

print(chat("My name is Alex and I'm learning Python."))
print(chat("What's a good first project for someone like me?"))
print(chat("How long will that take to build?"))

La liste conversation grandit à chaque tour, et la liste complète est envoyée à chaque requête. Claude reçoit le contexte complet et peut faire référence à tout ce qui a été dit auparavant. Pour les très longues sessions, implémentez la résumé : demandez périodiquement à Claude de résumer la conversation, puis remplacez l'historique par ce résumé pour rester dans les limites de la fenêtre de contexte.

Diffuser les réponses en temps réel

Par défaut, l'API attend que la réponse entière soit générée avant de l'envoyer. La diffusion en continu résout ce problème — vous recevez les tokens au fur et à mesure de leur génération, permettant l'effet machine à écrire que vous voyez sur Claude.ai et améliorant considérablement les performances perçues.

Diffusion en continu Python

import anthropic

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Write a detailed explanation of machine learning."}]
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
print()

Diffusion en continu JavaScript

const stream = await client.messages.stream({
  model: 'claude-sonnet-4-6',
  max_tokens: 1024,
  messages: [{ role: 'user', content: 'Write a detailed explanation of machine learning.' }]
});

for await (const chunk of stream.textStream) {
  process.stdout.write(chunk);
}
console.log();

Une réponse de 500 mots prend environ 5–8 secondes à générer. Sans diffusion en continu, les utilisateurs voient un écran blanc tout le temps. Avec la diffusion en continu, ils commencent à lire dans la première seconde. Le temps de génération total est identique, mais l'expérience utilisateur est transformée. La diffusion en continu est essentielle pour toute application orientée utilisateur.

Utilisation d'outils et appel de fonctions

L'utilisation d'outils permet à Claude de demander des données à des systèmes externes en cours de conversation — bases de données, API, systèmes de fichiers — lui permettant de travailler avec des informations en temps réel et de prendre des mesures dans le monde.

import anthropic, json

client = anthropic.Anthropic()

tools = [{
    "name": "get_weather",
    "description": "Get current weather for a city",
    "input_schema": {
        "type": "object",
        "properties": {
            "city": {"type": "string", "description": "City name"},
            "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
        },
        "required": ["city"]
    }
}]

def get_weather(city, unit="celsius"):
    return {"temperature": 22, "condition": "sunny", "city": city}

messages = [{"role": "user", "content": "What's the weather in Paris?"}]
response = client.messages.create(
    model="claude-sonnet-4-6", max_tokens=1024, tools=tools, messages=messages
)

if response.stop_reason == "tool_use":
    tool_use = next(b for b in response.content if b.type == "tool_use")
    result = get_weather(**tool_use.input)
    messages.append({"role": "assistant", "content": response.content})
    messages.append({"role": "user", "content": [
        {"type": "tool_result", "tool_use_id": tool_use.id, "content": json.dumps(result)}
    ]})
    final = client.messages.create(
        model="claude-sonnet-4-6", max_tokens=1024, tools=tools, messages=messages
    )
    print(final.content[0].text)

L'utilisation d'outils permet d'interroger des bases de données, d'appeler des API externes, de lire et d'écrire des fichiers, d'exécuter du code et d'intégrer avec des systèmes métier. Claude décide quand appeler un outil en fonction de la demande de l'utilisateur et de la description de l'outil — le texte descriptif est crucial, car Claude le lit pour déterminer la pertinence.

Choisir le bon modèle Claude

La sélection du modèle a un impact significatif à la fois sur le coût et la qualité. Chaque modèle a un profil de performance distinct adapté à des cas d'usage spécifiques.

Claude Haiku 4.5 — Plus rapide et moins cher. Meilleur pour : classification, Q&R simple, modération, extraction de données à partir de texte structuré, traitement par lot en grand volume. Temps de réponse inférieur à 1 seconde pour les courtes sorties.

Claude Sonnet 4.6 — Meilleur équilibre entre capacité et coût. Gère : écriture complexe, génération de code, analyse détaillée, raisonnement multi-étapes, chat orienté client. Le défaut idéal pour la plupart des applications de production — qualité proche d'Opus à un coût considérablement inférieur.

Claude Opus 4.7 — Plus capable, contexte de 1M de tokens. À utiliser pour : synthèse de recherche sur de très longs documents, architecture de code complexe, écriture enjeux élevés et tâches où la qualité de sortie importe plus que le coût ou la latence. Coûte environ 15x plus cher que Haiku — réservez-le aux tâches qui en ont vraiment besoin.

Une stratégie de production pratique : défaut à Sonnet pour toutes les requêtes, implémentez une couche de routage qui bascule vers Opus pour les requêtes au-dessus d'un seuil de complexité (longueur du prompt, type de tâche, demande utilisateur explicite). Cela optimise le coût tout en assurant la qualité où elle compte le plus.

Bonnes pratiques de production

Gérer les erreurs avec backoff exponentiel

import anthropic, time

client = anthropic.Anthropic()

def call_with_retry(messages, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.messages.create(
                model="claude-sonnet-4-6",
                max_tokens=1024,
                messages=messages
            )
        except anthropic.RateLimitError:
            if attempt < max_retries - 1:
                time.sleep(2 ** attempt)
            else:
                raise
        except anthropic.APIError as e:
            if e.status_code >= 500:
                time.sleep(1)
            else:
                raise

Utiliser les prompts système via le paramètre system

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system="You are a concise technical assistant. Respond in plain text, no markdown unless explicitly asked. Keep answers under 200 words.",
    messages=[{"role": "user", "content": user_input}]
)

Suivre l'utilisation des tokens dès le départ

Enregistrez usage.input_tokens et usage.output_tokens de chaque réponse. Cela vous permet d'identifier les requêtes coûteuses, de détecter les tentatives d'injection de prompt et de prévoir avec précision les dépenses mensuelles de l'API. Le suivi des tokens est beaucoup plus facile à implémenter dès le départ que de le rétrofiter plus tard.

Activer la mise en cache des prompts pour le contexte répété

Pour les charges de travail où un grand prompt système ou document contextuel est réutilisé sur de nombreuses requêtes, activez la mise en cache des prompts en ajoutant "cache_control": {"type": "ephemeral"} aux blocs de contenu pertinents. Les tokens en cache coûtent considérablement moins cher que de retraiter le même contenu à plusieurs reprises — un économiseur de coûts majeur pour les applications avec de longs prompts système.

Implémenter la gestion des limites de débit au niveau de l'application

Même avec la logique de retry, les applications à haut débit soutenu ont besoin de gestion des limites de débit basée sur les files d'attente. Implémentez un limiteur de débit de bucket de token ou fenêtre glissante dans votre couche application afin de ne jamais atteindre les limites de débit de l'API en premier lieu, plutôt que de compter entièrement sur la logique de retry après rejet.

Questions fréquemment posées

Ai-je besoin d'un plan payant pour utiliser l'API Claude ?

Les nouveaux comptes Anthropic reçoivent des crédits gratuits pour les tests initiaux. Au-delà de ces crédits, l'API est pay-as-you-go — ajoutez une méthode de paiement et payez seulement ce que vous utilisez. Il n'y a pas d'abonnement mensuel obligatoire pour l'accès à l'API.

Quelle est la différence entre l'API Claude et Claude.ai ?

Claude.ai est l'interface web et mobile pour les consommateurs. L'API est pour les développeurs créant leurs propres applications. Elles ont une facturation distincte. Si vous voulez Claude sans écrire de code, FreeClaude fournit un accès gratuit à Claude Max x20 via des parrainage.

Comment gérer les documents qui dépassent les limites de contexte ?

Pour les documents dans la fenêtre de contexte (jusqu'à 1M de tokens avec Opus 4.7), incluez le texte complet dans le prompt. Pour les plus grandes collections, utilisez la génération augmentée par récupération (RAG) : fragmentez les documents, intégrez-les avec une base de données vectorielle et récupérez uniquement les sections pertinentes pour chaque requête.