Skip to main content

Détection de codage Détecter le codage de caractères des fichiers texte (UTF-8, UTF-16, ASCII, Latin-1).

Détection de codage illustration
🔄

Détection de codage

Détecter le codage de caractères des fichiers texte (UTF-8, UTF-16, ASCII, Latin-1).

1

Télécharger un fichier texte

Déposez ou sélectionnez un fichier texte à analyser.

2

Afficher le résultat de l'encodage

Voyez l'encodage détecté, le statut BOM et le niveau de confiance.

3

Aperçu du contenu

Visionnez un aperçu du contenu texte décodé.

Loading tool...

What Is Détection de codage?

L'outil de détection d'encodage analyse les fichiers texte pour déterminer leur encodage de caractères. Il vérifie la présence de marques d'ordre des octets (BOM) pour une identification d'encodage définitive, puis utilise une analyse heuristique pour les fichiers sans BOM. L'outil détecte les encodages UTF-8, UTF-16 (LE/BE), UTF-32 (LE/BE), ASCII et ISO-8859-1/Windows-1252. Les résultats incluent l'encodage détecté, le niveau de confiance, les détails du BOM, l'explication de l'analyse et un aperçu du contenu décodé.

Why Use Détection de codage?

  • Detecte l'encodage via BOM et analyse heuristique des octets.
  • Prend en charge UTF-8, UTF-16, UTF-32, ASCII et Latin-1/Windows-1252.
  • Affiche le niveau de confiance et les détails de la méthode de détection.
  • Inclut un aperçu du contenu décodé pour vérifier l'exactitude de la détection.

Common Use Cases

Problèmes de caractères

Diagnostiquez les problèmes d'affichage des caractères en identifiant l'encodage du fichier correct.

Importation de données

Déterminez l'encodage du fichier avant d'importer des données texte pour assurer une gestion correcte des caractères.

Fichiers hérités

Identifiez l'encodage de fichiers texte hérités qui peuvent utiliser des encodages non UTF-8.

Développement

Vérifiez l'encodage des fichiers de code source, des données CSV et des fichiers de configuration.

Technical Guide

Le détecteur utilise une approche multétapes :

1. Détection du BOM : Vérifie les 4 premiers octets pour des séquences de BOM connues (UTF-8 : EF BB BF, UTF-16 LE : FF FE, UTF-16 BE : FE FF, UTF-32 LE : FF FE 00 00, UTF-32 BE : 00 00 FE FF). La présence d'un BOM permet une détection à haute confiance.

2. Heuristique UTF-16 : Analyse les modèles de bytes nuls. Les fichiers UTF-16 ont des bytes nuls fréquents dans des positions paires ou impaires correspondant aux caractères ASCII encodés en 16 bits.

3. Validation UTF-8 : Valide les séquences multi-octets. Un UTF-8 valide a des modèles spécifiques : 110xxxxx 10xxxxxx pour les séquences de 2 octets, 1110xxxx 10xxxxxx 10xxxxxx pour les séquences de 3 octets, etc.

4. Détection ASCII : Si tous les octets sont dans la plage 0x00-0x7F, le fichier est pur ASCII (ce qui est également un UTF-8 valide).

5. Recours à Latin-1 : Si des octets existent dans la plage 0x80-0xFF mais ne forment pas de séquences UTF-8 valides, ISO-8859-1/Windows-1252 est probable.

Seuls les 8 premiers ko du fichier sont analysés pour des raisons de performances.

Tips & Best Practices

  • 1
    La détection BOM offre la confiance la plus élevée - les fichiers avec BOM sont définitivement identifiés.
  • 2
    UTF-8 sans BOM est détecté en validant les séquences d'octets multiples.
  • 3
    ISO-8859-1 et Windows-1252 sont détectés comme valeur par défaut lorsque la validation UTF-8 échoue.
  • 4
    L'aperçu du contenu aide à vérifier que la détection est correcte - recherchez des caractères illisibles.

Related Tools

Frequently Asked Questions

Q Quelle est l'exactitude de la détection ?
La détection basée sur BOM est 100 % exacte. La détection heuristique pour UTF-8 est très fiable. La détection Latin-1/Windows-1252 est une valeur par défaut.
Q Qu'est-ce qu'un BOM ?
Un marqueur d'ordre des octets est une séquence d'octets spéciale au début d'un fichier qui identifie son encodage.
Q Pouvez-vous détecter Shift-JIS ou GB2312 ?
Actuellement, le détecteur se concentre sur les encodages Unicode et Latin-1. Les encodages d'Asie de l'Est ne sont pas spécifiquement détectés.
Q Quelle partie du fichier est analysée ?
Les 8 premiers ko (8192 octets) sont analysés, ce qui suffit pour une détection d'encodage fiable.
Q Et les fichiers avec des encodages mélangés ?
Le détecteur suppose un seul encodage par fichier. Les fichiers à encodage mixte afficheront l'encodage dominant.

About This Tool

Détection de codage is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.