Skip to main content

Detector de Codificação Detecta a codificação de caracteres do arquivo de texto (UTF-8, UTF-16, ASCII, Latin-1).

Detector de Codificação illustration
🔄

Detector de Codificação

Detecta a codificação de caracteres do arquivo de texto (UTF-8, UTF-16, ASCII, Latin-1).

1

Fazer upload do arquivo de texto

Solte ou selecione um arquivo de texto para analisar.

2

Ver resultado da codificação

Veja a codificação detectada, o status BOM e o nível de confiança.

3

Visualizar conteúdo

Veja uma pré-visualização do conteúdo de texto decodificado.

Loading tool...

What Is Detector de Codificação?

O Detector de Codificação analisa arquivos de texto para determinar sua codificação de caracteres. Ele verifica as Marcas de Ordem de Bytes (BOM) para identificação definitiva da codificação, e então usa análise heurística para arquivos sem BOM. A ferramenta detecta as codificações UTF-8, UTF-16 (LE/BE), UTF-32 (LE/BE), ASCII e ISO-8859-1/Windows-1252. Os resultados incluem a codificação detectada, nível de confiança, detalhes do BOM, explicação da análise e uma prévia do conteúdo decodificado.

Why Use Detector de Codificação?

  • Detecta codificação via BOM e análise heurística de bytes.
  • Suporta UTF-8, UTF-16, UTF-32, ASCII e Latin-1/Windows-1252.
  • Mostra nível de confiança e detalhes do método de detecção.
  • Inclui pré-visualização do conteúdo decodificado para verificar a precisão da detecção.

Common Use Cases

Problemas de Caracteres

Diagnostique problemas de mojibake e exibição de caracteres identificando a codificação correta do arquivo.

Importação de Dados

Determine a codificação do arquivo antes de importar dados de texto para garantir o tratamento correto de caracteres.

Arquivos Legados

Identifique a codificação de arquivos de texto legados que podem usar codificações não-UTF-8.

Desenvolvimento

Verifique a codificação de arquivos de código-fonte, dados CSV e arquivos de configuração.

Technical Guide

O detector usa uma abordagem em múltiplas etapas:

1. Detecção de BOM: Verifica os primeiros 4 bytes para sequências de BOM conhecidas (UTF-8: EF BB BF, UTF-16 LE: FF FE, UTF-16 BE: FE FF, UTF-32 LE: FF FE 00 00, UTF-32 BE: 00 00 FE FF). A presença do BOM fornece detecção de alta confiança.

2. Heurística UTF-16: Analisa padrões de bytes nulos. Arquivos UTF-16 têm bytes nulos frequentes em posições pares ou ímpares correspondentes a caracteres ASCII codificados em 16 bits.

3. Validação UTF-8: Valida sequências de múltiplos bytes. O UTF-8 válido tem padrões específicos: 110xxxxx 10xxxxxx para 2 bytes, 1110xxxx 10xxxxxx 10xxxxxx para 3 bytes, etc.

4. Detecção ASCII: Se todos os bytes estiverem na faixa 0x00-0x7F, o arquivo é puro ASCII (que também é UTF-8 válido).

5. Fallback Latin-1: Se existirem bytes na faixa 0x80-0xFF que não formam sequências UTF-8 válidas, ISO-8859-1/Windows-1252 é provável.

Apenas os primeiros 8KB do arquivo são analisados para desempenho.

Tips & Best Practices

  • 1
    A detecção BOM fornece a maior confiança - arquivos com BOM são definitivamente identificados.
  • 2
    UTF-8 sem BOM é detectado validando sequências multi-byte.
  • 3
    ISO-8859-1 e Windows-1252 são detectados como fallback quando a validação UTF-8 falha.
  • 4
    A pré-visualização do conteúdo ajuda a verificar se a detecção está correta - procure por caracteres ilegíveis.

Related Tools

Frequently Asked Questions

Q Quão precisa é a detecção?
A detecção baseada em BOM é 100% precisa. A detecção heurística para UTF-8 é muito confiável. A detecção Latin-1/Windows-1252 é um fallback.
Q O que é um BOM?
Um Marcador de Ordem de Byte é uma sequência especial de bytes no início de um arquivo que identifica sua codificação.
Q Ele pode detectar Shift-JIS ou GB2312?
Atualmente, o detector se concentra em codificações Unicode e Latin-1. Codificações asiáticas orientais não são detectadas especificamente.
Q Quanto do arquivo é analisado?
Os primeiros 8KB (8192 bytes) são analisados, o que é suficiente para uma detecção confiável de codificação.
Q E sobre arquivos com codificações mistas?
O detector assume uma única codificação por arquivo. Arquivos com codificações mistas mostrarão a codificação dominante.

About This Tool

Detector de Codificação is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.