Skip to main content

编码检测器 检测文本文件字符编码(UTF-8、UTF-16、ASCII、Latin-1)。

编码检测器 illustration
🔄

编码检测器

检测文本文件字符编码(UTF-8、UTF-16、ASCII、Latin-1)。

1

上传文本文件

拖放或选择一个文本文件进行分析。

2

查看编码结果

查看检测到的编码、BOM状态和置信度等级。

3

预览内容

查看解码后的文本内容的预览。

Loading tool...

What Is 编码检测器?

编码检测器分析文本文件以确定其字符编码。它检查字节顺序标记(BOM)以进行明确的编码识别,然后使用启发式分析来处理没有 BOM 的文件。该工具可以检测 UTF-8、UTF-16(LE/BE)、UTF-32(LE/BE)、ASCII 和 ISO-8859-1/Windows-1252 编码。结果包括检测到的编码、置信度水平、BOM 详细信息、分析说明和解码内容预览。

Why Use 编码检测器?

  • 通过BOM和字节分析来检测编码。
  • 支持UTF-8、UTF-16、UTF-32、ASCII和Latin-1/Windows-1252等编码。
  • 显示置信度和检测方法的详细信息。
  • 包括解码内容预览以验证检测准确性。

Common Use Cases

字符问题

通过识别正确的文件编码来诊断文字乱码和字符显示问题。

数据导入

在导入文本数据之前确定文件编码,以确保正确处理字符。

遗留文件

识别可能使用非UTF-8编码的遗留文本文件的编码。

开发

验证源代码文件、CSV数据和配置文件的编码。

Technical Guide

检测器使用多阶段方法:

1. BOM 检测:检查前 4 个字节以查找已知的 BOM 序列(UTF-8:EF BB BF,UTF-16 LE:FF FE,UTF-16 BE:FE FF,UTF-32 LE:FF FE 00 00,UTF-32 BE:00 00 FE FF)。BOM 的存在提供了高置信度的检测。

2. UTF-16 启发式分析:分析空字节模式。UTF-16 文件具有频繁出现的空字节,它们位于偶数或奇数位置,相应于用 16 位编码的 ASCII 字符。

3. UTF-8 验证:验证多字节序列。有效的 UTF-8 具有特定的模式:110xxxxx 10xxxxxx 用于 2 个字节,1110xxxx 10xxxxxx 10xxxxxx 用于 3 个字节等。

4. ASCII 检测:如果所有字节都在 0x00-0x7F 范围内,则文件是纯 ASCII(它也是有效的 UTF-8)。

5. Latin-1 回退:如果存在范围为 0x80-0xFF 的字节,但它们不构成有效的 UTF-8 序列,则可能是 ISO-8859-1/Windows-1252。

仅分析文件的前 8KB 以实现高性能。

Tips & Best Practices

  • 1
    BOM检测提供了最高的置信度--具有BOM的文件被明确定义。
  • 2
    没有BOM的UTF-8通过验证多字节序列来检测。
  • 3
    ISO-8859-1和Windows-1252作为回退选项,当UTF-8验证失败时被检测到。
  • 4
    内容预览有助于验证检测结果是否正确--查看乱码字符。

Related Tools

Frequently Asked Questions

Q 检测的准确性如何?
基于BOM的检测是100%准确的。他uristic检测UTF-8非常可靠。Latin-1/Windows-1252检测是一个回退选项。
Q 什么是BOM?
字节顺序标记(Byte Order Mark)是一种特殊的字节序列,位于文件开始处,用来识别其编码。
Q 是否可以检测Shift-JIS或GB2312?
目前,该检测器专注于Unicode编码和Latin-1。东亚编码没有被特别检测到。
Q 分析文件的哪部分内容?
前8KB(8192字节)被分析,这足以可靠地检测编码。
Q 混合编码文件如何处理?
检测器假设每个文件只有一个编码。混合编码文件将显示主导编码。

About This Tool

编码检测器 is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.