编码检测器 检测文本文件字符编码(UTF-8、UTF-16、ASCII、Latin-1)。
编码检测器
检测文本文件字符编码(UTF-8、UTF-16、ASCII、Latin-1)。
上传文本文件
拖放或选择一个文本文件进行分析。
查看编码结果
查看检测到的编码、BOM状态和置信度等级。
预览内容
查看解码后的文本内容的预览。
What Is 编码检测器?
编码检测器分析文本文件以确定其字符编码。它检查字节顺序标记(BOM)以进行明确的编码识别,然后使用启发式分析来处理没有 BOM 的文件。该工具可以检测 UTF-8、UTF-16(LE/BE)、UTF-32(LE/BE)、ASCII 和 ISO-8859-1/Windows-1252 编码。结果包括检测到的编码、置信度水平、BOM 详细信息、分析说明和解码内容预览。
Why Use 编码检测器?
-
通过BOM和字节分析来检测编码。
-
支持UTF-8、UTF-16、UTF-32、ASCII和Latin-1/Windows-1252等编码。
-
显示置信度和检测方法的详细信息。
-
包括解码内容预览以验证检测准确性。
Common Use Cases
字符问题
通过识别正确的文件编码来诊断文字乱码和字符显示问题。
数据导入
在导入文本数据之前确定文件编码,以确保正确处理字符。
遗留文件
识别可能使用非UTF-8编码的遗留文本文件的编码。
开发
验证源代码文件、CSV数据和配置文件的编码。
Technical Guide
检测器使用多阶段方法:
1. BOM 检测:检查前 4 个字节以查找已知的 BOM 序列(UTF-8:EF BB BF,UTF-16 LE:FF FE,UTF-16 BE:FE FF,UTF-32 LE:FF FE 00 00,UTF-32 BE:00 00 FE FF)。BOM 的存在提供了高置信度的检测。
2. UTF-16 启发式分析:分析空字节模式。UTF-16 文件具有频繁出现的空字节,它们位于偶数或奇数位置,相应于用 16 位编码的 ASCII 字符。
3. UTF-8 验证:验证多字节序列。有效的 UTF-8 具有特定的模式:110xxxxx 10xxxxxx 用于 2 个字节,1110xxxx 10xxxxxx 10xxxxxx 用于 3 个字节等。
4. ASCII 检测:如果所有字节都在 0x00-0x7F 范围内,则文件是纯 ASCII(它也是有效的 UTF-8)。
5. Latin-1 回退:如果存在范围为 0x80-0xFF 的字节,但它们不构成有效的 UTF-8 序列,则可能是 ISO-8859-1/Windows-1252。
仅分析文件的前 8KB 以实现高性能。
Tips & Best Practices
-
1BOM检测提供了最高的置信度--具有BOM的文件被明确定义。
-
2没有BOM的UTF-8通过验证多字节序列来检测。
-
3ISO-8859-1和Windows-1252作为回退选项,当UTF-8验证失败时被检测到。
-
4内容预览有助于验证检测结果是否正确--查看乱码字符。
Related Tools
Frequently Asked Questions
Q 检测的准确性如何?
Q 什么是BOM?
Q 是否可以检测Shift-JIS或GB2312?
Q 分析文件的哪部分内容?
Q 混合编码文件如何处理?
About This Tool
编码检测器 is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.