Skip to main content

エンコード検出ツール テキストファイルの文字エンコーディング(UTF-8、UTF-16、ASCII、Latin-1)を検出します。

エンコード検出ツール illustration
🔄

エンコード検出ツール

テキストファイルの文字エンコーディング(UTF-8、UTF-16、ASCII、Latin-1)を検出します。

1

2

3

Loading tool...

What Is エンコード検出ツール?

Encoding Detectorは、テキストファイルの文字コードを決定するために分析します。明確なエンコーディング識別のためのバイトオーダーマーク(BOM)をチェックし、その後、BOMがないファイルに対してヒューリスティック分析を使用します。このツールは、UTF-8、UTF-16(LE/BE)、UTF-32(LE/BE)、ASCII、およびISO-8859-1/Windows-1252エンコーディングを検出します。結果には、検出されたエンコーディング、信頼性のレベル、BOMの詳細、アナリシスの説明、およびデコードされた内容のプレビューが含まれます。

Why Use エンコード検出ツール?

  • UTF-8, UTF-16, UTF-32, ASCII

Common Use Cases

UTF-8

CSV,

Technical Guide

このDetectorは、マルチステージアプローチを使用します。

1. BOM検出:最初の4バイトに知られているBOMシーケンス(UTF-8: EF BB BF、UTF-16 LE: FF FE、UTF-16 BE: FE FF、UTF-32 LE: FF FE 00 00、UTF-32 BE: 00 00 FE FF)をチェックします。BOMの存在により、高信頼性の検出が可能になります。

2. UTF-16ヒューリスティック:ヌルバイトパターンを分析します。UTF-16ファイルには、ASCII文字を16ビットでエンコードした対応する偶数または奇数位置に頻繁にヌルバイトがあります。

3. UTF-8検証:マルチバイトシーケンスを検証します。有効なUTF-8には、特定のパターン(2バイトの場合: 110xxxxx 10xxxxxx、3バイトの場合: 1110xxxx 10xxxxxx 10xxxxxxなど)があります。

4. ASCII検出:すべてのバイトが0x00-0x7F範囲内にある場合、そのファイルは純粋なASCII(これも有効なUTF-8)です。

5. ラテン1フォールバック:0x80-0xFF範囲内のバイトが存在するが、有効なUTF-8シーケンスを形成しない場合、ISO-8859-1/Windows-1252である可能性があります。

パフォーマンスのために、ファイルの最初の8KBのみが分析されます。

Tips & Best Practices

  • 1
    BOM
  • 2
    UTF-8 BOM
  • 3
    ISO-8859-1 Windows-1252 UTF-8
  • 4

Related Tools

Frequently Asked Questions

Q
BOM 100% UTF-8 Latin-1/Windows-1252
Q BOM?
BOM
Q Shift-JIS GB2312?
Unicode Latin-1 East Asian
Q 8KB?
8KB 8192
Q

About This Tool

エンコード検出ツール is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.