Skip to main content

인코딩 감지기 텍스트 파일 문자 인코딩(UTF-8, UTF-16, ASCII, Latin-1) 감지

인코딩 감지기 illustration
🔄

인코딩 감지기

텍스트 파일 문자 인코딩(UTF-8, UTF-16, ASCII, Latin-1) 감지

1

텍스트 파일 업로드

분석할 텍스트 파일을 드롭하거나 선택하세요.

2

인코딩 결과 보기

검출된 인코딩, BOM 상태 및 신뢰도 수준을 확인합니다.

3

내용 미리보기

디코드된 텍스트 내용의 미리보기를 확인하세요.

Loading tool...

What Is 인코딩 감지기?

인코딩 감지기는 텍스트 파일의 문자 인코딩을 결정하기 위해 분석합니다. Byte Order Marks(BOM)를 확인하여 확정적인 인코딩 식별을 수행한 다음, BOM이 없는 파일에 대한 유추적 분석을 사용합니다. 이 도구는 UTF-8, UTF-16(LE/BE), UTF-32(LE/BE), ASCII 및 ISO-8859-1/Windows-1252 인코딩을 감지하며, 결과에는 감지된 인코딩, 신뢰도 수준, BOM 세부 정보, 분석 설명 및 디코드 된 콘텐츠 미리 보기가 포함됩니다.

Why Use 인코딩 감지기?

  • BOM과 휴리스틱 바이트 분석을 통해 인코딩을 감지합니다.
  • UTF-8, UTF-16, UTF-32, ASCII 및 Latin-1/Windows-1252를 지원합니다.
  • 신뢰도 수준과 감지 방법 세부 정보를 표시합니다.
  • 감지 정확성을 확인하기 위한 디코드된 내용 미리보기를 포함합니다.

Common Use Cases

문자 문제

파일 인코딩을 식별하여 모지바케와 문자 표시 문제를 진단하세요.

데이터 가져오기

텍스트 데이터를 가져오기 전에 파일 인코딩을 결정하여 올바른 문자 처리를 보장합니다.

레거시 파일

UTF-8이 아닌 인코딩을 사용할 수 있는 레거시 텍스트 파일의 인코딩을 식별하세요.

개발

소스 코드 파일, CSV 데이터 및 구성 파일의 인코딩을 확인합니다.

Technical Guide

감지기는 다단계 접근 방식을 사용합니다:

1. BOM 감지: 첫 4바이트를 확인하여 알려진 BOM 시퀀스(UTF-8: EF BB BF, UTF-16 LE: FF FE, UTF-16 BE: FE FF, UTF-32 LE: FF FE 00 00, UTF-32 BE: 00 00 FE FF)를 찾습니다. BOM의 존재는 높은 신뢰도를 제공합니다.

2. UTF-16 유추: 널 바이트 패턴을 분석합니다. UTF-16 파일에는 ASCII 문자를 16비트로 인코딩한 것에 해당하는 짝수 또는 홀수 위치에 빈번하게 널 바이트가 있습니다.

3. UTF-8 검증: 멀티바이트 시퀀스를 확인합니다. 유효한 UTF-8에는 특정 패턴이 있습니다: 110xxxxx 10xxxxxx(2바이트), 1110xxxx 10xxxxxx 10xxxxxx(3바이트) 등.

4. ASCII 감지: 모든 바이트가 0x00-0x7F 범위에 있으면 파일은 순수한 ASCII입니다(이는 유효한 UTF-8이기도 함).

5. Latin-1 대체: 바이트가 0x80-0xFF 범위에 존재하지만 유효한 UTF-8 시퀀스를 형성하지 않으면 ISO-8859-1/Windows-1252가 가능합니다.

성능을 위해 파일의 처음 8KB만 분석됩니다.

Tips & Best Practices

  • 1
    BOM 감지는最高의 신뢰도를 제공합니다. BOM이 있는 파일은 확실히 식별됩니다.
  • 2
    BOM이 없는 UTF-8은 멀티바이트 시퀀스를 검증하여 감지됩니다.
  • 3
    ISO-8859-1 및 Windows-1252는 UTF-8検証에 실패할 경우 대체로 감지됩니다.
  • 4
    내용 미리보기가 감지 결과를 확인하는 데 도움이 됩니다. 잘못된 문자를 찾으세요.

Related Tools

Frequently Asked Questions

Q 감지 정확도는 얼마나 높은가요?
BOM 기반 감지는 100% 정확합니다. UTF-8의 휴리스틱 감지는 매우 신뢰할 수 있습니다. Latin-1/Windows-1252 감지는 대체로 사용됩니다.
Q BOM이란 무엇인가요?
바이트 순서 표시(BOM)는 파일 시작 부분에 있는 특별한 바이트 시퀀스로서 해당 파일의 인코딩을 식별합니다.
Q Shift-JIS 또는 GB2312를 감지할 수 있나요?
현재 감지기는 유니코드 인코딩과 Latin-1에 중점을 두고 있습니다. 동아시아 인코딩은 특별히 감지되지 않습니다.
Q 파일의 어느 정도가 분석되나요?
첫 8KB(8192바이트)가 분석됩니다. 이는 신뢰할 수 있는 인코딩 감지를 위한 충분한 양입니다.
Q 혼합 인코딩 파일은 어떻게 되나요?
감지기는 파일당 하나의 인코딩을 가정합니다. 혼합 인코딩 파일에서는 지배적인 인코딩이 표시됩니다.

About This Tool

인코딩 감지기 is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.