Pendeteksi Pengkodean Deteksi pengkodean karakter berkas teks (UTF-8, UTF-16, ASCII, Latin-1).
Pendeteksi Pengkodean
Deteksi pengkodean karakter berkas teks (UTF-8, UTF-16, ASCII, Latin-1).
Unggah berkas teks
Tarik dan lepas atau pilih berkas teks untuk dianalisis.
Lihat hasil deteksi pengkodean
Lihat pengkodean yang terdeteksi, status BOM, dan tingkat kepercayaan.
Pratinjau konten
Tinjau pratinjau dari konten teks yang didekodekan.
What Is Pendeteksi Pengkodean?
Encoding Detector menganalisis berkas teks untuk menentukan karakter pengkodeannya. Alat ini memeriksa Tanda Urutan Byte (BOM) untuk identifikasi pengkodean yang pasti, kemudian menggunakan analisis heuristik untuk berkas tanpa BOM. Alat ini dapat mendeteksi pengkodean UTF-8, UTF-16 (LE/BE), UTF-32 (LE/BE), ASCII, dan ISO-8859-1/Windows-1252. Hasilnya termasuk pengkodean yang terdeteksi, tingkat kepercayaan, rincian BOM, penjelasan analisis, dan pratinjau konten yang didekodekan.
Why Use Pendeteksi Pengkodean?
-
Mendeteksi pengkodean melalui BOM dan analisis byte heuristik.
-
Mendukung UTF-8, UTF-16, UTF-32, ASCII, dan Latin-1/Windows-1252.
-
Menampilkan tingkat kepercayaan dan detail metode deteksi.
-
Termasuk pratinjau konten yang didekodekan untuk memverifikasi akurasi deteksi.
Common Use Cases
Masalah Karakter
Diagnosis masalah mojibake dan tampilan karakter dengan mengidentifikasi pengkodean berkas yang benar.
Impor Data
Tentukan pengkodean berkas sebelum mengimpor data teks untuk memastikan penanganan karakter yang tepat.
Berkas Warisan
Identifikasi pengkodean dari berkas teks warisan yang mungkin menggunakan pengkodean non-UTF-8.
Pengembangan
Verifikasi pengkodean file sumber, data CSV, dan file konfigurasi.
Technical Guide
Detektor menggunakan pendekatan multi-tahap:
1. Deteksi BOM: Memeriksa 4 byte pertama untuk urutan BOM yang diketahui (UTF-8: EF BB BF, UTF-16 LE: FF FE, UTF-16 BE: FE FF, UTF-32 LE: FF FE 00 00, UTF-32 BE: 00 00 FE FF). Kehadiran BOM memberikan deteksi dengan kepercayaan tinggi.
2. Heuristik UTF-16: Menganalisis pola byte nol. Berkas UTF-16 memiliki byte nol yang sering muncul di posisi genap atau ganjil yang sesuai dengan karakter ASCII yang dikodekan dalam 16-bit.
3. Validasi UTF-8: Memvalidasi urutan multi-byte. UTF-8 yang valid memiliki pola tertentu: 110xxxxx 10xxxxxx untuk 2 byte, 1110xxxx 10xxxxxx 10xxxxxx untuk 3 byte, dan seterusnya.
4. Deteksi ASCII: Jika semua byte berada dalam rentang 0x00-0x7F, maka berkas tersebut adalah murni ASCII (yang juga merupakan UTF-8 yang valid).
5. Fallback Latin-1: Jika byte ada di rentang 0x80-0xFF tetapi tidak membentuk urutan UTF-8 yang valid, maka ISO-8859-1/Windows-1252 kemungkinan besar digunakan.
Hanya 8KB pertama dari berkas yang dianalisis untuk kinerja.
Tips & Best Practices
-
1Deteksi BOM memberikan kepercayaan tertinggi - berkas dengan BOM diidentifikasi secara pasti.
-
2UTF-8 tanpa BOM dideteksi dengan memvalidasi urutan byte multi-byte.
-
3ISO-8859-1 dan Windows-1252 dideteksi sebagai fallback ketika validasi UTF-8 gagal.
-
4Pratinjau konten membantu memverifikasi bahwa deteksi benar - cari karakter yang rusak.
Related Tools
Pengidentifikasi Format File
Deteksi format file dengan menganalisis byte ajaib (tanda tangan file) di header.
๐ File Conversion
Pendeteksi Akhir Baris
Mendeteksi dan menghitung jenis akhir baris (CRLF, LF, CR) di file teks.
๐ File Conversion
Pendeteksi/Penghapus BOM
Deteksi dan hapus Tanda Urutan Byte (BOM) dari file teks.
๐ File Conversion
Pembaca Metadata File
Lihat metadata file secara komprehensif termasuk ukuran, jenis, entropi, dan header heksadesimal.
๐ File ConversionFrequently Asked Questions
Q Seberapa akurat deteksinya?
Q Apa itu BOM?
Q Dapatkah mendeteksi Shift-JIS atau GB2312?
Q Berapa banyak berkas yang dianalisis?
Q Bagaimana dengan berkas pengkodean campuran?
About This Tool
Pendeteksi Pengkodean is a free online tool by FreeToolkit.ai. All processing happens directly in your browser โ your data never leaves your device. No registration or installation required.