UTF-8
UTF-8 (Unicode Transformation Format 8-bit)
Доминирующая кодировка символов для веба, способная представить каждый символ стандарта Unicode с использованием от одного до четырёх байт на символ, сохраняя обратную совместимость с ASCII.
Техническая деталь
UTF-8 — это кодировка переменной ширины: символы ASCII (U+0000 — U+007F) используют один байт, идентичный их значениям ASCII, что делает любой ASCII-текст валидным UTF-8. Два байта покрывают латиницу, греческий, кириллицу и арабский (U+0080–U+07FF), три байта — большинство иероглифов CJK (U+0800–U+FFFF), четыре байта — эмодзи и редкие письменности (U+10000–U+10FFFF). Более 98% веб-страниц используют UTF-8. BOM (Byte Order Mark, EF BB BF) необязателен и в целом не рекомендуется, за исключением контекста Windows.
Пример
```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
const data = e.target.result;
console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```