Юникод.

Вы когда-нибудь интересовались тегом Content-Type? Вы знаете, тот, который вы должны включить в HTML, но никогда точно не знаете, каким он должен быть?

Большинство из вас, возможно, пока не знакомы с этим. Мы изучим это в ближайшие недели.

Когда не существовало Unicode.

На заре Unix символы представлялись с использованием 8 бит (1 байт) памяти. Поскольку в то время у компьютеров был такой ограниченный объем памяти, важно было обратить внимание на использование памяти.

Все эти 1 и 0 являются двоичными, представляющими каждый символ ниже. Но писать в двоичном формате сложно, и было бы ужасно, если бы вам приходилось делать это все время. Для этого была создана таблица ASCII, которая по сути представляет собой таблицу преобразования байтов в символы.

В таблице ASCII имеется 128 стандартных символов (как в верхнем, так и в нижнем регистре от a до z и от 0 до 9). Всего 95 буквенно-цифровых символов, чего достаточно, если вы говорите по-английски. На самом деле для каждого символа требуется всего 7 бит, так что есть лишний бит! Это привело к разработке расширенной таблицы ASCII, которая включает в себя еще 128 причудливых вещей, таких как и , а также другие символы. Тем не менее этого недостаточно, чтобы охватить широкий спектр символов, используемых в языках по всему миру, поэтому люди разработали свои собственные кодировки.

Проблема была в том, что каждый назначал своих персонажей. Что и где должно находиться в пространстве от 128 до 255 в зависимости от их региона и языка.

У IBM-PC было то, что стало известно как набор символов OEM, который предоставлял некоторые символы с диакритическими знаками для европейских языков и набор символов для рисования линий… горизонтальные полосы, вертикальные полосы, горизонтальные полосы с небольшими бубнами, свисающими с правой стороны. и т. д., и вы можете использовать эти символы для рисования линий, чтобы создавать изящные прямоугольники и линии на экране.

Помните игры 90-х? TIL, созданный с использованием ASCII.

В конце 1990-х годов существовало не менее 60 стандартизированных (и несколько меньше) расширенных таблиц ASCII, за которыми нужно было следить. Мы должны быть благодарны, что все они разделили хотя бы первые 128 символов. Но по необходимости они использовали дополнительные 128 символов таким образом, что случайный выбор неправильной таблицы мог сделать текст нечитаемым.

Интернет сломал все это, потому что люди начали отправлять документы, закодированные в их родной кодировке, другим людям. Иногда люди использовали разные кодировки и видели что-то подобное.

Юникод.

Unicode присваивает уникальный номер каждому символу, который включает в себя знаки препинания, математические символы, технические символы, стрелки и символы нелатинских алфавитов, таких как тайский, китайский и арабский алфавит. Unicode был принят всеми современными поставщиками программного обеспечения с момента его создания, что позволяет передавать данные без искажений через устройства, приложения и платформы. Теперь он поддерживается всеми основными операционными системами, браузерами, поисковыми системами, ноутбуками, смартфонами и Интернетом в целом.

Unicode был создан, чтобы разрешить больше наборов символов, чем ASCII. Unicode использует 16 бит для представления каждого символа. Это означает, что Unicode может представлять 65 536 различных символов и гораздо более широкий диапазон наборов символов. ASCII имеет эквивалент в Unicode. Разница между ASCII и Unicode заключается в том, что ASCII представляет строчные буквы (a–z), прописные буквы (A–Z), цифры (0–9) и символы, такие как знаки препинания, в то время как Unicode представляет буквы английского, арабского, греческого и т. д.

Я буду публиковать больше блогов, как это. Итак, убедитесь, что вы следуете.