Мне дается строка символов иврита (и некоторых других арабских символов. Я не знаю ни одного из них) в файле
צוֹר
Когда я загружаю эту строку из файла в Python3
fin = open("filename")
x = next(fin).strip()
Длина x
кажется равной 5
>>> len(x)
5
Его кодировка unicode utf-8
>>> x.encode("utf-8")
b'\xd7\xa6\xd7\x95\xd6\xb9\xd7\xa8\xe2\x80\x8e'
Однако в браузерах видно, что длина этих символов иврита равна 3.
Как правильно подобрать длину? И почему это происходит?
Я знаю, что Python 3 по умолчанию использует юникод, поэтому я не ожидал, что возникнет такая проблема.
for ch in 'צוֹר': print(unicodedata.name(ch))
- person Robᵩ   schedule 18.12.2017