В настоящее время мой код следующий:
import unicodedata
unicode = open("unicode.txt").read()
unicode = unicodedata.normalize('NFKC', unicode)
print(unicode)
где unicode.txt
— это текстовый файл, который просто читается как \u00e9
.
Когда я запускаю программу, вывод по-прежнему \u00e9
, однако, если я заменю unicode
в строке .normalize на \u00e9
, вывод будет é
.
Конечная цель — просто заменить все строки Юникода (например, é) их обычными символами. Как cafe
вместо café
.
Функция нормализации работает нормально, когда строка вводится в функцию, но не когда она находится в открываемом файле. Даже в этом случае кажется, что она возвращает стилизованное é
вместо обычного e
.
Есть ли способ заставить это работать?
\u00e9
→é
, б)é
→e
, в)\u00e9
→e
? Ответ Марка поможет вам с а). Преобразование б) называется транслитерацией (не нормализацией), и пакетunidecode
может вам помочь. Для c) объедините a) и b). - person lenz   schedule 24.10.2018