Я пытаюсь очистить номер площади (квадратные метры или квадратные футы) многих жилых домов, которые хранятся в различных текстовых файлах.
Площадь почти всегда выражается путем указания единиц либо в метрической системе (длина выражается в метрах в качестве базовой единицы), либо в имперской системе Великобритании (длина выражается в футах в качестве базовой единицы) путем указания числа, за которым следуют единицы.
Единицы площади имеют различные строковые представления, например, «квадратные метры» могут отображаться как «кв.м», «кв.м», «кв.м», «квадрат.м», «кв.метры», «м^2», « m2" и т. д. (также может меняться заглавная буква).
Некоторые примеры TXT, которые у меня есть (я скопировал только строку с интересующими меня данными, очистив остальные):
1)
...
Approximate Gross Internal Area = 40.1 sq m / 432 sq ft Re’
...
2)
...
Total area: approx. 37.3 sq. metres (402.0 sq. feet)
...
3)
...
Approx. Gross Internal Area *
413Ft’-38.37M’
...
Моя цель - проанализировать каждый текстовый файл, получить число квадратных метров (или квадратных футов) и сохранить его.
Я начал изучать инструменты Python Regular Expressions/RegEx, сопоставления с образцом, обработки текста и анализа текста, но решил приостановить исследование и посмотреть, не преследовал ли кто-нибудь еще подобную цель.
Какой, на ваш взгляд, наиболее эффективный способ решения данной конкретной задачи? Используя RegEx, анализ текста или что?
Я вполне готов использовать другие языки сценариев (PERL, Ruby и т. д.), если они больше подходят для этого.