В итоге делаю сайт на трех языках: английском, русском и китайском. Я надеюсь, что если я использую UTF-8 в приложении и базе данных, проблем с вводом-выводом не будет (будет ли?)
Но самое страшное — это поиски. Должно быть достаточно прохладно. Он должен быть полнотекстовым, индексироваться и т. д. Надеюсь, он будет понимать морфологию, использовать стемминг и т. д.
Сначала я просмотрел Zend_Search_Lucene, но, как я понял из http://framework.zend.com/issues/browse/ZF/component/10021 у него проблемы с китайским языком. :(
Теперь я думаю о Сфинксе. Он поддерживает как английскую, так и русскую основу. Я не уверен, насколько хорошо он работает с китайским языком, и я понятия не имею, насколько сложно мне будет добавить его поддержку. http://www.sphinxsearch.com/forum/view.html?id=1554 - это луч надежды, но, как неопытный пользователь Sphinx, я не думаю, что понимаю, что там сказано.
So,
есть ли у кого-нибудь опыт в таком «языково-независимом» поиске и может поделиться им со мной, пожалуйста?
и не могли бы вы дать мне что-нибудь, чтобы проверить поиск. Как носитель русского языка с некоторыми базовыми знаниями английского языка, я могу проверить поиск как на русском, так и на английском языке, но я даже не знаю, какие части этих китайских картинок являются словами. Пожалуйста, дайте мне несколько китайских строк, чтобы поместить их в индекс и несколько запросов с ожидаемыми результатами!