Данные URL-кодирования для тела почтового запроса. Я использую неправильную кодировку?

Я хочу воспроизвести рабочий запрос POST в Java. В целях тестирования возьмем сообщение вида: 'äöõüäöõüäöõüäöõü'.

Рабочий запрос POST (с закодированным сообщением 'äöõüäöõüäöõüäöõü'):

Заголовок

POST http://www.mysite.com/newreply.php?do=postreply&t=477352 HTTP/1.1
Host: www.warriorforum.com
Connection: keep-alive
Content-Length: 403
Origin: http://www.mysite.com
X-Requested-With: XMLHttpRequest
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko)Chrome/14.0.835.202 Safari/535.1
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Accept: */*
Referer: http://www.mysite.com/test-forum/477352-test.html
Accept-Encoding: gzip,deflate,sdch
Accept-Language: en-US,en;q=0.8
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3
Cookie: bblastvisit=1319205053; bblastactivity=0; bbuserid=265374; bbpassword=1125e9ec1ab41f532ab8ec6f77ddaf94; bbsessionhash=91444317c100996990a04d6c5bbd8375;

Тело

securitytoken=1319806096-618e5f9012901e2d818bf2c74c2121baa064be57&ajax=1&ajax_lastpost=1319806096&**message=%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC**&wysiwyg=0&styleid=1&signature=1&fromquickreply=1&s=&do=postreply&t=477352&p=who%20cares&specifiedpost=0&parseurl=1&loggedinuser=265374

Как видно из тела запроса, 'äöõüäöõüäöõüäöõü кодируется как: %u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC

Теперь хочу повторить.

Позволяет Url кодировать текст кодировкой utf-8 в Java:

String userText = "äöõüäöõüäöõüäöõü";
String encoded = URLEncoder.encode(userText, "utf-8");

Результат: %C3%A4%C3%B6%C3%B5%C3%BC%C3%A4%C3%B6%C3%B5%C3%BC%C3%A4%C3%B6% C3%B5%C3%BC%C3%A4%C3%B6%C3%B5%C3%BC%0A%0A%0A%5BSIZE%3D%221%22%5D%5BI%5D ‹‹ НЕ ТАКОЕ

Давайте попробуем ISO-8859-1:

String userText = "äöõüäöõüäöõüäöõü";
String encoded = URLEncoder.encode(userText, "ISO-8859-1");

Результат: %E4%F6%F5%FC%E4%F6%F5%FC%E4%F6%F5%FC%E4%F6%F5%FC%0A%0A%0A%5BSIZE% 3D%221%22%5D%5BI%5D ‹‹ НЕ ТАКОЕ

Ни один из них не создает ту же закодированную строку, что и в рабочем примере, но все они имеют одинаковые входные данные. Что мне здесь не хватает?


person Indrek Kõue    schedule 28.10.2011    source источник


Ответы (1)


%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC%u00E4%u00F6%u00F5%u00FC

Я не знаю, как закодированы приведенные выше данные, но это не application/x-www-form-urlencoded; charset=UTF-8, как утверждается в запросе. Это недопустимые данные для этого типа MIME.

Похоже на какую-то форму в кодировке UTF-16BE.

URLEncoder.encode(userText, "utf-8"); было бы правильным способом кодирования значений application/x-www-form-urlencoded; charset=UTF-8, если бы это было действительно то, что ожидал сервер. (ref)

person McDowell    schedule 28.10.2011
comment
Как я могу определить, какой это тип кодировки? Примечание: это POST-запрос форума vBulletin, работающего на версии 3.8.7. - person Indrek Kõue; 31.10.2011
comment
@SYLAARR - маловероятно, что браузер создает эти данные. Я бы искал JavaScript, который создает это. - person McDowell; 31.10.2011
comment
Спасибо, вы были правы: быстрый повтор форума vBulletin кодировал сообщение каким-то другим алгоритмом. Теперь я столкнулся с другой проблемой, возможно, вы можете помочь мне с этим: stackoverflow.com/questions/8058687/ - person Indrek Kõue; 09.11.2011