Я работаю над поисковым роботом, поэтому анализирую HTML-страницы. Моя проблема в том, что иногда кодировка страницы не является UTF8 (ISO, экзотическая Windows [0-9] и т.д.), и мой анализатор дал сбой.
Я пробовал много решений на PHP / Java / NodeJS для преобразования содержимого, но всегда есть проблема.
Существует ли прокси-модуль (nginx, squid, varnish ....) для автоматического преобразования кодировки содержимого в UTF8?
Кодировка должен быть объявленным в заголовке - если это не utf-8, преобразовать его - iconv доступен в большинстве разновидностей Linux и Unix. Если вы создаете веб-сканер, его будет проще интегрировать в ваш код, чем в прокси.