Я пытаюсь получить список URL-адресов (изображений), некоторые из которых больше не существуют, а хост перенаправляет на общую страницу «это изображение не существует», URL-адрес которой мне известен. Я хотел бы получить файл, если он не 302 в этом домене, возможно ли это.
Я могу остановить получение файла, если перенаправляет с помощью --max-redirect=0
флаг, но он может перестать получать настоящие изображения, если я ударил зеркало
Единственный (действительно хакерский) способ, который я могу себе представить, - это реализовать HTTP-прокси перед wget
, который может заменить «изображение не найдено» кодом ошибки, чтобы вы не загружали его.
Любой настраиваемый прокси-сервер должен иметь такое поведение - например, с Apache вы можете сделать что-то вроде:
ProxyRequests On
<Proxy http://example.com/path/to/image-not-found.jpg>
Order allow,deny
Deny from all
</Proxy>