Назад | Перейти на главную страницу

Как получить таблицы с другой структурой из Интернета

У меня тысячи веб-страниц (требуется вход с именем пользователя и паролями), например https://XXX.incometax.XXX/Preview/ViewDetail?TIN_INFO_NO=11935# где для каждого URL-адреса изменяются только последние четыре цифры (11935 в данном примере). Каждый URL-адрес извлекает налоговую информацию для налогоплательщиков в различных типах таблиц. Таблицы обслуживаются на основе информации, введенной в систему для каждого налогоплательщика, например В некоторых таблицах с информацией о налогоплательщиках указан номер национальной идентификационной карты (NID) для тех, кто создал электронный идентификационный номер налогоплательщика (eTIN) с использованием NID, а для некоторых таблиц с информацией о налогоплательщиках указан номер паспорта (для тех, кто создал eTIN с использованием номера паспорта). Информационная таблица у разных налогоплательщиков разная. Теперь мне нужна автоматизация, которая извлекает эти таблицы таким образом, чтобы все вновь обнаруженные столбцы были созданы и помещали данные соответствующих столбцов в соответствующий столбец.

например Предположим, один налогоплательщик может создать eTIN, используя либо NID, либо номер паспорта, но не оба. Предположим, что при первом проходе система автоматизации находит информацию о NID, а во втором проходе - информацию о паспорте, теперь она создаст новый столбец с именем паспорт и поместит под ним соответствующую информацию. и если на третьем проходе он находит информацию NID, то он помещает эту информацию в ранее созданный (на первом проходе) столбец NID. Наконец, система автоматизации сгенерирует один файл csv.

N.B. Для меня нет юридических ограничений на извлечение информации с этого сайта. Я хотел бы иметь непрограммное решение.