Добро пожаловать! Это — архивная версия форумов на «Хакер.Ru». Она работает в режиме read-only.
 

Нужен скрипт получения зеркала сайта из кеша google

Пользователи, просматривающие топик: none

Зашли как: Guest
Все форумы >> [Прочее] >> Нужен скрипт получения зеркала сайта из кеша google
Имя
Сообщение << Старые топики   Новые топики >>
Нужен скрипт получения зеркала сайта из кеша google - 2011-06-02 22:40:33.023333   
tеstеr

Сообщений: 377
Оценки: -46
Присоединился: 2008-02-08 17:56:40.563333
Один сайт упал (конкретно вот этот: securitywiki.ru), владелец узла в курсе, но сайт не поднимается уже неделю.
Многие страницы сайта есть в кеше google, по ссылке "Сохранённая копия" можно просмотреть кеш.

Есть ли инструмент автоматизации процесса вытаскивания всех сохранённых страниц определённого узла из кеша поисковой системы? Наверняка должен быть подобный инструмент. Или инструмент приватного просмотра сайтов методом просмотра кеша поиковой системы, без посещания этого узла.

Как я понял программа должна работать так:
1. Посетить http://webcache.googleusercontent.com/search?q=cache%3Asecuritywiki.ru
2. С возвращённой страницы собрать все ссылки на искомый узел и для каждой из полученныз URL повторить обращение к http://webcache.googleusercontent.com/search?q=cache%3A + URL

Начну сам писать, но если кто знает готовый инструмент - подскажите.
Post #: 1
RE: Нужен скрипт получения зеркала сайта из кеша google - 2011-06-03 02:06:58.440000   
tеstеr

Сообщений: 377
Оценки: -46
Присоединился: 2008-02-08 17:56:40.563333
Написал. И работало (недолго). Google забанил меня.
quote:


Our systems have detected unusual traffic from your computer network. Please try your request again later. Why did this happen?

IP address: xx.xx.xx.xx
Time: 2011-06-02T22:00:56Z
URL: http://webcache.googleusercontent.com/search?q=cache:cKeY…


Сделал на beanshell обработку запросов в WebScarab. Код такой:
import org.owasp.webscarab.model.Request; import org.owasp.webscarab.model.Response; import org.owasp.webscarab.httpclient.HTTPClient; import jаvа.io.IOException; import org.owasp.webscarab.model.HttpUrl; import org.owasp.webscarab.model.NamedValue; import org.owasp.webscarab.httpclient.URLFetcher; public Response fetchResponse(HTTPClient nextPlugin, Request request) throws IOException { HttpUrl url = request.getURL(); if (url.getHost() != "webcache.googleusercontent.com") { String strUrl = "http://webcache.googleusercontent.com/search?q=cache%3A" + url.getHost() + url.direct(); HttpUrl newurl = new HttpUrl(strUrl); request.setURL(newurl); request.deleteHeader("Host"); NamedValue valueHost = new NamedValue("Host", "webcache.googleusercontent.com"); request.addHeader(valueHost); } URLFetcher f = new URLFetcher(); response = f.fetchResponse(request); return response; }
Post #: 2
Страниц:  [1]
Все форумы >> [Прочее] >> Нужен скрипт получения зеркала сайта из кеша google







Связаться:
Вопросы по сайту / xakep@glc.ru

Предупреждение: использование полученных знаний в противозаконных целях преследуется по закону.