Jan 29
Сидел сегодня скрипт писал для выкачивания с одного ресурса нескольких сотен страниц, дальше нужно будет вытащить оттуда все остальные страницы, ссылки на которые присутствуют на этих паре сотен страниц, так что количество измеряется несколькими тысячами. Блин, сайт писан грамотным прогером - стоит защита от количества запрашиваемых страниц с IP за единицу времени. Разлок идет по отсылке письма, тоесть просто ввести каптчу не удастся - надо написать собщение через контакт-форму (также присутсвует каптча)…
Выход один - использовать прокси. Так вот постала задача: мне нужно вытащить n-ное количество станиц с этого ресурса с 90-100% результатом (потеря 10% допускается). И вот тут постал вопрос: как контролировать каждый поток мульти CURL’а? Нужно, если прокси умер (а они могут умереть в каждый момент), то брать следующий по списку (алгоритм задать не проблема) и снова грузить страницу, или Если не загрузилась страница (по таймауту или другой причине) тоже снова ее загрузить… Сам алгоритм понятен, но сейчас пытаюсь реализовать это на практике.
Если у кого есть примеры - киньте в меня или ссылку дайте, где про такое можно почитать…
ЗЫ. Про сам Multi CURL не надо. Нужно о контроле этих самых потоков и их обработке.
ЗЫЫ. На мысль пришло: получать результат запроса страницы и если результат пустой или ошибка и т.д., тогда записывать адрес не полученной страницы в новый массив и потом этот массив прогонять как основной и формировать новый “ошибочный” массив. И так до тех пор, пока массив с “ошибочными” адресами не будет пуст.
Jan 23
Позавчера купил жене подарок: КПК ASUS MyPal A626. Два дня уже сам с ним играюсь и у меня все большее желание поменять свою Nokia 6300 на какой-то коммуникатор.
Машинка супер:
- процессор: Intel XScale PXA270 312 МГц
- ОС: MS Windows Mobile 6.0
- подключения: IrDA, WiFi (самое главное), Bluetooth 2.0, USB
Самым большим испытанием было подключение и настройка WiFi, дабы жена дома “сидела” в нете через DSL-модем со встроенной WiFi точкой доступа. Это было эпическая сага, но не буду ее всю вам рассказывать. Если вкратце, то я 3 часа “занимался сексом” с коммуникатором, который видел WiFi точку, подключался к ней НО никакого трафика не было, даже пинги не проходили. Оказалось, что все три часа я мучаю WiFi карту ноутбука, а не модема. Смеялся я и пил успокаивающее долго…
Теперь сижу и качаю софт для него. Никак не могу найти бесплатного нормального антивируса (если он существует в бесплатном виде). А так: день третий - полет нормальный.
Jan 15
Сегодня на мой мейл пришло оффициальное письмо от Google и в нем преинтереснейшая информация:
Рекомендуем удалить все блоки рефералов, указывающие на AdSense,
не позднее последней недели января. Блоки рефералов, которые Вы не
удалите, продолжат отображаться на страницах сайта, однако
конверсии по ним учитываться не будут. Предлагаем заменить такие
ссылки на AdSense рефералами на другие продукты или услуги, или же
на рекламные блоки.
Это только “вырезка” из письма. В общем надо удалять реферальные блоки Адсенса или заменять их на рекламные, так как после 1 февраля переходы, а соответсвенно и регистрации, и выплаты за рефералов уже учитываться не будут.
Мне интересно зачем Google полностью отказывается от реферальной программы. Странный ход…