ban-lists

Обсуждение программы редиректора
zlsl
Сообщения: 2
Зарегистрирован: Пн июл 12, 2004 16:49

ban-lists

Сообщение zlsl »

Моя подборочка:
http://edu.sochi.ru/dbl/

Galchonok
Сообщения: 2
Зарегистрирован: Чт июл 08, 2004 15:07

;)

Сообщение Galchonok »

Ну вот ... и славо богу ... хоть кто-то выложил ....

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

Мечта:

А вот если бы сделать список по примеру drbl для черного списка почтовых серверов. Также, на основе DNS.

Например, приходит на Rejik (или другую программу) URL для анализа.
Он его кодирует определённым образом и делает DNS запрос на сервер.
Если DNS возвращает
127.0.0.2 - баннер
127.0.0.3 - счётчик
127.0.0.4 - порнуха
или что-то подобное.
А далее - в соответствии с настройками подмена URL.

:roll:
Alexey

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

.... тогда можно не только давать свои списка файлами, а развёртывать целые рабочие серверы.
Alexey

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

Такая схема ощутимо замедлит работу прокси.
Значительно проще и быстрее иметь на проксе заранее сформированный бан-лист.

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

Хм, а если кешировать позитивные и негативные ответы? :o
Практически не будет проседать скорость. Только на каком-нибудь начальном этапе.
Alexey

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

Боюсь, что не поможет кеширование.

Для сравнения протестируйте, сколько запросов в минуту обрабатывает режик и сколько адресов получиться разрезольвить через rbl сервер.

Да плюс трафик и нагрузка на удаленный сервер..

Лучше иметь лист и апдейты к нему, по мере изменения.

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

Автору виднее, спорить не буду.

Лично мне казалось, что Режик всё равно берёт данные с диска, а хранит копию в памяти, с ней и работает.

Тогда без разницы: получены данные с диска или приняты через inet сокет. И чем крупнее огранизация, тем выше процент попадания в закешированные банлисты. Ведь хотя и много разных банерных сетей, их количество не бесконечно. Крупных и известных вообще меньше сотни.
Что касается серверов с банлистами.
Так живут же подобные серверы для антиспама? И функционируют как DNS в чистом виде. Уж не намного они загруженнее обычных коммерческих майнтейнеров зон.
А с TTL ~7-8, а то и больше дней, и трафика много не потребуется. Я бы даже TTL смело три месяца сделал.

Конечно, сложно говорить, лучше бы попробовать. Увы, к сожеланию я не программист на таком уровне.
:cry:
Alexey

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

Вы немного путаете.
Да, режик берет данные с винта, но берет весь список сразу.
Если работать через rbl сервер, то на каждый незакешированный запрос клиента прокси должен посылать запрос на dns, принимать ответ, класть его к себе в базу, кешировать.

Короче разница в том, что с диска берется база целиком, а через rbl по одной штуке, по мере надобности.

Кроме того, что бы быстро искать по списку, его надо сначала привести к некому виду, отсортировать. При работе через rbl нужно будет производить сортировку при каждом незакешированном запросе.

Более того, схема может оказаться принципиально не работоспособна:
Например, в базе, на rbl сервере лежит список:
foo.com
foo1.com/dir
sub.foo2.com

клиент хочет перейти на страницу
a1.foo.com/dir/file
Какой должен быть запрос на rbl сервер? (foo.com?)

Потом идет на foo1.com/dir/beep
Какой запрос должен идти на rbl сервер ?

А если пойдет на sub.sub.foo2.com?

Получается нужно для каждого запроса клиента искать нечто свое..
Откуда прокси будет знать что спрашивать у rbl сервера?

Когда foo.com, когда sub.foo.com, а когда foo.com/dir/file?

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

Иначе говоря, не запрос клиента ищется в бан-листе, а в запросе клиента ищется хотя бы одно правило из бан-листа.

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

Что ж..
Если алгоритм именно такой, то вопросов нет. :(
А жаль. Идея неплохая.
Alexey

zlsl
Сообщения: 2
Зарегистрирован: Пн июл 12, 2004 16:49

Сообщение zlsl »

:roll: Ну а если на сервере сделать обработку запроса:
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)
сервер возвращает нам:
или 'OK' - нет в базе
или ответ например такого вида:

BANNER
/adv/ban.php

или

BANNER
www.banner.com/adv/ban.php

то есть так,как лежит в базе
в кэш заносим соответственно вторую строку...

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

Можно, получиться режик висящий на открытом порту.
Кажется это можно реализовать просто прописав режик в inetd.

Получиться удаленный режик.
А смысл?

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

Смысл огромный!

Одна база - легче контролировать, легче настраивать.
Только лучше не через inetd, а standalone сервисом - ресурсов меньше.
Alexey

Kotovsky
Сообщения: 41
Зарегистрирован: Вт май 18, 2004 15:48

Сообщение Kotovsky »

zlsl писал(а): ...
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)
не согласен! иной раз я определяю наличие открытого или запрещенного контента именно по параметрам после вопроса.
Alexey

Ответить