ban-lists

zlsl · Сообщение **zlsl** » Пн июл 12, 2004 16:52

Моя подборочка:
http://edu.sochi.ru/dbl/

Galchonok

Ну вот ... и славо богу ... хоть кто-то выложил ....

Kotovsky

Мечта:

А вот если бы сделать список по примеру drbl для черного списка почтовых серверов. Также, на основе DNS.

Например, приходит на Rejik (или другую программу) URL для анализа.
Он его кодирует определённым образом и делает DNS запрос на сервер.
Если DNS возвращает
127.0.0.2 - баннер
127.0.0.3 - счётчик
127.0.0.4 - порнуха
или что-то подобное.
А далее - в соответствии с настройками подмена URL.

Kotovsky

.... тогда можно не только давать свои списка файлами, а развёртывать целые рабочие серверы.

Сообщение **Slava** » Пн авг 02, 2004 11:12

Такая схема ощутимо замедлит работу прокси.
Значительно проще и быстрее иметь на проксе заранее сформированный бан-лист.

Kotovsky

Хм, а если кешировать позитивные и негативные ответы?

Практически не будет проседать скорость. Только на каком-нибудь начальном этапе.

Сообщение **Slava** » Пн авг 02, 2004 15:08

Боюсь, что не поможет кеширование.

Для сравнения протестируйте, сколько запросов в минуту обрабатывает режик и сколько адресов получиться разрезольвить через rbl сервер.

Да плюс трафик и нагрузка на удаленный сервер..

Лучше иметь лист и апдейты к нему, по мере изменения.

Kotovsky

Автору виднее, спорить не буду.

Лично мне казалось, что Режик всё равно берёт данные с диска, а хранит копию в памяти, с ней и работает.

Тогда без разницы: получены данные с диска или приняты через inet сокет. И чем крупнее огранизация, тем выше процент попадания в закешированные банлисты. Ведь хотя и много разных банерных сетей, их количество не бесконечно. Крупных и известных вообще меньше сотни.
Что касается серверов с банлистами.
Так живут же подобные серверы для антиспама? И функционируют как DNS в чистом виде. Уж не намного они загруженнее обычных коммерческих майнтейнеров зон.
А с TTL ~7-8, а то и больше дней, и трафика много не потребуется. Я бы даже TTL смело три месяца сделал.

Конечно, сложно говорить, лучше бы попробовать. Увы, к сожеланию я не программист на таком уровне.

Сообщение **Slava** » Пн авг 02, 2004 16:00

Вы немного путаете.
Да, режик берет данные с винта, но берет весь список сразу.
Если работать через rbl сервер, то на каждый незакешированный запрос клиента прокси должен посылать запрос на dns, принимать ответ, класть его к себе в базу, кешировать.

Короче разница в том, что с диска берется база целиком, а через rbl по одной штуке, по мере надобности.

Кроме того, что бы быстро искать по списку, его надо сначала привести к некому виду, отсортировать. При работе через rbl нужно будет производить сортировку при каждом незакешированном запросе.

Более того, схема может оказаться принципиально не работоспособна:
Например, в базе, на rbl сервере лежит список:
foo.com
foo1.com/dir
sub.foo2.com

клиент хочет перейти на страницу
a1.foo.com/dir/file
Какой должен быть запрос на rbl сервер? (foo.com?)

Потом идет на foo1.com/dir/beep
Какой запрос должен идти на rbl сервер ?

А если пойдет на sub.sub.foo2.com?

Получается нужно для каждого запроса клиента искать нечто свое..
Откуда прокси будет знать что спрашивать у rbl сервера?

Когда foo.com, когда sub.foo.com, а когда foo.com/dir/file?

Сообщение **Slava** » Пн авг 02, 2004 16:12

Иначе говоря, не запрос клиента ищется в бан-листе, а в запросе клиента ищется хотя бы одно правило из бан-листа.

Kotovsky

Что ж..
Если алгоритм именно такой, то вопросов нет.

А жаль. Идея неплохая.

zlsl · Сообщение **zlsl** » Вт авг 03, 2004 16:00

Ну а если на сервере сделать обработку запроса:
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)
сервер возвращает нам:
или 'OK' - нет в базе
или ответ например такого вида:

BANNER
/adv/ban.php

или

BANNER
www.banner.com/adv/ban.php

то есть так,как лежит в базе
в кэш заносим соответственно вторую строку...

Сообщение **Slava** » Ср авг 04, 2004 9:12

Можно, получиться режик висящий на открытом порту.
Кажется это можно реализовать просто прописав режик в inetd.

Получиться удаленный режик.
А смысл?

Kotovsky

Смысл огромный!

Одна база - легче контролировать, легче настраивать.
Только лучше не через inetd, а standalone сервисом - ресурсов меньше.

Kotovsky

zlsl писал(а): ...
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)

не согласен! иной раз я определяю наличие открытого или запрещенного контента именно по параметрам после вопроса.

REJIK

ban-lists

ban-lists

;)