ban-lists
ban-lists
Моя подборочка:
http://edu.sochi.ru/dbl/
http://edu.sochi.ru/dbl/
;)
Ну вот ... и славо богу ... хоть кто-то выложил ....
Мечта:
А вот если бы сделать список по примеру drbl для черного списка почтовых серверов. Также, на основе DNS.
Например, приходит на Rejik (или другую программу) URL для анализа.
Он его кодирует определённым образом и делает DNS запрос на сервер.
Если DNS возвращает
127.0.0.2 - баннер
127.0.0.3 - счётчик
127.0.0.4 - порнуха
или что-то подобное.
А далее - в соответствии с настройками подмена URL.
А вот если бы сделать список по примеру drbl для черного списка почтовых серверов. Также, на основе DNS.
Например, приходит на Rejik (или другую программу) URL для анализа.
Он его кодирует определённым образом и делает DNS запрос на сервер.
Если DNS возвращает
127.0.0.2 - баннер
127.0.0.3 - счётчик
127.0.0.4 - порнуха
или что-то подобное.
А далее - в соответствии с настройками подмена URL.
Alexey
Автору виднее, спорить не буду.
Лично мне казалось, что Режик всё равно берёт данные с диска, а хранит копию в памяти, с ней и работает.
Тогда без разницы: получены данные с диска или приняты через inet сокет. И чем крупнее огранизация, тем выше процент попадания в закешированные банлисты. Ведь хотя и много разных банерных сетей, их количество не бесконечно. Крупных и известных вообще меньше сотни.
Что касается серверов с банлистами.
Так живут же подобные серверы для антиспама? И функционируют как DNS в чистом виде. Уж не намного они загруженнее обычных коммерческих майнтейнеров зон.
А с TTL ~7-8, а то и больше дней, и трафика много не потребуется. Я бы даже TTL смело три месяца сделал.
Конечно, сложно говорить, лучше бы попробовать. Увы, к сожеланию я не программист на таком уровне.
Лично мне казалось, что Режик всё равно берёт данные с диска, а хранит копию в памяти, с ней и работает.
Тогда без разницы: получены данные с диска или приняты через inet сокет. И чем крупнее огранизация, тем выше процент попадания в закешированные банлисты. Ведь хотя и много разных банерных сетей, их количество не бесконечно. Крупных и известных вообще меньше сотни.
Что касается серверов с банлистами.
Так живут же подобные серверы для антиспама? И функционируют как DNS в чистом виде. Уж не намного они загруженнее обычных коммерческих майнтейнеров зон.
А с TTL ~7-8, а то и больше дней, и трафика много не потребуется. Я бы даже TTL смело три месяца сделал.
Конечно, сложно говорить, лучше бы попробовать. Увы, к сожеланию я не программист на таком уровне.
Alexey
Вы немного путаете.
Да, режик берет данные с винта, но берет весь список сразу.
Если работать через rbl сервер, то на каждый незакешированный запрос клиента прокси должен посылать запрос на dns, принимать ответ, класть его к себе в базу, кешировать.
Короче разница в том, что с диска берется база целиком, а через rbl по одной штуке, по мере надобности.
Кроме того, что бы быстро искать по списку, его надо сначала привести к некому виду, отсортировать. При работе через rbl нужно будет производить сортировку при каждом незакешированном запросе.
Более того, схема может оказаться принципиально не работоспособна:
Например, в базе, на rbl сервере лежит список:
foo.com
foo1.com/dir
sub.foo2.com
клиент хочет перейти на страницу
a1.foo.com/dir/file
Какой должен быть запрос на rbl сервер? (foo.com?)
Потом идет на foo1.com/dir/beep
Какой запрос должен идти на rbl сервер ?
А если пойдет на sub.sub.foo2.com?
Получается нужно для каждого запроса клиента искать нечто свое..
Откуда прокси будет знать что спрашивать у rbl сервера?
Когда foo.com, когда sub.foo.com, а когда foo.com/dir/file?
Да, режик берет данные с винта, но берет весь список сразу.
Если работать через rbl сервер, то на каждый незакешированный запрос клиента прокси должен посылать запрос на dns, принимать ответ, класть его к себе в базу, кешировать.
Короче разница в том, что с диска берется база целиком, а через rbl по одной штуке, по мере надобности.
Кроме того, что бы быстро искать по списку, его надо сначала привести к некому виду, отсортировать. При работе через rbl нужно будет производить сортировку при каждом незакешированном запросе.
Более того, схема может оказаться принципиально не работоспособна:
Например, в базе, на rbl сервере лежит список:
foo.com
foo1.com/dir
sub.foo2.com
клиент хочет перейти на страницу
a1.foo.com/dir/file
Какой должен быть запрос на rbl сервер? (foo.com?)
Потом идет на foo1.com/dir/beep
Какой запрос должен идти на rbl сервер ?
А если пойдет на sub.sub.foo2.com?
Получается нужно для каждого запроса клиента искать нечто свое..
Откуда прокси будет знать что спрашивать у rbl сервера?
Когда foo.com, когда sub.foo.com, а когда foo.com/dir/file?
Ну а если на сервере сделать обработку запроса:
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)
сервер возвращает нам:
или 'OK' - нет в базе
или ответ например такого вида:
BANNER
/adv/ban.php
или
BANNER
www.banner.com/adv/ban.php
то есть так,как лежит в базе
в кэш заносим соответственно вторую строку...
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)
сервер возвращает нам:
или 'OK' - нет в базе
или ответ например такого вида:
BANNER
/adv/ban.php
или
BANNER
www.banner.com/adv/ban.php
то есть так,как лежит в базе
в кэш заносим соответственно вторую строку...
не согласен! иной раз я определяю наличие открытого или запрещенного контента именно по параметрам после вопроса.zlsl писал(а): ...
- на сервер отправлеям весь url без параметров, то есть отбрасываем мусор после '?' (www.banner.com/adv/ban.php?id=5555 - отправляем www.banner.com/adv/ban.php)
Alexey