Страница 1 из 1

идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Пн дек 20, 2010 6:19
oster
идея, в плане мозгового штурма

только что настраивал на новом серваке Режика с DBL, надо было проверить эффективность работы. вбил в гугл "голые девки" и прошелся по выдаче. на первой странице - 9 банов(1 ссылка про гаджеты) , на второй - 9 банов и 1 ссылка с искомым :). внес в лист и подумал - надо поставить себя с другой стороны баррикады, и попробовать проломать систему.
итоги
на гугле:
"порево" - 3я страница, ссылка не внесена, 29 - в бане
"мокрые киски" - 2я страница, ссылка не внесена, 19 - в бане
на яндексе:
"порево" - 17я ссылка не внесена
"мокрые киски" - 36я ссылка не внесена

получается, что если гадкий юзер захочет залезть на запрещенный ресурс, он это сделает. но не сразу, а через 20-40 секунд, пока переберет заблоченные.

- а что если сделать список слов, по которым народ ищет (для примера) порево и прогонять несколько страниц выдачи гугла, яндекса и прочих поисковиков по данным ключевым словам на попадание в DBL.
imho 99% оставшегося (чего еще не было в DBL) после этого можно будет сразу добавлять. предварительно конечно надо чтоб живой человек посмотрел, на всяк случай.
если уж веб-мастер позаботился чтоб сайт хорошо находился по словам "голые девки" - вряд ли там будет что-то иное.... таким образом их достоинство мы обратим в их уязвимость :)

гонять эту всю систему по ночам, когда траффика поменьше и серваки не так нагружены юзерами.

если уже было, или если я "капитан очевидность" - просьба сильно не ругаццо :)

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Пн дек 20, 2010 9:22
Slava
Идея интересная!
Автоматом добавлять я бы не стал, а вот список правил для проверки вполне можно пополнять таким способом.
Нужно только собрать список слов, по которым ищут.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Пн дек 20, 2010 15:45
sidelnikov
Если речь о порно, то искать лучше не в гугле, а в яндекс.картинках. половину сайтов, которые он там находит по запросу порно режик не блокирует.
Ещё было бы неплохо в DBL добавить porno.pcre, тогда в поисковиках будут резаться запросы с плохими словами. У себя сделал небольшой список таких слов, могу поделиться.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Пн дек 20, 2010 15:59
Slava
sidelnikov писал(а): Ещё было бы неплохо в DBL добавить porno.pcre, тогда в поисковиках будут резаться запросы с плохими словами. У себя сделал небольшой список таких слов, могу поделиться.
Ни в первый раз уже сталкиваюсь с желанием добавить pcre к группе порно но, к сожалению, нормальных правил не встречал, придумать сложно.
Простейшие, типа: sex,porno,adult - вызывают ложные сработки, правила посложней редко срабатывают.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср дек 22, 2010 0:49
oster
https://spreadsheets.google.com/ccc?key ... y=CJGZ4PsP

там оформил подборку про порево
принцип надеюсь ясен
будет время - подумаю про варез и торренты.
добавления постить сюда или в личку.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср дек 22, 2010 8:53
Slava
Спасибо, но я не дождался, придумал свой список.
Сейчас идет процесс поиска по этим словам. Идет не очень быстро, так как поисковики сопротивляются подобным роботам.
Думаю дня три точно ещё будет скрипт работать.
Пока найдено около 7000 новых сайтов (которых нет в дбл), но среди них много легальных.
Так что добавлять буду в DBL как не проверенные.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср дек 22, 2010 12:00
oster
:?

да, иногда попадаются и нормальные.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Вт дек 28, 2010 13:49
Slava
Добавил 25586 правил для проверки в porno.urls

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Вт дек 28, 2010 14:55
oster
:twisted:
кул. все в автоматическом режиме? или ручками проверял на адекватность выдачи?


а что по остальным темам?
предлагаю пройтись по "знакомства", "варез",
аудио-видео и прочее
надо думать про ключевые слова?

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Вт дек 28, 2010 15:12
Slava
Полный автомат.
Вручную я такое количество не осилил бы.
Далее дело за сообществом - проверка этих правил.

Да, нужны ключевые слова.
Лучше всего найти несколько дорвеев на заданную тематику, там в качестве поискового спама все нужные ключевые слова.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср дек 29, 2010 18:53
oster
imho полный автомат это очень плохо.
надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср дек 29, 2010 20:25
Slava
oster писал(а):imho полный автомат это очень плохо.
надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.
Эти новые правила добавлены как непроверенные.
Пока их кто-нибудь не проверит - они не появятся в бан листах.
Можно хоть яндекс так добавить, ничего плохого не будет.

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср фев 09, 2011 21:18
oster
судя по сохраняющемуся разрыву в 24 тыс правил между (всего правил) / (проверенных или добавленных правил), народ фишку не просек. повторюсь - imho надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.

и по той же схеме пройтись по музыке-видео. а то заманали ушастые, глаз да глаз нужен....

Re: идея - (полу)автоматический поиск новых кандидатов в DBL

Добавлено: Ср фев 09, 2011 22:37
oster
проверил очередные 100 записей, появились идеи как ускорить процесс - viewtopic.php?f=3&t=926