идея - (полу)автоматический поиск новых кандидатов в DBL
идея - (полу)автоматический поиск новых кандидатов в DBL
идея, в плане мозгового штурма
только что настраивал на новом серваке Режика с DBL, надо было проверить эффективность работы. вбил в гугл "голые девки" и прошелся по выдаче. на первой странице - 9 банов(1 ссылка про гаджеты) , на второй - 9 банов и 1 ссылка с искомым . внес в лист и подумал - надо поставить себя с другой стороны баррикады, и попробовать проломать систему.
итоги
на гугле:
"порево" - 3я страница, ссылка не внесена, 29 - в бане
"мокрые киски" - 2я страница, ссылка не внесена, 19 - в бане
на яндексе:
"порево" - 17я ссылка не внесена
"мокрые киски" - 36я ссылка не внесена
получается, что если гадкий юзер захочет залезть на запрещенный ресурс, он это сделает. но не сразу, а через 20-40 секунд, пока переберет заблоченные.
- а что если сделать список слов, по которым народ ищет (для примера) порево и прогонять несколько страниц выдачи гугла, яндекса и прочих поисковиков по данным ключевым словам на попадание в DBL.
imho 99% оставшегося (чего еще не было в DBL) после этого можно будет сразу добавлять. предварительно конечно надо чтоб живой человек посмотрел, на всяк случай.
если уж веб-мастер позаботился чтоб сайт хорошо находился по словам "голые девки" - вряд ли там будет что-то иное.... таким образом их достоинство мы обратим в их уязвимость
гонять эту всю систему по ночам, когда траффика поменьше и серваки не так нагружены юзерами.
если уже было, или если я "капитан очевидность" - просьба сильно не ругаццо
только что настраивал на новом серваке Режика с DBL, надо было проверить эффективность работы. вбил в гугл "голые девки" и прошелся по выдаче. на первой странице - 9 банов(1 ссылка про гаджеты) , на второй - 9 банов и 1 ссылка с искомым . внес в лист и подумал - надо поставить себя с другой стороны баррикады, и попробовать проломать систему.
итоги
на гугле:
"порево" - 3я страница, ссылка не внесена, 29 - в бане
"мокрые киски" - 2я страница, ссылка не внесена, 19 - в бане
на яндексе:
"порево" - 17я ссылка не внесена
"мокрые киски" - 36я ссылка не внесена
получается, что если гадкий юзер захочет залезть на запрещенный ресурс, он это сделает. но не сразу, а через 20-40 секунд, пока переберет заблоченные.
- а что если сделать список слов, по которым народ ищет (для примера) порево и прогонять несколько страниц выдачи гугла, яндекса и прочих поисковиков по данным ключевым словам на попадание в DBL.
imho 99% оставшегося (чего еще не было в DBL) после этого можно будет сразу добавлять. предварительно конечно надо чтоб живой человек посмотрел, на всяк случай.
если уж веб-мастер позаботился чтоб сайт хорошо находился по словам "голые девки" - вряд ли там будет что-то иное.... таким образом их достоинство мы обратим в их уязвимость
гонять эту всю систему по ночам, когда траффика поменьше и серваки не так нагружены юзерами.
если уже было, или если я "капитан очевидность" - просьба сильно не ругаццо
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Идея интересная!
Автоматом добавлять я бы не стал, а вот список правил для проверки вполне можно пополнять таким способом.
Нужно только собрать список слов, по которым ищут.
Автоматом добавлять я бы не стал, а вот список правил для проверки вполне можно пополнять таким способом.
Нужно только собрать список слов, по которым ищут.
-
- Сообщения: 5
- Зарегистрирован: Ср дек 15, 2010 1:26
- Откуда: Вологда
- Контактная информация:
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Если речь о порно, то искать лучше не в гугле, а в яндекс.картинках. половину сайтов, которые он там находит по запросу порно режик не блокирует.
Ещё было бы неплохо в DBL добавить porno.pcre, тогда в поисковиках будут резаться запросы с плохими словами. У себя сделал небольшой список таких слов, могу поделиться.
Ещё было бы неплохо в DBL добавить porno.pcre, тогда в поисковиках будут резаться запросы с плохими словами. У себя сделал небольшой список таких слов, могу поделиться.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Ни в первый раз уже сталкиваюсь с желанием добавить pcre к группе порно но, к сожалению, нормальных правил не встречал, придумать сложно.sidelnikov писал(а): Ещё было бы неплохо в DBL добавить porno.pcre, тогда в поисковиках будут резаться запросы с плохими словами. У себя сделал небольшой список таких слов, могу поделиться.
Простейшие, типа: sex,porno,adult - вызывают ложные сработки, правила посложней редко срабатывают.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
https://spreadsheets.google.com/ccc?key ... y=CJGZ4PsP
там оформил подборку про порево
принцип надеюсь ясен
будет время - подумаю про варез и торренты.
добавления постить сюда или в личку.
там оформил подборку про порево
принцип надеюсь ясен
будет время - подумаю про варез и торренты.
добавления постить сюда или в личку.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Спасибо, но я не дождался, придумал свой список.
Сейчас идет процесс поиска по этим словам. Идет не очень быстро, так как поисковики сопротивляются подобным роботам.
Думаю дня три точно ещё будет скрипт работать.
Пока найдено около 7000 новых сайтов (которых нет в дбл), но среди них много легальных.
Так что добавлять буду в DBL как не проверенные.
Сейчас идет процесс поиска по этим словам. Идет не очень быстро, так как поисковики сопротивляются подобным роботам.
Думаю дня три точно ещё будет скрипт работать.
Пока найдено около 7000 новых сайтов (которых нет в дбл), но среди них много легальных.
Так что добавлять буду в DBL как не проверенные.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
да, иногда попадаются и нормальные.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Добавил 25586 правил для проверки в porno.urls
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
кул. все в автоматическом режиме? или ручками проверял на адекватность выдачи?
а что по остальным темам?
предлагаю пройтись по "знакомства", "варез",
аудио-видео и прочее
надо думать про ключевые слова?
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Полный автомат.
Вручную я такое количество не осилил бы.
Далее дело за сообществом - проверка этих правил.
Да, нужны ключевые слова.
Лучше всего найти несколько дорвеев на заданную тематику, там в качестве поискового спама все нужные ключевые слова.
Вручную я такое количество не осилил бы.
Далее дело за сообществом - проверка этих правил.
Да, нужны ключевые слова.
Лучше всего найти несколько дорвеев на заданную тематику, там в качестве поискового спама все нужные ключевые слова.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
imho полный автомат это очень плохо.
надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.
надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
Эти новые правила добавлены как непроверенные.oster писал(а):imho полный автомат это очень плохо.
надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.
Пока их кто-нибудь не проверит - они не появятся в бан листах.
Можно хоть яндекс так добавить, ничего плохого не будет.
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
судя по сохраняющемуся разрыву в 24 тыс правил между (всего правил) / (проверенных или добавленных правил), народ фишку не просек. повторюсь - imho надо рассылку что-ли сделать, чтоб народ оперативно прочекал список новый.
и по той же схеме пройтись по музыке-видео. а то заманали ушастые, глаз да глаз нужен....
и по той же схеме пройтись по музыке-видео. а то заманали ушастые, глаз да глаз нужен....
Re: идея - (полу)автоматический поиск новых кандидатов в DBL
проверил очередные 100 записей, появились идеи как ускорить процесс - viewtopic.php?f=3&t=926