Страница 1 из 1

Кириллица в url

Добавлено: Пт июл 19, 2013 9:34
infd
Добавляю url, часть которого содержит кириллицу. Скачиваю лист через Update.Fast, распаковываю, вижу непонятно что

Код: Выделить всё

% less jobsearch.urls 
<CD><CF><D1> <D2><C5><CB><CC><C1><CD><C1>
Куска url с латиницей нет, кодировка неизвестна.

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 7:43
Slava
Вы видите текст на русском языке в utf8, который некорректно показывается Вашим терминалом.

PS: прошу прощения за долгий ответ - только что вернулся из отпуска.

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 8:47
infd

Код: Выделить всё

% locale                                                                                  /home/infd
LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC=ru_RU.UTF-8
LC_TIME=ru_RU.UTF-8
LC_COLLATE="en_US.UTF-8"
LC_MONETARY=ru_RU.UTF-8
LC_MESSAGES="en_US.UTF-8"
LC_PAPER=ru_RU.UTF-8
LC_NAME=ru_RU.UTF-8
LC_ADDRESS=ru_RU.UTF-8
LC_TELEPHONE=ru_RU.UTF-8
LC_MEASUREMENT=ru_RU.UTF-8
LC_IDENTIFICATION=ru_RU.UTF-8
LC_ALL=
Это врядли.

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 9:06
Slava
Да, Вы правы, не в utf:

tail jobsearch.urls |iconv -f koi8-r
zarplataplus.ru
zebrastudia.com
zerih.chat.ru
zlatwork.ru
zonc.ru
ztrabota.org.ua
Работа
Работа на Яндекс
Работа в вологде
Работа в Ставрополе

Кстати, в urls добавлять текст на русском смысла нет, туда можно добавлять только урлы.
Подобное можно добавить в pcre, но я против блокировок по таким комбинациям, они вызывают большое количество ложных срабатываний.
Для эксперимента, Вы можете добавить эти правила локально у себя на сервере и протестировать, к чему это приведет.

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 9:43
infd
в urls добавлять текст на русском смысла нет, туда можно добавлять только урлы.
А я и добавляю url, c некоторых пор он может быть полностью на кириллице. В моем тестовом случае, он на кириллице только наполовину.

Код: Выделить всё

http://www.moyareklama.ru/Белгород/работа_вакансии/

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 9:45
infd
Slava писал(а): Для эксперимента, Вы можете добавить эти правила локально у себя на сервере и протестировать, к чему это приведет.
Я планирую использовать dbl не в squid, а распарсить эти списки в другой формат и скормить другому прокси.

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 9:59
Slava
Такое правило не вызовет ложных сработок, вполне допустимо использовать.

Посмотрите содержимое скрипта dbl_expand, там есть строчка:
$converter = Text::Iconv->new("UTF-8","koi8-r"); #or windows-1251

Записи в dbl файле хранятся в кодировке UTF-8.
Эта строка прописывает конвертр из UTF-8 в koi8-r.
Вы можете заменить koi8-r на нужную Вам кодировку, например на ту же UTF-8.
infd писал(а):
в urls добавлять текст на русском смысла нет, туда можно добавлять только урлы.
А я и добавляю url, c некоторых пор он может быть полностью на кириллице. В моем тестовом случае, он на кириллице только наполовину.

Код: Выделить всё

http://www.moyareklama.ru/Белгород/работа_вакансии/

Re: Кириллица в url

Добавлено: Пн июл 29, 2013 10:38
infd
Спасибо.