11.01.07

Расширение алфавита

Не так уж и давно, сразу после упрощения торговли иностранными товарами в России, широким потоком на прилавки магазинов ринулись диковинные для российского населения товары европейских и североамериканских марок. Даже и не просто марок, а раскрученных брендов. Попав на местную почву, иностранные бренды, записанные латиницей и читаемые покупателями где-нибудь в глубинке, превращались в странные сочетания звуков. Те сочетания имели одинаково мало общего как с оригинальным языком иностранным, так и с языком русским: всему виной то, что малознакомые с иноземным языком граждане читали сделанные латиницей надписи на ярких упаковках по каким-то своим правилам, а вовсе не так, как планировали создатели бренда.

С тех пор прошло достаточно времени, и теперь не то чтобы граждане языки подучили, но хотя бы местные, вполне по-русски написанные, марки-бренды появились, да и иностранные теперь тоже записывают русским алфавитом - кириллическим. Читать их любо-дорого - иноземные правила в процесс не вмешиваются и не мешают.

Интернет пришел в Россию чуть позже названий товарных знаков, собранных из латинских букв, но адреса тут по-прежнему записывают латиницей. Более того, ситуация с господством чужеродного латинского алфавита в адресных строках браузеров вовсе не российская особенность, а общемировая. Интернет как придумали в США, так и поныне адреса сайтов - имена доменов – сохраняют исключительно латинские буквы. Наполнение глобальной Сети давно стало мультиязычным, и интернет-сайты с текстами в родном алфавите есть во всяком национальном домене, а вот с адресами - не задалось: латиница господствует, заставляя писать duma.gov.ru вместо "дума.правительство.рф".

Вопрос интернационализации написания адресов многонационального Интернета вовсе не так нов, как это может показаться. Например, рабочая группа по доменным именам на национальных языках (IDN - Internationalized Domain Name) появилась внутри IETF (Internet Engeniging Task Force) еще в 1999-ом году. Но процесс внедрения дополнительных символов в практику оказался непростым и совсем не быстрым.

До недавнего времени система доменных имен (DNS) в качестве составляющих символов в доменных именах допускала лишь буквы латинского алфавита, десять арабских цифр и знак дефиса. Это невеликое разнообразие кодируется в соответствии с весьма старой таблицей символов ASCII. Причём такая ситуация остаётся неизменной с 80-х годов двадцатого века, несмотря на колоссальные развитие самого Интернета. "Интернационализация" доменных имен подразумевает, что в их состав допустят символы национальных алфавитов. Например, позволят писать "мягкий знак" или букву "Ы" - ведь кириллический русский алфавит богаче латинского английского.

Неповоротливость ответственных структур в плане принятия дополнительных алфавитов для системы адресации Интернета объясняется тем, что важнейшие технологии, обеспечивающие функционирование Сети в целом, не должны вести себя наподобие флюгера, раскачиваясь из стороны в сторону на переменчивом ветру идей. Здесь, напротив, требуется высокая стабильность курса. Добиться стабильности пытаются обстоятельной выработкой стандартов.

Для того чтобы сохранить работоспособность существующей системы доменных имён, адреса, содержащие национальные алфавитные символы, необходимо перекодировать в общую для всей системы адресации форму. Из всего многообразия компьютерных представлений национальных алфавитов в 2003-ем году рабочая группа IETF IDN выбрала универсальную кодировку UTF-8, из которой доменные имена будут определённым образом преобразовываться в последовательности ASCII-символов. Такое решение позволяет добиться независимости от операционных систем, используемых на стороне клиента, и при этом соответствует требованиям уже существующей системы DNS. Важно заметить, что появление "интернациональных доменных имен" никак не отменяет существующих протоколов работы DNS: внутри неё все так и останется в символах ASCII, мультиязычность же как бы добавляется сверху.

Для того чтобы набранное с использованием символов национального алфавита доменное имя превратилось в последовательность ASCII-символов, допустимых для обозначения адресов внутри действующей системы DNS, на компьютере клиента должно быть установлено специальное программное обеспечение, реализующее такое преобразование. Скорее всего, это будет плагин к браузеру. Более того, дополнительное программное обеспечение потребуется, к примеру, регистраторам доменов - для того, чтобы корректно преобразовывать содержимое заявок, поступающих от клиентов.

Стандарт этих преобразований, предложенный рабочей группой IETF IDN, описывает, какие национальные символы из таблиц UTF-8 допускаются в имена доменов, как эти символы перекодируются в ASCII и как операционные системы (и другие приложения) должны обрабатывать домены из "интернационального пространства". В 2003-ем году предложенный стандарт прошёл окончательное утверждение ICANN. Казалось бы, все препятствия исчерпаны. Но на деле всё вышло сложнее.

Если рассматривать вопрос формально, то добавление национальных символов в имена доменов - это всего лишь расширение "списка" допустимых знаков. И сперва может показаться, что никаких новых неприятностей, кроме решения чисто технических, инженерных проблем, такое расширение не таит. Так и считали, когда только придумывали стандарты. Но реальность оказалась иной.

Дело в недобросовестных персонажах, коих в достатке имеется на просторах Интернета. Предположим, что у какой-нибудь страховой компании давно зарегистрировано доменное имя foodoo.ru. Компания размещает под этим именем свой сайт, где расположена автоматизированная система взаимодействия с клиентом. Теперь допустим, что началась регистрация доменов на русском языке, без всяких ограничений, а значит, злоумышленнику ничего не мешает, зарегистрировав домен foodoo.ru, где латинские буквы "О" заменены кириллическими, создать совершенный клон сайта страховой компании.

И правда, начертание буквы "О" ничуть не отличается в латинском и русском кириллическом случаях, поэтому пользователь подмены не заметит, а для компьютера два адреса (с кириллицей и латиницей) будут разными адресами. Мошенникам остаётся теперь только скопировать содержимое настоящего сайта на поддельный, и вот они уже могут объявить, разослав доверчивым пользователям электронные письма, о "закрытии" страховой компании и передаче дел конкурирующему страховщику. А могут эти самые злоумышленники и чего-нибудь оригинальнее придумать. (Мошенничество подобного рода, с подменой адресов, называют "фишингом".)

При этом, в плане внешнего вида, легко перепутать не только буквы "О". Например, вместо IBM.COM можно зарегистрировать IВM.COM, где кириллическая "В" заменяет латинскую "B" или кириллическая "М" латинскую "M". Чувствуете путаницу? Где там настоящая буква?

Проблема "подделки" адресов, с использованием смешанного написания, возникла, например, в доменной зоне .COM, вызвав определенные неприятности. Впрочем, в случае с родным нам доменом RU подобных проблем просто нет, потому что, учтя печальный опыт других доменных зон, такие проблемы заранее победили организационными мерами. А именно, специальными правилами регистрации кириллических доменных имен в домене RU.

Так, вместе с открытием регистрации доменов с кириллическим написанием, Координационный центр домена RU решил ввести следующие меры: во-первых, запрещается регистрация доменных имён, содержащих одновременно буквы разных алфавитов; во-вторых, прежде чем открыть свободную регистрацию доменов с именами в русском алфавите, откроют период приоритетной регистрации доменов для тех лиц, которые владеют соответствующими товарными знаками.

Впрочем, несмотря на все трудности, национальные доменные имена остановить не удастся, что бы там не придумывали противники мультиязычности. Microsoft уже объявила о полной поддержке новым Internet Explorer 7.0 национальных алфавитных символов в адресах сайтов. Известная компания VeriSign уже регистрирует русскоязычные домены в зонах COM и NET, с русскоязычной адресацией можно отчасти ознакомиться, набрав адрес www.россия.net. В домене ORG сейчас поддерживается свыше десяти национальных алфавитов (например, немецкий, датский), в доменах COM и NET более ста регистраторов поддерживают имена доменов на национальных языках.

Правда, на волне интереса к "интернациональности" системы адресации, воспользовавшись медлительностью "официального" Интернета, некоторые "джентельмены удачи" уже успели построить альтернативные русскоязычные домены первого уровня (РУ, КОМ, НЕТ, ОРГ), поддерживая их своими силами, через специальные плагины к браузерам и дополнительную "систему DNS". Выдача адресов в подобных оазисах "независимости" вряд ли может рассматриваться как деятельность, помогающая развитию мультиязычной системы адресации.

Более того, основной регулирующий орган Интернета - ICANN - пока не намерен изменять правила набора адресов доменов верхнего уровня. Несмотря на то что замена RU на РУ или - еще лучше - РФ, представляется очень эргономичным решением (не потребуется переключение раскладки клавиатуры при наборе адреса), ICANN настаивает на латинском написании доменов верхнего уровня. Возможно, после того как национальные алфавиты завоюют широкое распространение, ICANN и пересмотрит свою позицию, но вряд ли этого стоит ожидать в ближайшее время.

Но уже и написание "индивидуальной" части адреса по-русски сильно облегчит, скажем, процесс диктовки адреса по телефону. Не надо будет долго и нудно называть далёкому от английского языка клиенту на том конце провода буквы: "Эн, эй, эс, эйч...", - уточняя: "Да, да, "Эс" - как доллар". Окажется достаточно просто сказать: "НашаКомпания.ru".