КООРДИНАЦИОННЫЙ ЦЕНТР НАЦИОНАЛЬНОГО ДОМЕНА СЕТИ ИНТЕРНЕТ
Индекс документаRU-15
Редакция11.06.2004
Утвержден решениемП5-3.1/04 29.06.2004
Дата начала действия документа30.06.04
Статус документаИнформационный
Отменен (изменен) решением
Дата окончания действия
1. Система доменных имен (DNS) сформировалась вместе с самой сетью Интернет в 80-е годы. Поскольку первоначально сеть возникла и развивалась на территории США, сложившийся набор допустимых символов в доменных именах был ограничен латинским алфавитом (а также символами цифр и дефисом).
Такое ограничение не было обременительным даже с выходом Интернета за пределы США, поскольку знание английского языка являлось практически профессиональным навыком для специалистов в области информационных технологий. Ситуация стала меняться с превращением Интернета из научно-технического инструмента в средство ведения бизнеса, с приходом в Интернет широкого круга непрофессиональных пользователей.
Наибольший интерес к расширению набора символов проявлялся в странах Юго-Восточной Азии и Дальнего Востока. Стремление ряда пользователей к использованию национальных алфавитов было настолько велико, что появились даже альтернативные (неофициальные) системы корневых серверов, поддерживающие такие алфавиты.
К концу 90-х годов обсуждение путей расширения набора символов стало предметом профессиональной дискуссии, и в 2003 году IETF (Internet Engineering Task Force, Группа по проблемам проектирования Интернета - основной орган стандартизации в сети Интернет) утвердила соответствующие технические стандарты. [1]
2. Ключевым принципом, положенным в основу технического решения, является сохранение неизменным базового уровня системы доменных имен: серверы DNS по-прежнему «понимают» лишь символы латинского алфавита. Все преобразования нелатинских символов в символы базового набора осуществляются программами, работающими на компьютере пользователя. Для того чтобы результат такого преобразования не мог случайно совпасть с существующим «латинским» доменным именем, для представлений нелатинских имен резервируются доменные имена, начинающиеся со специальной последовательности символов («xn--»).
Выбранное техническое решение приводит к тому, что все средства для функционирования нелатинских доменов реализуются в пользовательском программном обеспечении. Наиболее очевидными примерами требующего доработки ПО являются браузеры. Поддержка нелатинских доменов обеспечивается практически во всех распространенных браузерах, а для наиболее распространенного браузера - Microsoft Internet Explorer - имеется даже несколько вариантов необходимых расширений (плагинов).
3. Как следует из изложенного выше, с технической точки зрения использование кириллицы в доменных именах не представляет существенной проблемы. Однако целый ряд трудностей возникает из-за графического сходства многих русских и латинских букв. Эти проблемы по понятным причинам несвойственны языкам с латинской графикой и восточным языкам.
Между тем, при допущении совместного использования русских и латинских букв тексту «microsoft» может соответствовать примерно сотня различных символьных последовательностей. Отсутствие однозначного соответствия между именем домена (внутренним представлением) и его графическим изображением требует решения.
4. Проблема смешения доменных имен известна достаточно давно, поскольку в ограниченном масштабе присутствует и в латинской графике (сходство буквы «O» и цифры «0»; строчной буквы «l», заглавной буквы «I» и цифры «1»). В то же время реальный риск смешения для латинской графики достаточно низок, так как в большинстве компьютерных шрифтов предпринимаются меры, направленные на повышение различимости сходных символов. Несмотря на это, попытки использования этих совпадений имеются - для очень многих популярных доменов существуют зарегистрированные «двойники» с заменами «i» на «1» и т. д.
Так, наряду с широко известным доменом microsoft.com зарегистрированы доменные имена: m1crosoft.com, mlcrosoft.com, micr0soft.com, m1cr0soft.com, micros0ft.com, m1cros0ft.com, mlcros0ft.com, micr0s0ft.com, m1cr0s0ft.com, mlcr0s0ft.com [2] - причем только одно из них принадлежит держателю «оригинального» домена.
В связи с введением в доменные имена символов кириллицы в домене верхнего уровня COM риск смешения существенно возрастает, что уже отмечалось рядом авторов [3]. Например, в отличие от вышеописанных случаев сходства отдельных символов, графические изображения латинской и русской букв «а» абсолютно идентичны в большинстве компьютерных шрифтов.
Несмотря на существенно большую вероятность смешения, количество реально зарегистрированных кириллических двойников популярных доменов пока сравнительно невелико - так, в продолжение предыдущего примера авторам удалось обнаружить лишь один домен microsoft.com (выделенный символ «о» - кириллический). Это можно объяснить относительно низкой эффективностью использования таких подделок в настоящее время: во-первых, пока невелико количество пользователей, которые установили программное обеспечение для работы с многоязычными доменами, во-вторых, даже у этих пользователей операционная система может не поддерживать символы кириллицы.
5. Все проблемы, связанные со смешением доменных имен, можно разделить на две группы - умышленное введение в заблуждение и случайное смешение.
6. Проблема умышленного введения в заблуждения возникает при использовании «автоматизированных» ссылок. Нажимая на ссылку, пользователь оказывается совсем не на той странице, где он ожидал оказаться. Именно для реализации таких сценариев регистрируется в настоящее время основная масса упоминавшихся выше латинских доменов-двойников.
Подобные подмены создают серьезные угрозы безопасности. Не замечающий разночтения пользователь, получивший письмо якобы от службы технической поддержки производителя операционной системы, собственными руками скачает и установит вредоносную программу (вирус), полагая, что он скачал пакет исправлений с сайта производителя.
В целом проблема умышленного смешения в домене RU не повышает существенно уровень риска и не изменяет принципиально ситуацию, возникшую с введением символов кириллицы в домены COM, NET, ORG.
7. В отличие от проблемы умышленного смешения, в определенной степени исследованной, проблема случайного совпадения возникает лишь с введением кириллицы. Эта проблема будет усугубляться еще и тем, что в домене RU достаточно частой практикой была регистрация «латинских» имен, графически совпадающих с русскими словами. В отличие от случаев умышленного смешения, проявляющейся в «автоматизированных» ссылках, случайные совпадения существенны при ручном вводе ссылок и при их изображении в «офлайновой» рекламе, на визитных карточках и т. д.
В настоящее время около 5% доменных имен в домене RU состоят исключительно из букв, которые встречаются одновременно и в латинском, и в русском алфавите - т. е. являются потенциальным источником путаницы.
8. Проблема различения графически сходных русских и латинских букв усугубляется тем, что оно может присутствовать только для заглавных или для строчных букв; кроме того, в ряде случаев сходство присутствует лишь в некоторых начертаниях (преимущественно курсивных).
Возможные сопоставления между русскими и латинскими буквами приведены в таблице [4]:
Заглавные буквы Строчные буквы Заглавные буквы Строчные буквы Заглавные буквы Строчные буквы Рус. Лат. Рус. Лат. Рус. Лат. Рус. Лат. Рус. Лат. Рус. Лат. А A а a К K к k * Х X х x Б б Л л Ц ц В B в b * М M м Ч ч r * Г г Н H н Ш ш Д д g * О O о o Щ щ Е E е e П п n ** Ъ ъ Ё ё Р P р p Ы ы Ж ж С C с c Ь ь З з Т T т m ** Э э И U ** и u ** У Y * у y Ю ю Й й Ф ф Я я
* сходство русского и латинского символа встречается относительно редко (в некоторых акцидентных шрифтах).
** сходство русской и латинской буквы типично для курсивных начертаний.
9. На первый взгляд, наиболее простым средством ликвидации неоднозначности было бы решение, основанное на преобразовании сходных букв в фиксированный алфавит (например, в латинский).
Однако наличие большого числа случаев «частичного» совпадения букв (только в одном регистре) делает невозможным создание разумных правил преобразования похожих букв. Ведь такие правила легко устанавливаются для букв «а» или «с», но оказываются неочевидными и неудобными, например, для русской буквы «Н» (идентична соответствующей латинской заглавной букве, но не имеет строчного аналога). Для русской буквы «Т» ситуация оказывается тупиковой: заглавная буква имеет один очевидный аналог, а строчная буква в традиционном курсивном начертании («m») - другой.
Но с учетом того, что одним из принципов DNS традиционно являлась «нечувствительность» к регистру, правила преобразования должны быть одинаковы для заглавных и строчных букв. Таким образом, можно констатировать, что решение, основанное на принудительном истолковании отдельных символов, оказывается нереализуемым.
10. Другим простым решением представляется распознавание алфавита доменного имени на основании содержащихся в нем характерных букв (например, имя «microsoft» может содержать только латинские «с» и «о», поскольку в нем содержится буква «f»). Однако и такое решение оказывается плохо реализуемым из-за того, что «безусловно русские» или «безусловно латинские» буквы в одном регистре оказываются неразличимыми в другом (например, доменное имя «тот» легко интерпретируется как русское, и можно составить правила, позволяющие сделать вывод об алфавите, к которому относится буква «о»; однако это же имя, записанное в верхнем регистре - «ТОТ», оказывается не интерпретируемым однозначно).
11. Альтернативой принудительной интерпретации букв является ограничение на использование «неоднозначных» букв русского алфавита (например, «о» - обязательно латинская и т. д.). Но при исключении смешения символов в любом регистре из всего русского алфавита могут использоваться лишь 17 букв. При этом допустимый набор символов оказывается практически неприемлемым, так как написание многих слов в «естественном» виде окажется невозможным - а это является главной задачей введения кириллицы в доменные имена. Например, доменное имя, изображающее слово «пример» придется записывать как «nрumер», что вряд ли можно считать удобным.
12. Поскольку разумного решения для «самодостаточной» интерпретации доменного имени не существует, встает вопрос о явном указании используемого в доменном имени алфавита. Естественно, такое решение предполагает, что в доменном имени используются символы лишь одного алфавита. Формально указание на язык может иметь, например, такой вид: «pay.ru (рус.)».
Понятно, что такая форма не вполне удобна, более простым и читабельным оказывается включение указания на язык в форме специфического изменения записи доменного имени верхнего уровня («.ru»); технические аспекты такого изменения рассматриваются далее. Наиболее очевидным было бы использование уже устоявшегося в средствах массовой информации обозначения «.ру». Однако это является не вполне корректным с точки зрения возможной путаницы с уже существующим доменом Республики Парагвай, который также пишется как «.py» (но латинскими буквами) [5].
В связи с этим предпочтительным вариантом было бы использование обозначения «.рф». Наличие характерной буквы «ф» позволяет исключить графическое совпадение ссылок, содержащих символы кириллицы, с «латинскими» ссылками.
Следует отметить, что использование кириллического обозначения для домена верхнего уровня имеет и эргономическое обоснование, поскольку избавляет пользователей от необходимости переключения регистров - в отличие от языков с латинской графикой, где дополнительные буквы расположены вместо редко используемых спецзнаков, буквы русского языка могут быть размещены только как дополнительный регистр клавиатуры.
13. Использование специфического написания домена верхнего уровня в качестве признака кириллического доменного имени сопряжено с рядом проблем. В отличие от доменов второго уровня, правила для которых могут устанавливаться национальным администратором самостоятельно и независимо, вопросы доменов верхнего уровня решаются органами мировой координации сети Интернет в рамках единых принципов и стандартов.
Прежде всего, следует отметить, что вряд ли может быть признано допустимым решение, основанное на создании нового домена верхнего уровня (получающегося преобразованием «рф» в латиницу по общим правилам перекодировки доменных имен), даже при условии совпадения серверов DNS для этого домена и домена RU. Это связано с тем, что некоторые протоколы сети Интернет (в частности, http) предусматривают передачу адреса адресуемому ресурсу. Это означает, что www-сервер может анализировать адрес, по которому к нему обратились и демонстрировать различное содержание в зависимости от адреса (например, владелец домена «тест.ru» может организовать сервер так, что www-страницы с адресами «http://www.тест.рф» и «http://www. тест.ru» будут разными). Таким образом, такой домен верхнего уровня окажется практически полноценным самостоятельным доменом.
14. Оптимальным было бы решение, при котором преобразование «.рф» в «.ru» выполнялось бы теми же программными средствами, которые осуществляют преобразование из кириллицы домена второго уровня. Однако для единообразного выполнения этой функции всеми программами соответствующий стандарт должен быть принят органами мировой координации сети Интернет - в противном случае может возникнуть нежелательный разнобой в обработке доменных адресов различными программами. Такой стандарт должен определять представления национальных доменов верхнего уровня на соответствующих национальных языках.
Однако следует учитывать, что подобный стандарт, даже если он и будет принят, будет разрабатываться в течение достаточно длительного времени.
15. В качестве промежуточного решения можно было бы рассмотреть ограничение регистрации доменных имен с символами кириллицы, разрешив такие имена только на третьем уровне в специально созданном домене второго уровня (например, «.рф.ru») - с тем, чтобы перевести эти домены на втором уровень после принятия стандарта. Но такое решение (фактически направленное на принудительную защиту от случайного смешения) вряд ли можно счесть целесообразным, поскольку эргономического эффекта оно не имеет, а о различимости имени владельцы доменов могут позаботиться самостоятельно.
16. Таким образом, предлагается разрешить регистрацию доменных имен второго уровня с символами кириллицы в домене RU, но установить, что имена не могут содержать одновременно буквы русского и латинского алфавитов. Для улучшения различимости доменных имен и повышения эргономичности их использования необходимо проводить работу над стандартом, устанавливающим представления обозначений национальных доменов на национальных языках, с тем, чтобы получить возможность использовать для домена RU дополнительное обозначение «.рф».
17. При введении символов кириллицы в доменные имена логично рассмотреть вопрос о включении в состав разрешенных символов букв и других алфавитов с кириллической основой, существующих на территории Российской Федерации. Принципиальных проблем при этом не возникает, так как буквы практически всех языков (за исключением нескольких языков, преимущественно относящихся к языкам малочисленных народов Севера [6] ) представлены в кодовых таблицах Unicode, на которых основаны стандарты преобразования в DNS.
В то же время представляется нецелесообразным расширение набора допустимых символов в отсутствие реальной потребности в них. Поэтому такое развитие должно происходить по мере поступления соответствующих обращений и на основе консультаций с лингвистами.
18. Нет никаких потенциальных препятствий и для возможности использования в домене RU алфавитов других народов России, имеющих некириллическую основу (немногочисленные языки с латинской графикой и идиш).
По мере возникновения реальной потребности возможно и расширение набора допустимых символов буквами языков, не представленных на территории России [7].
19. Выбор допустимого набора символов имеет и чисто «русский» аспект, связанный с использованием буквы «ё». Традиция и правила русской орфографии [8] ограничивают использование этой буквы букварями и ситуациями неоднозначности. В то же время ее написание во всех ситуациях не принято считать ошибкой, и такой привычкой обладает определенное количество людей.
То, что буква «ё» может быть заменена на «е», означает, что при ее исключении из числа допустимых символов теоретически снижается вероятность ошибок. Однако в ряде случаев отсутствие возможности явного написания буквы «ё» отрицательно скажется на читабельности имен; поэтому представляется целесообразным включить букву «ё» в состав допустимых символов, оставив решение вопроса о ее применении в каждом конкретном случае за регистрантами.
20. Таким образом, предлагается первоначально расширить набор допустимых символов в доменных именах буквами русского алфавита (включая «ё»). Дальнейшее расширение набора символов производить по мере возникновения реальной потребности в этом.
21. При использовании нелатинских доменных имен необходимо решить вопрос о допустимой длине имен. Действующее в настоящее время в домене RU ограничение на минимальную длину доменного имени (два символа) носит административный характер [9]. Внутреннее представление даже однобуквенного нелатинского имени уже будет состоять из шести символов. Тем не менее, представляется целесообразным сохранить требование минимальной длины в два символа и для кириллического представления. Это обусловлено теми же причинами, по которым такое ограничение введено для латинских доменных имен: свойство «редкости» неминуемо приведет к ажиотажному спросу, не имеющему под собой разумной основы.
Максимальная длина доменного имени ограничена техническими стандартами и составляет 63 символа. Однако для нелатинских имен это ограничение относится к внутреннему представлению; для внешнего представления это ограничение является переменным: в зависимости от состава использованных в имени знаков оно может составлять от 30 до 58 символов.
22. Таким образом, предлагается ограничить минимальную длину доменных имен с символами кириллицы двумя символами, а максимальную - техническим ограничением фактического внутреннего представления.
23. Чрезвычайно важным является вопрос организации начального периода регистрации доменов с символами кириллицы. Представляется необходимым снизить риски злоупотреблений путем предоставления специального периода (периода приоритетной регистрации), в течение которого регистрация доменных имен с символами кириллицы будет доступна только обладателям прав на соответствующие средства индивидуализации (товарные знаки и др.) на основании документов, подтверждающих эти права. Кроме того, заблаговременно, еще до начала периода приоритетной регистрации, должны быть определены резервируемые доменные имена, предназначенные для государственных, общественных и технических нужд.
24. Круг средств индивидуализации, дающих право на участие в приоритетной регистрации, должен быть установлен к началу периода. При этом необходимо учитывать, что разные средства индивидуализации могут иметь различный вес: например, товарный знак, возможно, обладает большим приоритетом по сравнению с наименованием фармакологической субстанции (INN).
Возможно существование и нескольких конкурирующих средств индивидуализации с равным весом: например, одинаковые товарные знаки по разным классам товаров.
25. Потенциальным источником сложностей являются графические (нетекстовые) товарные знаки, в которых, тем не менее, текстовый элемент является существенной частью. Для таких случаев принятие решения о допустимости приема заявки на доменное имя в период приоритетной регистрации неминуемо будет иметь оценочный характер.
В связи с этим правила периода приоритетной регистрации должны предусматривать механизмы обжалования решений регистратора.
26. Анализ правоустанавливающих документов, представляемых владельцами средств индивидуализации, в общем случае является достаточно сложной процедурой, включающей проверку подлинности представленных документов, их действительности на территории России, проверку полномочий заявителя (последнее часто оказывается особенно проблемным для иностранных компаний и их представителей).
27. Существование средств индивидуализации с различным весом означает, что решение по регистрации домена может быть принято лишь после истечения срока, отведенного для подачи заявок. Возможность существования нескольких заявок, основанных на средствах индивидуализации с равным наибольшим весом, требует определения принципа выбора. Представляется правильным для заявок с равным весом использовать стандартный механизм, основанный на времени подачи заявки (вообще говоря, существуют и иные варианты - аукцион, жеребьевка и т. д.).
28. Таким образом, предлагается установить период приоритетной регистрации, в течение которого возможность подачи заявки на регистрацию кириллических доменных имен будет предоставлена исключительно владельцам средств индивидуализации. Виды средств индивидуализации и их вес (приоритет) должны быть определены дополнительно. Конкурирующие заявки, относящиеся к средствам индивидуализации с одинаковым весом, обрабатываются в порядке времени поступления.
29. Проведение анализа правоустанавливающих документов, обеспечение механизма обжалования решений регистратора и другие специфические особенности периода приоритетной регистрации повлекут значительные издержки, которые должны восполняться за счет повышенного размера платежей за регистрацию в этот период.
30. Представляется целесообразным установить повышенные платежи и на первое время после открытия свободной регистрации кириллических доменов с тем, чтобы экономическими рычагами снизить потенциальный ажиотажный спрос на такие домены.
31. Таким образом, период запуска регистрации кириллических доменов включает: этап определения доменных имен, резервируемых для государственных, общественных и технических нужд; этап приема заявок для приоритетной регистрации - 2-4 месяца; длительность обусловлена необходимостью подготовки заявителями и проверки регистраторами правоустанавливающих документов, предоставлением заявителем времени на исправление документов и т. д.; этап обработки заявок - 1-2 месяца; на этом этапе завершается рассмотрение жалоб на отказы в приеме заявок и принимаются решения по заявкам; начальный этап свободной регистрации - 1-2 месяца, в течение которых стоимость регистрации кириллических доменов снижается до стандартной стоимости регистрации в домене RU.
С технической точки зрения введение доменных имен с символами кириллицы не является проблемой. Трудности, связанные со сходством ряда русских и латинских букв, имеют два аспекта: умышленное введение пользователя в заблуждение и случайное смешение. Однако проблема умышленного смешения возникла с введением символов кириллицы в мировых доменах COM, NET, ORG и расширение ее на домен RU практически не увеличивает ее масштабы. Разрешение проблемы случайного смешения достигалось бы введением дополнительного обозначения «.рф» для домена RU, однако это требует поддержки на уровне стандартов сети Интернет (что в принципе возможно, но требует времени). Кириллическое обозначение для домена RU решало бы и эргономическую задачу, облегчая пользователям набор адресов с символами кириллицы. В любом случае представляется необходимым запретить регистрацию доменных имен, содержащих одновременно буквы как кириллицы, так и латиницы.
Перед открытием свободной регистрации доменных имен с символами кириллицы необходим период приоритетной регистрации, в течение которого правом подачи заявок будут пользоваться только обладатели прав на средства индивидуализации; в связи с необходимостью большого объема дополнительных работ в этот период регистрационная плата должна быть повышенной. Повышенную плату целесообразно сохранить и на начальном этапе свободной регистрации, для снижения ажиотажного спроса.
Дальнейшее развитие многоязычных доменов может происходить в направлении включения поддержки языков народов Российской Федерации, а также и других языков.
[1] P. Faltstrom, P. Hoffman, A. Costello. Internationalizing Domain Names in Applications (IDNA). RFC 3490. March 2003.
[2] Здесь доменные имена намеренно приведены строчными буквами, так как при написании в верхнем регистре (полностью или частично) их различение действительно становится затруднительным: M1CROSOFT.COM, MlCROSOFT.COM, MICR0SOFT.COM, M1CR0SOFT.COM, MICROS0FT.COM, M1CROS0FT.COM, MlCROS0FT.COM, MICR0S0FT.COM, M1CR0S0FT.COM, MlCR0S0FT.COM.
[3] E. Gabrilovich, A. Gontmakher. "The Homograph Attack", Communications of the ACM, 45(2):128, February 2002 ( http://www.csl.sri.com/users/neumann/insiderisks.html#140)
[4] Таблица относится лишь к русскому алфавиту. Другие алфавиты на основе кириллицы содержат и иные буквы, сходные с латинскими («I», «S» и т. д.).
[5] Отметим, что регистрация доменных имен российскими пользователями в парагвайском домене осуществлялась, однако эта практика не получила широкого распространения - видимо, как из-за потенциальной путаницы (пользователь может воспринимать написание как опечатку), так и из-за технических сложностей при регистрации.
[6] По данным, приведенным на сайте http://peoples.org.ru/, кодировка стандарта Unicode в версии 3.2 не поддерживает (или не полностью поддерживает) следующие языки народов России: ительменский, карачаево-балкарский, кетский, мансийский, нивхский, селькупский, чукотский, эскимосский.
[7] Практика национальных доменов, внедряющих дополнительные символы в доменных именах, различна. Так, Норвегия (домен NO) ограничилась расширением множества допустимых символов теми буквами, которые используются в применяемых на ее территории языках. ФРГ (домен DE) разрешила использование букв практически всех европейских алфавитов с латинской основой. Польша (домен PL) предоставляет возможность регистрации доменов с символами кириллицы, еврейского и арабского алфавитов.
[8] Правила русской орфографии и пунктуации. - М., 1956. §10.
[9] Минимальная длина доменного имени не определена техническими стандартами, однако практически во всех доменах верхнего уровня она устанавливается равной 2-3 символам. В доменах COM, NET, ORG исторически сохранились некоторые однобуквенные домены, но их использование ограничено специальными правилами.