Привелось мне в начале девяностых работать в очень амбициозной творческой программерской команде. Интернет в эмбриональном состоянии, наработок и технологий кот наплакал. Наша звёздная команда (лингвисты-профессионалы, профессора и доктора наук, со словарями и опытом, при этом отличные программеры) разрабатывала систему русскоязычного полнотекстового поиска.
Вкратце о поиске с учётом морфологии: задача состоит в том, чтобы найти каждое слово из пользовательского запроса во всех формах, падежах и склонениях; к примеру, «иду», «идёшь» и «шли» — формы глагола «идти». Для этого при индексации страниц надо было привести каждое из встречающихся слов к основе. Сейчас это воспринимается как само собой разумеющееся, но в то время ни Гугла, ни Яндекса ещё не было.
Написали — пора отлаживать. Нужен текст приличного размера. Начало девяностых, начало Рунета, начало российской государственности; как результат, лучшим текстом, найденном в почти девственном отечественном кусочке интернета, оказалась свежеиспеченная Конституция РФ. Ура — запускаем!
По задумке движок должен выдать в алфавитном порядке список основ, встречающихся в предложенном тексте. Народ толпится у монитора, жадно вчитываясь в каждое очередное слово. Через несколько секунд раздаётся дружный хохот — в середине первой же страницы гордо красуется глагол «АДЫГЕТЬ». Прежде чем окончательно сползти под стол, на излёте успеваем заметить еще один не менее шедевральный глагол «АЛТАТЬ»...
Прозрение пришло быстро — всё-таки профессиональные лингвисты. Вспомнили классику типа «дочь генерала» (кто? — дочь, что делала? — генерала), а также географию великой российской империи — республики Адыгею и Алтай.
В общем, как писал известный сатирик Александр Иванов, «велик могучим русский языка». Адыгев от выкрутасов поискового движка, после работы всем коллективом мы отправились алтать.
Вкратце о поиске с учётом морфологии: задача состоит в том, чтобы найти каждое слово из пользовательского запроса во всех формах, падежах и склонениях; к примеру, «иду», «идёшь» и «шли» — формы глагола «идти». Для этого при индексации страниц надо было привести каждое из встречающихся слов к основе. Сейчас это воспринимается как само собой разумеющееся, но в то время ни Гугла, ни Яндекса ещё не было.
Написали — пора отлаживать. Нужен текст приличного размера. Начало девяностых, начало Рунета, начало российской государственности; как результат, лучшим текстом, найденном в почти девственном отечественном кусочке интернета, оказалась свежеиспеченная Конституция РФ. Ура — запускаем!
По задумке движок должен выдать в алфавитном порядке список основ, встречающихся в предложенном тексте. Народ толпится у монитора, жадно вчитываясь в каждое очередное слово. Через несколько секунд раздаётся дружный хохот — в середине первой же страницы гордо красуется глагол «АДЫГЕТЬ». Прежде чем окончательно сползти под стол, на излёте успеваем заметить еще один не менее шедевральный глагол «АЛТАТЬ»...
Прозрение пришло быстро — всё-таки профессиональные лингвисты. Вспомнили классику типа «дочь генерала» (кто? — дочь, что делала? — генерала), а также географию великой российской империи — республики Адыгею и Алтай.
В общем, как писал известный сатирик Александр Иванов, «велик могучим русский языка». Адыгев от выкрутасов поискового движка, после работы всем коллективом мы отправились алтать.