5 1 1 1 1 1 1 1 1 1 1 Рейтинг 5.00 [1 Голос]

Дизамбигуация при обработке текста сайта поисковыми роботами

Дизамбигуация является процессом выбора точного значения слова среди омонимов или словоформ, находящихся в контексте поискового запроса. Это программный инструмент, который устраняет и снимает неоднозначность слов, входящих в состав поисковых алгоритмов. Нужно отметить, что в нашей речи много таких слов, которые имеют неоднозначное толкование.

Применение в алгоритмах механизма дизамбигуации существенно увеличивает релевантность поисковой выдачи. Для стабильной работы русскоязычных поисковых систем важно устранение неоднозначности толкования слов анализом словоформ и омонимии. Для решения этой проблемы поисковиками применяется дизамбигуация, опирающаяся на контекст, который окружает поисковую фразу.

Например, пользователем набирается следующая поисковая фраза «серебряные вилки». Слово «вилки» в русском языке имеет много омонимов. Часть поискового алгоритма, которая отвечает за устранение неоднозначности, учитывает контекст, отсекает, не допуская в выдачу словосочетания «вилки капусты» или «вилки и розетки», есть еще понятие «правительство не может допустить большую вилку цен».

Если объяснить просто, дизамбигуация может различать и электротехнику, и экономику, и овощи. Она устраняет неоднозначность, поисковым алгоритмом разгружается серверная часть поисковой системы, очищается от бесполезной информации к выдаче. Бывает так, что пользователем набирается лишь одно слово, например, «вилки». В данном случае отсутствует контекст, и не получается эффективно применить дизамбигуацию. Тогда поисковые системы применяют другие механизмы, например, пользуются статистикой, отражающей частоту обращения пользователей с таким поисковым запросом. При запросе о вилках поисковик Google, например, в верхних строках выдачи помещает данные не о столовом приборе, а о сайтах букмекерских контор, которые очень часто пользуются понятием букмекерской вилки.

В последние годы люди все чаще обращаются к интернету и используют его в поисках любой информации. Поэтому, очень важен вопрос разработки и создания функционирующих механизмов дизамбигуации, которым занимаются специалисты не только в области языкознания, но и в математическом моделировании. Работа ведется комплексная, которая сводится к особому лексико - семантическому размещению огромного количества словоформ по омонимическим кластерам. Результаты этой научно - исследовательской работы используются поисковыми машинами в обучении. Ведь поисковые машины изначально не знают контекста, их надо «научить распознавать».

Чтобы повысить эффективность работы, специалисты применяют все известные и доступные методы лексического и математического анализа. Например, применяют технологии, которые использовались при создании семантических сетей на английском языке WordNet и FrameNet.

Основной целью дизамбигуации в поисковых системах является улучшение релевантности выдачи.

Разработано для Disqus