Как работает поисковая система Яндекс

Интернет браузер Яндекс
Обновлено:

Заметка посвящена поисковой системе Яндекс. Разберем на примере как делать запрос в поисковой строке браузера Yandex.

В Интернете достаточно много различных поисковых систем. Они бывают общие, то есть позволяют искать практически что угодно где угодно. Бывают специализированные – например, для поиска картинок, товаров, людей, определенных данных, а бывают комбинированные.

«А в чем разница?» - спросите Вы. – Зачем столько разных поисковиков? Какой в них смысл?»

На самом деле смысл есть. Все поисковики заметно отличаются друг от друга: охватом сайтов, скоростью и глубиной их сканирования, технологией определения релевантности и так далее.

Если Вы ищете тексты на русском языке, то лучше работать с российскими поисковиками – Yandex, Rambler, потому, что они лучше, чем западные системы сканируют русскоязычный Интернет.

Что бы вам было понятно как работает поисковая система рассмотрю на примере поиска в Яндексе.

Расширенный поиск в Интернете

Вы можете использовать каталог, если Вас устраивает расширенный поиск - широкая тема (музыка, фильмы и т. д.). Чаще всего пользователю необходимо что-то конкретное в Интернете: информация о творчестве выдающегося человека, личная жизнь писателя, музыканта или режиссера, спецификация сборочного чертежа и т. д. Для того, чтобы выудить конкретную информацию, популярный поисковик Yandex (www.yandex.ru) является предпочтительным. Ведь не зря же рекламным слоганом поисковика является «Найдется все!».

В поисковой системе Yandex каталог составляется специальными редакторами, причем сайты, попадающие в него подвергаются тщательному отбору. В дополнение к обычной рубрикации по темам в каталоге Yandex сайты также классифицируются по типу содержащейся в них информации (справки, товары и услуги, публикации и так далее), а также при необходимости по региону. Выдаваемые результаты сортируются в соответствии с его индексом цитирования.

Сверху Yandex демонстрирует новые поступления в каталог, а дальше идут непосредственно позиции рейтинга.

Я считаю, что поиск в Интернете это большое искусство. Искусство заключается в том, что нужно правильно составлять поисковые запросы для быстрого нахождения того, что вам нужно. Для этого надо понимать, как именно работает поисковая система, что именно она ищет и в какой последовательности выводит результаты поиска.

Как работает поисковая система

Ошибочно можно думать, что при Вашем запросе поисковая система моментально «прочешет» весь Интернет и выдаст список страниц с буквально похожим словосочетанием введенного вами запроса. Но весь Интернет, или его небольшую часть, чтобы «прочесать» не хватило бы даже года.

Каждая классическая поисковая система, не только Яндекс, состоит из 3-х компонентов:

  1. Вэб-паук ( web spider)
  2. Индексатор
  3. Алгоритм поиска и оценки результатов

За что отвечает каждый компонент.

  • Вэб-паук
  • Экзотическое название программы Вэб-паук соответствует ее содержанию. Этот Вэб-паук запускается автоматически если у Вас подключен Интернет. Вот этот паук и прочесывает все направления интернетовских страниц, которые состоят из гиперссылок «паутины» сайтов скачивая страницы для второго компонента – индексатора (индексной базы).
  • Индексатор
  • Обрабатывает страницы скачанные вэб-пауком, извлекая оттуда все слова. Индексатор записывает информацию в поисковую (индексную) базу, где именно нашел это слово. Индексатор записывает информацию в поисковую (индексную) базу, где именно нашел это слово и данная информация используется в поиске.
  • Алгоритм поиска и оценки результатов
  • Является компонентом во всех поисковых системах. Эффективность полученного результата Вашего запроса зависит от алгоритма поиска. Алгоритм поиска должен быстро и точно найти, то что Вас именно интересует.

Из вышесказанного следует, что когда пользователь вводит запрос, поисковая система ищет ответ в своей индексной базе и выводит результат в соответствии со своим алгоритмом поиска.

Релевантность

Термин релевантность – это степень соответствия документа запросу. Степень соответствия в свою очередь это то, что Вы получили на выходе и это та информация, которую хотели.

Как система определяет релевантность, то есть страницы, в которых содержится запрос:

  1. Количество кликов на эту страничку (индекс цитируемости). Чем больше на эту страничку ставят гиперссылку другие, тем выше вероятность того, что Вы ищете.
  2. Релевантность запроса зависит от размера шрифта, стиля набранного текста запроса. Набранный запрос, жирный или крупный шрифт является признаком более релевантным данной странички.
  3. Проверяет количество слов (словосочетаний) встречающихся на выбранных страницах по тематике.
  4. Проверяет интервал между словами при введении в поиск всей фразы.
  5. Учитывает возраст сайта. Релевантность лучше у сайтов, которые созданы раньше других.

Из вышесказанного следует, что правильная интерпретация влияет на уровень релевантности.

Поиск по запросу. Интент

Поиск по запросу – Ваш интент пользователя, потребности, задача, зачем, с какой целью делаете поиск. Интент – это Ваша мысль в голове, что ищете. Поисковая машина должна разобраться что Вам нужно. При вбитии в Поиск одного и того же запроса разными пользователями им будет выдана разная информация, которая определяется Поисковой машиной учитывая Вашу собственную информацию о себе.

Эта информация выкладывается Вами в соцсетях. Это данные в профиле, анкете, в группах по интересам, комментариях и многом другом. Показывая свои интересы мы даем много информации о себе. Поиск знает и старается как можно больше узнать о своих пользователях. Именно с этим связано появление и расширение влияния так называемого персонального поиска.

Персональный поиск это когда Поиск собирает о Вас некую информацию, копит ее у себя и пытается показать в индивидуальную выдачу подстроенную под Вас. Такая выдача будет более качественной, поэтому Поиск к этому стремится. Эта тенденция будет шириться дальше в зависимости от времени. Чем больше времени проходит, тем ближе Вы становитесь к выдаче, подстроенной только под Вас.

Продвинутая поисковая система при своей интеллектуальности не может залезть к Вам в мозги. Поэтому искать надо уметь.Нужно правильно прописать строку в поисковике, что бы получить то, что Вам надо найти. Если Вы хотите найти сайт, посвященный технологии росписи по алюминию, то одно только слово «алюминий», введенное в строке поисковика вряд ли даст нужный результат.

Всегда уточняйте запрос! Если Вам нужно стихотворение Самуила Маршака, то набирайте в запросе: «Жил человек рассеянный. Маршак». В первой же ссылкой Yandex выдаст полный текст стихотворения!

Мои соображения сводятся к следующим несложным постулатам:

  1. В запросах в поисковике слова пишите без грамматических ошибок.
  2. Используйте ключевые слова, Например, если Вам нужна информация об автомобиле «Запорожец» - так и пишите «автомобиль Запорожец», а не просто «автомобиль».
  3. Если Ваш запрос не дал нужных результатов при поиске, замените в запросе слова синонимами. Например, вместо «реферат» введите «курсовая работа».
  4. Уточняйте запрос. Точный запрос дает шансы на ответ, который будет выдан в первых строках выдачи. Поэтому тупо пишем в строке поиска «технология росписи по алюминию». Если результат Вас не удовлетворит, варьируйте строку.
  5. Не следует вводить текст запроса в верхнем регистре. В этом случае поисковик будет искать слова с заглавными буквами и вряд ли найдет. Исключение составляет набор запроса с заглавных букв. Например, группу «Коррозия металла», а не процесс коррозии металла, - тогда пишите с заглавной буквы.
  6. Язык запроса. Поисковые системы поддерживают язык запроса, позволяющий задавать различные комбинации критериев поиска.

Язык, в смысле, не иностранный, а программный. Например, Вы желаете задать поисковику запрос: «найди мне страницы со словом «раки», при этом в любом случае отсутствует слово «винегрет», не более чем через два слова от «раки» расположено слово «пиво», чтобы сайт при этом находился в зоне ru, Между тем Вы совершенно спокойно можете составить подобный запрос, используя операторы в строке поиска, которые и называются языком запросов. Язык запросов позволяет точнее сформулировать ваш поисковый запрос.

Язык запросов

  • Исключение/включение определенных слов. Оператор «+» и «-»
  • Например, Вы желаете найти сайты на которых есть анекдоты про Вовочку, но при этом вы не выносите анекдоты, в которых злые люди называют Путина Вовочкой. Тогда в запросе пишите следующее: «+анекдот+Вовочка-Путин». Исключаемое слово должно размещаться в конце поискового запроса. Это означает команду искать страницы, на которых в обязательном порядке присутствуют слова «анекдот» и «Вовочка», однако отсутствует слово «Путин».
  • Перечисление альтернатив. Оператор «|»
  • Вертикальная черта задает альтернативы: поисковая система найдет хотя бы одно из поставленных слов. Будут найдены документы, где будет хотя бы одно из слов в запросе: «кот», «мышь» или «собака». Если Вы хотите найти страницы, где встречается одно из слов «кот», «мышь», «собака», поисковый запрос выглядит так: «кот | мышь | собака». Оператор разделяется пробелом.
  • Поиск слова в заданной форме. Оператор «!»
  • Поисковая система обычно ищет все словоформы написанного слова, даже если оно задано полностью. Например, если в запросе будет введено слово «брюнетка», то в выдаче первыми будут страницы, где будет именно «брюнетка», но далее в выдаче окажется «брюнетки», «брюнеткой», «брюнеткою», «брюнеткам» и так далее. Для того, чтобы Вам найти только одну конкретную форму – «брюнетка», то задавайте в поиск так: «!брюнетка».
  • Поиск по цитате. Оператор Кавычки «
  • Поиск документов, содержащих слова запроса в заданной последовательности и форме. Найдутся документы, содержащие данную цитату. Если Вам нужна точная фраза «сухогрузный теплоход», а не «сухогрузный теплоход, включающий в себя темно-зеленые сигнальные огни в пупырышках» - тогда при поиске заключите фразу в кавычки: «”сухогрузный теплоход“», и в этом случае в результате появятся только те страницы, где эти слова располагаются строго рядом.
  • Ограничение по адресам. Символ «#url»
  • Если Вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов, либо же наоборот – поиск, который исключает конкретные адреса или группы адресов, - можно воспользоваться командой «#url=” адрес или группа“». Например, если Вы хотите найти все страницы, на которых встречается слово «автор», исключив сайт www.vladimirturikov.ru, дайте следующую команду: «автор-- #url=”www.vladimirturikov.ru”».
  • Задание расстояния между словами. Оператор «/n»
  • Для поиска всех вариантов сочетания слов «черная [любое слово] болонка» - можно применить знак «/», означающий «не превышало», и указания числа допустимого количества слов, цифра 1 – это значит отсутствие слов. Пример запроса. «черная/+2болонка» означает команду искать все сочетания, где между «черная» и « болонка» не больше 1 слова. То есть «черная болонка» - подойдет, 2большая лохматая болонка» - тоже подойдет, а «большая лохматая и злая болонка» - уже нет. Символ «+» значит, что слово (слова) должны быть справа, а «-» - слева. Таким образом, запрос «черная/(-24) болонка» определяет, что «черная» должно находиться от «болонка» в интервале расстояний от 2 слов слева до 4 слов справа.
  • Поиск ссылок. Оператор «#link»

Бывает, что владельцы своих страничек интересуются какие сайты делают ссылки (помещают гиперссылку) на тот или иной адрес. Для поиска необходимо набрать символы: «#link=”адрес”».

Пример:

Команда «#link=”www.vladmirturikov.ru”» откроет все документы, где имеются ссылки на www.vladmirturikov.ru.

Я перечислил только основные возможности языка запросов в поисковой системе Yandex. Эти параметры похожи и в других поисковых системах, хотя перед использованием желательно посмотреть описание на конкретном поисковике.

Специальный поиск

Как правило, поисковые системы представляют возможность искать в интернете далеко не только тексты. Потому что пользователей вполне может интересовать различного рода специальный поиск: картинок, товаров, музыки, файлов и так далее.

  • Поиск картинок
  • Если Вам нужно найти какие-то картинки (изображения, фотографии, рисунки) в Интернете, то можно воспользоваться специальным поиском картинок. На Yandex картинки ищутся довольно просто. Вводите в строку для поиска и под ней щелкаете по ссылке Картинки. После этого Yandex выдает результаты в виде уменьшенных изображений, по которым в свою очередь можно щелкнуть и увидеть оригинал.

    Товары ищутся аналогично картинкам. В строке поиска вводите наименование товара и нажимаете на ссылку Маркет.

    Если вам нужно найти конкретную марку – ее и вводите, например «Panasonic TX-36PD50F». Если Вам хочется посмотреть изображения и цены на какой-то товар различных производителей, тогда вводите его название и какое-то уточнение.

    К примеру, когда вы собираетесь поискать большой телевизор (32 дюйма), тогда не нужно просто писать «телевизор» - это приведет к выдаче массы результатов, которые Вам совершенно не нужны. В этом случае нужно писать в строке поиска «телевизор 32». Если же Вас интересуют более узкие критерии поиска – например, различные модели телевизоров Sony с диагональю 32 дюйма – тогда так и пишите в строку поиска: «телевизор Sony 32». Еще раз напоминаю о том, что в строке поиска не должно быть ничего лишнего – только значащие слова. Никакие «мне нужен телевизор sony с диагональю 32 дюйма» - таким запросом хорошего результата Вы не добьетесь!

Если понравилась статья оставляйте комментарии.

Понравилась статья? Поделись!

2 комментария

  • Аватар комментатора Инна Инна
    Владимир, интересно написали про поисковики, спасибо! Некоторые моменты мне были не знакомы.
    Ответить
    1. Аватар комментатора Владимир Туриков Владимир Туриков

      Инна, пожалуйста. Будут еще подобные заметки про поисковики.

      Ответить

Добавить комментарий

Отправить комментарий Отменить

Сообщение