Таким образом, PageRank веб-страницы определяется как вероятность
нахождения пользователя на данной веб-странице; при этом сумма
вероятностей по всем веб-страницам сети равна единице, так как
пользователь обязательно находится на какой-либо странице. Поскольку оперировать вероятностями не всегда удобно, то после ряда
преобразований с PageRank можно работать в виде конкретных чисел (как,
например, мы привыкли видеть его в Google ToolBar, где каждая страница
имеет PageRank от 0 до 10). Согласно описанной выше модели получаем, что: - каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и очень маленький)
- каждая страница, имеющая исходящие ссылки, передает часть своего
PageRank страницам, на которые ссылается. При этом переданный PageRank
обратно пропорционален числу ссылок на странице – чем больше ссылок,
тем меньший PageRank передается по каждой;
- PageRank передается не полностью, на каждом шаге происходит
затухание (та самая вероятность 15%, когда пользователь начинает
просмотр с новой, случайно выбранной, страницы).
Рассмотрим теперь, каким образом PageRank может влиять на ранжирование
результатов поиска С влиянием PageRank все обстоит очень просто – после
того как поисковая система нашла ряд релевантных документов (используя
текстовые критерии), отсортировать их можно согласно PageRank – так как
логично будет предположить, что документ, имеющий большее число
качественных внешних ссылок, содержит наиболее ценную информацию.
В настоящее время(PR) PageRank не используется
непосредственно в алгоритме Google. Это и понятно – ведь PageRank
характеризует лишь количество и качество внешних ссылок на сайт, но
совершенно не учитывает ссылочный текст и информационное содержимое
ссылающихся страниц – а именно этим факторам придется максимальное
значение при ранжировании. Предполагается, что для ранжирования Google
использует так называемый тематический PageRank (то есть учитывающий
только ссылки с тематически связанных страниц), однако детали этого
алгоритма известны лишь разработчикам Google.
Узнать значение PageRank для любой веб-страницы можно с помощью Google
ToolBar, который показывает значение PageRank в диапазоне от 0 до 10.
Следует учитывать, что Google ToolBar показывает не точное значение
PageRank, а лишь диапазон PageRank, в который попадает сайт, причем
номер диапазона (от 0 до 10) определяется по логарифмической шкале. Поясним на примере: каждая страница имеет точное значение PageRank,
известное только Google. Для определения нужного диапазона и вывода
информации на ToolBar используется логарифмическая шкалаРеальное значение PR | Значение ToolBar | 1-10 | 1 | 10-100 | 2 | 100-1000 | 3 | 1000-10000 | 4 | И т. д. до 10 | Сам Гугл не опубликовывает точных
методов определения и предполагается, что расчет производится по
логарифмической шкале, или на чем-то подобном, но уж никак не по
линейным закономерностям. |
Выше приведенные цифры достаточно условны, однако наглядно
демонстрируют, что диапазоны PageRank, показываемые в Google ToolBar,
не равнозначны друг другу. Например, поднять PageRank c 1 до 2 легко, а
с 6 до 7 гораздо сложнее. На практике PageRank используется в основном в двух целях: - Быстрая оценка уровня раскрученности сайта. PageRank не
дает точной информации о ссылающихся страницах, но позволяет быстро и
просто «прикинуть» уровень развития сайта. Для англоязычных сайтов
можно придерживаться следующей градации: PR 4-5 – наиболее типичный PR
для большинства сайтов средней раскрученности. PR 6 – очень хорошо
раскрученный сайт. PR 7 – величина, практически недостижимая для
обычного вебмастера, но иногда встречается. PR 8, 9, 10 – встречаются
только у сайтов крупных компаний (Microsoft, Google и т.п.). Знание
PageRank можно использовать при обмене ссылками, для того чтобы оценить
качество предложенной к обмену страницы и в других подобных ситуациях.
- Оценка
уровня конкуренции по поисковому запросу. Хотя PageRank и не
используется непосредственно в алгоритмах ранжирования, тем не менее
позволяет косвенно оценить конкурентность заданного запроса. Например,
если в выдаче поисковой системы стоят сайты с PageRank 6-7, то сайт с
PageRank 4 имеет очень мало шансов подняться в топ.
Еще одно важное замечание – значения PageRank,
показываемые в Google ToolBar пересчитываются достаточно редко (раз в
несколько месяцев), поэтому ToolBar показывает в некотором роде
устаревшую информацию. То есть сама поисковая система Google учитывает
изменения во внешних ссылках гораздо быстрее, чем эти изменения
отображаются в Google ToolBar.
Прежде всего, позвольте мне
пояснить более детально, почему цифры, появляющиеся на тулбаре Гугла,
не являются реальными значениями ПэйджРанка. В соответствии с основной
формулой, и по данным выступлений основателей Гугла, миллиарды страниц
интернета имеют средний вес ПэйджРанка порядка 1.0 на страницу. Таким
образом, общий ПэйджРанк интернета эквивалентен количеству страниц на
вебе, умноженному на 1, что в масштабах всего интернета дает огромное
количество ПэйджРанка, распределяемого внутри всего интернета. Шкала на тулбаре Гугла градуирована от 1 до 10.
(Иногда там можно увидеть и 0, но эта цифра не является результатом
вычислений ПэйджРанка). Гугл поступает таким образом, что делит полное
реальное значение всего ПэйджРанка всего интернета на 10 частей. При
этом каждая часть отображается значением, указанным на тулбаре. Таким
образом, значения на тулбаре указывают лишь на то, в каком диапазоне
находится ПэйджРанк доставленной браузером страницы, а не выводит
точного значения ПэйджРанка самого по себе. Цифры на тулбаре — всего
лишь относительные отметки. Эквивалентны ли эти 10 отрезков или нет — все это
предмет для дискуссий; Гугл на эту тему не распространяется. Однако,
поскольку из практики известно, что, чем в более высоком диапазоне
находится выводимый показатель, тем все более трудно добиться его
дальнейшего повышения, многие люди (включая и меня самого) полагают,
что градуировка производится по логарифмической шкале, или на очень
похожем принципе, но уж никак не на основе простой линейной
закономерности. Давайте предположим, что используется
логарифмическая закономерность, базирующаяся на десятичной шкале, и что
требуется 10 правильно организованных с точки зрения ссылочных
структур, страниц, чтобы поднять важную страницу сайта на одно деление
шкалы тулбара. Тогда для следующей подвижки потребуется уже 100 новых
страниц, 1,000 новых страниц, чтобы пройти следующее деление, 10, 000 —
для еще одной подвижки, и так далее. Вот почему передвижения внизу
шкалы (левый край) даются гораздо легче, чем в центре, и, тем более, на
правом краю шкалы. На самом деле, навряд ли основание логарифма
составляет ровно 10. Некоторые исследователи считают, что это 5 или 6,
а, возможно, даже и менее. Но даже и в этом случае, чем выше
поднимаешься по шкале — тем более затрудненным становится процесс
перемещения. Примем во внимание, что, по мере того как
количество страниц в интернете постоянно возрастает, суммарный
ПэйджРанк также растет. А, коль скоро растет суммарный ПэйджРанк,
расположение позиций градуировки шкалы должно меняться. При этом
некоторые страницы опускаются на указателе тулбара по «непонятным»
причинам. Если актуальное значение ПэйджРанка страницы было чуть-чуть
выше какого-то деления шкалы, то добавление новых страниц в
пространстве интернета должно вызывать незначительное перемещение
маркера деления вверх; при этом положение страницы должно незначительно
сползать вниз по шкале, оказываясь немного под соответствующим
делением. Индекс Гугла постоянно растет, и они переоценивают значимость
каждой из страниц с периодичностью, близкой к ежемесячной. Этот процесс
известен как «Танец Гугла». Когда танец заканчивается, некоторые
страницы падают относительно соответствующей отметки тулбара. Поэтому,
«вливание» в массив мирового интернета новых страниц — зачастую это все
что нужно, чтобы откатиться на позицию назад после очередного «танца». Конечно, цифра, выводимая на тулбар — это хороший
индикатор ПэйджРанка страницы, но все, о чем она свидетельствует, так
это о том, что ПэйджРанк данной страницы находится в определенном
диапазоне по отношению ко всему пространству шкалы. Так, PR 5 может
означать, что страница не дотягивает до реального значения в 5, а также
— что страница имеет больше 5, но пока не дотягивает до 6.
|