Поиск информации в компьютерных сетях: новые подходы. Проблемы, возникающие в процессе поиска

30.08.2019 Принтеры и сканеры


В общем случае - осуществляется поиск фразы запроса по страницам Интернета, и с помощью определенных критериев и алгоритмов результаты поиска ранжируются и выдаются пользователю. Наиболее часто используемыми критериями при ранжировании в поисковых машинах являются:
– наличие слов из запроса в документе, их количество, близость к началу документа, близость друг к другу;
– наличие слов из запроса в заголовках и подзаголовках документов;
– количество ссылок на данный документ с других документов;
– «респектабельность» ссылающихся документов.
Как видно из критериев ранжирования, реальный критерий релевантности документа - наличие слов из запроса (поисковая фраза) - не так сильно влияет на его ранг в результатах поиска. Такая ситуация ведет к снижению качества поиска, поскольку потенциально более полезные документы неминуемо оттесняются своими «оптимизированными» конкурентами в конец списка. И действительно, многие сталкивались с тем, что реально полезные ресурсы в поисковиках находятся на второй третьей странице выдачи поискового запроса. Тут и проявляется неэффективность алгоритмов ранжирования найденных документов. Это во многом обусловлено тем, что поисковые запросы в среднем состоят всего из трех-пяти слов, т. е. просто не хватает исходной информации для эффективного ранжирования выдачи.

А вот и проблемы при поиске....

Тут и проявляется не 100%-ная эффективность алгоритмов ранжирования найденных документов. Конечно, такая ситуация также возникает потому, что поисковые запросы пользователей в среднем состоят всего из трех-пяти слов. Т. е. такая исходная информация для поисковых систем слишком скудная для эффективного ранжирования выдачи.
Вторая проблема заключается в том, как «эдакое» большое количество информации переработать (= «переварить», «рассмотреть», «выделить главное», «отсеять ненужное и бесполезное») для конкретного пользователя, с учетом его потребностей, смысла и темы запроса, его предыдущей истории поиска, географического положения, его мнения о результатах поиска и т.д. Конечно, поисковые системы в этом направлении активно развиваются, но, очевидно, что поисковой машине далеко до совершенства. Потому что, на сегодняшний день только человек может оценить семантическую полезность, качество, специфику найденной информации и т.д.

Альтернативы поисковым системам

Поэтому, в качестве альтернативы появляются сервисы, структурирующие как-то Интернет для облегченного поиска нужной пользователю информации. И на данный момент уже есть социальные закладки, каталоги, торрент-трекеры, форумы, специализированные поисковики, файлообменники и т.д. Все эти сервисы в той или иной степени структурируют Интернет и «уменьшают расстояние» между пользователем и необходимой ему информацией (будь-то фильмы, музыка, книги, ответы на вопросы, и т.д.). И что, самое главное, «структурируют Интернет», в основном, сами пользователи.
Нет, здесь нет намека на то, что поисковые системы бесполезны или мало эффективны. Я считаю, что поисковые системы идеально подходят для поиска поверхностной и наиболее популярной информации. А для поиска более глубокой информации, в том числе полезных книг, статей, журналов, музыки и т.д. (имеется ввиду с возможностью скачать все это) более подходят вышеупомянутые ресурсы, «структурирующие Интернет».

Как вообще не заблудиться в Интернете?


Кратко:
1.Для поиска поверхностной информации использовать поисковые системы, например http://google.com , http://yandex.ru , http://nigma.ru , http://nibbo.com
2.Для поиску нужных по теме сайтов использовать каталоги Интернета, например ,

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации.

Поиск информации является одной из наиболее распространенных и одновременно сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Однако если для рядового пользователя знание методов эффективного информационного поиска является желательным, но не обязательным качеством, то для профессионалов в области производственно-конструкторской, организационно-управленческой, научно-исследовательской и дизайнерской деятельности умение быстро ориентироваться в ресурсах Интернет и находить требуемые источники относится к числу базовых квалификационных навыков. Существуют различные приемы поиска информации в Интернет.

Поиск по известному адресу .

Это самый быстрый способ поиска, но его можно использовать только в том случае, если пользователю точно известен адрес информационного ресурса, содержащего необходимую ему информацию. Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях и т.д. Зная адрес, достаточно ввести его в адресную строку браузера.

Например :

− Mgudt.ru - Московский университет дизайна и технологии;

− Sssu.ru - Южно-Российский государственный университет экономики и сервиса;

− Assol.org - САПР одежды, ПО для проектирования сумок, проектирования обуви;

− Saprgrazia.com - высокие компьютерные технологии швейной промышленности;

− Comtense.ru - программное обеспечение и оборудование для автоматизации конструирования и технологической подготовки швейного и трикотажного производства;

− Moda.ru, fg.ru, sarafan.ru - модные тренды;

− Microcoft.com и Microcoft.com/rus - сайт корпорации Microcoft и его русская версия;

− Rarlab.com - архиватор WinRAR;

− 7-zip.org - бесплатный архиватор 7-ZIP;

− Office.microsoft.com/rus - официальный сайт Microsoft Office;

− Abbyy.ru/finereader - Fine Reader (программа распознавания образов);

− Adobe.com/ru/products/photoshop - графический редактор Adobe Photoshop;

− Avast.ru - бесплатный антивирус Avast! (русская версия);

− Free-av.com - бесплатный антивирус Avira Antivir;

− Drweb.ru - антивирус DrWeb;

− Avp.ru - антивирус Касперского;

− Agnitum.ru - брандмауэр Agnitum Outpost Firewail и пакет безопасности Outpost Security Suite;

− Microcoft.com/rus/windows/internet-explorer - браузер Internet Explorer;


− Opera.com - браузер Opera;

− Ritlabs.com - почтовая программа The Bat;

− Icq.com - служба «мгновенных сообщений» (веб-пейджер) ICQ;

− Icq.rambler.com - русская версия ICQ;

− Skype.com - программа IP-телефонии Skype;

− Yandex.ru, rambler.ru, google.ru - российские поисковые системы;

− Google.com, bing.com - международные поисковые системы;

− Filesearch.ru - поиск на FTP-серверах;

− Mail.ru, mail.yandex.ru, mail.rambler.ru, pochta.ru, e-mail.ru - российские серверы бесплатной почты;

− Narod.ru, boom.ru, westhost.ru, by.ru - бесплатный хостинг на российских серверах;

− Ixbt.ru - компьютерные новости, обзоры hardware;

− Maps.google.com - подробные карты всего мира, с точностью до дома;

− Maps.yandex.ru - подробные карты крупнейших городов России и Украины. Сведения об автомобильных пробках;

− Wikipedia.org и ru.wikipedia.org - свободная энциклопедия Wikipedia и её русский раздел;

− Slovari.yandex.ru, rubricon.com, krugosvet.ru, mega.km.ru - онлайновые энциклопедии и словари;

− Books.ru, ozon.ru, market.yandex.ru, foto.ru - интернет-магазины;

− Rvb.ru - русская виртуальная библиотека;

Навигация по гиперссылкам . Сайты в Интернете связаны между собой с помощью гиперссылок. Если нет адреса нужной Web-страницы, можно использовать другую страницу со ссылкой на нее. При использовании других методов поиска имеет смысл посмотреть, нет ли на найденном сайте раздела ссылок (ресурсы, другие сайты и т.д.). Часто в таком разделе можно найти адреса ещё нескольких ресурсов, тематически связанных с данным. Но этот метод поиска является довольно трудоёмким и с помощью этого метода можно искать документы, только близкие по смыслу текущему документу.

Если у нас нет ни адреса, ни ссылок, обращаются к поисковым системам.

Обращение к поисковому серверу (поисковой системе). Для поиска информации в Интернете разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку браузера.

По способу организации поиска информации можно выделить три вида информационно-поисковых систем: тематические каталоги (рубрикаторы), словарные поисковые системы, метапоисковые системы.

Тематические каталоги (рубрикаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации, структурированная по темам. При поиске информации пользователь просматривает тематические рубрики и выбирает нужную ветвь, постепенно сужая поле поиска.

Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru). Тематические каталоги поисковой системы Апорт представлены на рисунке 18.1. Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.

Рис. 18.1. Тематические каталоги поисковой системы Апорт

Если вы ищете информацию по широкой теме (образование, музыка, медицина и т.д.), чтобы составить общее представление об имеющихся ресурсах на заданную тему то целесообразно обратиться к каталогу. Если же вам необходимо найти конкретный сайт или документ, то каталог окажется малоэффективным поисковым средством.

Например, чтобы найти информацию о ЮРГУЭС в тематическом каталоге Апорт, то нужно пройти достаточно длинный путь по рубрикам Наука и образование / Образование / Высшее профессиональное образование / ВУЗы / Экономика и управление / Остальные. После чего ещё необходимо найти нужную ссылку в алфавитном списке из 15 страниц. Но зато этот путь позволил составить общее представление о многообразии российских образовательных ресурсов.

Кроме каталогов общего назначения в Сети много специализированных каталогов (по определённым темам).

Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. Основой поисковых систем являются так называемые поисковые машины, или индексы. Специальные программы-роботы (известные также как «пауки») в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос , который обрабатывается системой.

Запрос - это ключевое слово или фраза, сформированная по определенным правилам - с помощью языка запросов, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, -, ?), логические операторы (операции) Or, And, Not, оператор близости Near.

После этого в окно браузера выдаются результаты обработки запроса. В результате пользователю предлагаются те адреса (URL), по которым в момент сканирования найдены искомое слово или группа слов. Список ссылок, предлагаемый пользователю, ранжируется по релевантности . Релевантный документ - это документ, смысловое содержание которого соответствует информационному запросу.

Каждая ссылка в списке результатов поиска содержит сниппет (англ. snippet - фрагмент, отрывок) - несколько строчек из найденного документа, среди которых встречаются искомые ключевые слова. Прежде чем переходить по ссылке, целесообразно оценить соответствие сниппета теме запроса. Затем, перейдя по ссылке на определенный сайт, стоит просмотреть главную страницу. Как правило, первой страницы достаточно, чтобы понять - по адресу вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет - возвращайтесь к результатам поиска и пробуйте очередную ссылку.

Этот вид поиска является самым гибким и мощным и позволяет искать в Сети информацию, посвящённую самой разнообразной, в том числе узкоспециальной, тематике.

В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, и объединение их возможностей вполне логично. Большинство современных поисковых систем являются смешанными.

Поисковых систем сегодня существует достаточно много, международных и отечественных. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в доменных зонах с преобладанием русского языка. Если перед пользователем стоит задача найти что-либо в русскоязычной части сети, то, скорее всего, наиболее успешный результат даст поиск с использованием русскоязычных поисковиков. Прежде всего, потому, что русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка. Наиболее популярные поисковые системы приведены в таблице 26.

Федотов А.М., Барахнин В.Б. Новосибирский государственный университет, Институт вычислительных технологий СО РАН
Аннотация
Статья посвящена обсуждению проблем поиска информации в современной ин-формационной среде, историческим подходам, технологическим задачам и алгорит-мам.

Введение
Проблема поиска информации — одна из вечных проблем человеческого сообщества. На протяжении своего многотысячелетнего развития его представители неустанно нахо-дятся в поиске того, где находится что-либо: пищи, жилища, пастбищ, дорог, сокровищ и т. п. Обобщая задачи поиска можно сказать, что человечество постоянно находится в поиске знаний, а в частности «информации о том, где лежат сокровища». Великий арген-тинский писатель Хорхе Луис Борхев своем эссе «Четыре цикла» писал, что в мировой литературе вечными являются четыре темы:
1. Падение города.
2. Возвращение героя.
3. Поиск.
4. Самопожертвование бога.
Нетрудно заметить, что наиболее часто встречающейся как в литературе, так и в реаль-ности является третья тема — поиск, ибо четвертая тема выходит за рамки обычного человеческого опыта, а две первые проявляются лишь в «минуты мира роковые».
С появлением новой экономической категории, какой являются информационные ре-сурсы, проблема поиска перекочевала и в эту область. Человечество все больше начинает использовать для поиска необходимых знаний информационные ресурсы. Что бы решить проблему доступа к информации человечество создало библиотеки — как универсальную систему хранения «знаний», их систематизации и каталогизации.
Ситуация кардинально изменяется по мере освоения (точнее — создания) человече-ской цивилизацией пространства «информационного». Первыми островами информаци-онного пространства цивилизации стали общественные библиотеки крупнейшие из ко-торых (Библиотека Британского музея, Национальная библиотека в Париже, Библиотека конгресса США, Российская государственная библиотека и др.) уже к началу ХХ века располагали собраниями в миллионы томов.
Долгое время одним из мощных инструментов поиска информации в книжных храни-лищах был непосредственных доступ читателей к книгам, когда они затрачивая большое личное время могли свободно рыться в библиотеке. Это и понятно, поскольку человека нуждающегося в научной информации (в знаниях), интересует прежде всего не сама книга как таковая, а только некоторый ее фрагмент, содержащий требуемые ему знания. Причем сам он часто не в состоянии объяснить как эти знания могут быть связаны с названием книги или ее автором.
Накопление книг привело к парадоксальному результату, связанному с отделение книжных хранилищ от широкого круга читателей. Универсальный инструмент поиска знаний, основанный на прямом доступе к информации, стал доступен только избранным. Основная же масса жаждущих знаний стала довольствоваться только поиском в каталоге, который в принципе не мог удовлетворить возникающие информационные потребности. Для решения проблемы доступа читателей к информации были предприняты попытки классификации и систематизации информации — стали создаваться специализированные книжные залы, куда источники информации отбирались исходя из каких-то (не всегда очень ясных) критериев.
С одной стороны, как отметил британский историк и социолог науки Д. де Солла Прайс , начиная с середины XVIII века любой достаточно большой сегмент науки в нормальных условиях растет экспоненциально, то есть любые параметры науки, вклю-чая объем накопленной информации, за определенный промежуток времени удваиваются (закон экспоненциального роста науки). С другой стороны, в указанный период времени, происходит увеличения числа людей, нуждающихся в научной информации. Речь идет не только о научных работниках (численность которых тоже подчиняется закону экспонен-циального роста), но и о представителях многих других профессий умственного труда: инженерах, агрономах, врачах, управленцах и т. п.
По мере накопления книг а, стало быть, и содержащейся в них информации, возможно-сти традиционных методов поиска: с использованием алфавитного каталога (поиск кни-ги по известному имени автора) и систематического каталога (поиск книги или класса книг по определенному предмету), — перестали удовлетворять читателей, прежде всего научных работников, информационные потребности которых в процессе научного поиска характеризуются невысокой четкостью осознания и выражения (см., например, ).
Современные информационные технологии предоставляют исследователю мощный ап-парат для «манипулирования данными», а не информацией. Данные, переведенные в элек-тронную форму, приобретают новое качество, обеспечивая им более широкое распростра-нение и эффективное использование. На первый взгляд, может сложиться впечатление, что развитие информационных технологий уже само по себе способно вывести работу с научной информацией на качественно новый уровень, но, к сожалению, это совсем не так. Современные информационные технологии пока не могут предоставить адекватный аппарат для оперирования с «информацией» и информационными ресурсами .
Однако сами по себе данные (как набор битов) не представляют никакой информацион-ной ценности без соответствующих описаний или моделей. Применение информационных технологий должно основываться на использовании различных моделей (феноменологиче-ских, информационных, математических и др.). Как неоднократно отмечал А. А. Ляпунов (см., например, ): «нет модели — нет информации». Для возможности продуктивной ра-боты нужны данные, превращенные в «информацию», представленную в виде «знаний» — «адекватного отражения действительности в сознании человека в виде представлений, понятии, суждений теорий».
Существующую проблему отбора информации уже дано пытаются решить путем со-здания универсальных или специализированных информационно-поисковых систем. В ре-зультате опережающего развития технологий поиска по сравнению с методиками работы с семантической информацией образовался заметный разрыв между техникой работы с данными (поиском) и способностью работать с содержанием, заложенным в этих данных. Опираясь на интуицию, эксперты приходят к выводу о порочности нынешней ситуации, но о каком-либо серьезном переосмыслении проблем извлечения из данных информации пока речь не идет.

1 Предыстория
Как мы видим, что проблема поиска — доступа к информации является одной из серьезных проблем, с которой столкнулось современное «информационное общество».
По всей видимости, впервые возникшую проблему наиболее четко осознал бельгийский социолог Поль Отле, который в конце XIX века предложил дополнить науку (library science), ведавшей научно-технической информацией и традиционное библиотековедение совершенно новым методом, названным им «Документацией»:
«Цели Документации состоят в том, чтобы суметь предложить документированные ответы на запросы по любому предмету в любой области знания: 1) универсальные по содержанию; 2) точные и истинные; 3) полные; 4) оперативные; 5) отражающие послед-ние данные; 6) доступные; 7) заранее собранные и готовые к передаче; 8) предоставленные как можно большему числу людей» (см. , с. 190, ).
Суть метода Документации заключалась в том, что содержание книги (отчуждаемое от автора) заносится на карточку, причем совокупность карточек можно упорядочивать так, чтобы при этом отражались предметные связи. Поль Отле предвидел революционное развитие технологий работы с информацией, вплоть до ее мультимедийного представления и удаленного доступа к банкам данных:
«... человеческое знание позволит создать оборудование, действующее на расстоянии, в котором соединятся радио, рентгеновские лучи, кинематограф и микроскопическая фотография. Все предметы Вселенной, все предметы, созданные Человеком, будут реги-стрироваться на расстоянии с момента их создания. Тем самым будет создан движу-щийся образ мира — его память, его подлинная копия. Любой человек сможет прочесть отрывок, спроецированный на его личный экран» (см. с. 16).
Идеи Поля Отле не были восприняты тогдашними информационным (библиотечным) сообществом, в частности потому, что они совершенно не были подкреплены техниче-ским обеспечением: информационные работники и библиотекари той эпохи располагали лишь пишущими машинками, фотоаппаратами и карточными каталогами. Появление по-сле Первой мировой войны устройств обработки перфокарт (точнее, их простейшей раз-новидности — перфокарт с краевой перфорацией) также не стало принципиальным техно-логическим прорывом, поскольку даже спустя 40 лет, в 1960-е годы, подобные устройства могли обрабатывать сравнительно небольшие (до 30 тысяч) массивы документов (см.
с. 549).
Проблема нарастающих объемов информации, грозивших захлестнуть читателей, про-должала волновать исследователей. В 1941 году упомянутый выше Х. Л. Борхес создает свою знаменитую притчу «Вавилонская библиотека». В этой притче Вселенная представ-ляется в виде Библиотеки, беспредельной и всеобъемлющей, на полках которой «мож-но обнаружить все возможные комбинации двадцати с чем-то орфографических знаков (число их, хотя и огромно, не бесконечно) или все, что поддается выражению — на всех языках». Философский смысл притчи, конечно же, гораздо глубже проблемы информа-ционного поиска, но исходный образ взят автором из повседневной реальности. Трудно удержаться, чтобы не привести хотя бы краткие выдержки из притчи, соответствующие тематике статьи.
«Когда было провозглашено, что Библиотека объемлет все книги, первым ощущением была безудержная радость. Каждый чувствовал себя владельцем тайного и нетронуто-го сокровища. Не было проблемы — личной или мировой, для которой не нашлось бы убедительного решения. . . Вселенная обрела смысл, вселенная стала внезапно огромной, как надежда. В это время много говорилось об Оправданиях: книгах апологии и проро-честв, которые навсегда оправдывали деяния каждого человека во вселенной и хранили чудесные тайны его будущего. Тысячи жаждущих покинули родные шестигранники и устремились вверх по лестницам, гонимые напрасным желанием найти свое оправда-ние. . . , но те, кто пустился на поиски, забыли, что для человека вероятность найти свое Оправдание или какой-то его искаженный вариант равна нулю. . .
На смену надеждам, естественно, пришло безысходное отчаяние. Мысль, что на какой-то полке в каком-то шестиграннике скрываются драгоценные книги и что эти книги недосягаемы, оказалась почти невыносимой. Одна богохульная секта призывала всех бросить поиски и заняться перетасовкой букв и знаков, пока не создадутся благо-даря невероятной случайности канонические книги. . . Другие, напротив, полагали, что прежде всего следует уничтожить бесполезные книги. . .
Известно и другое суеверие того времени: Человек Книги. На некоей полке в некоем шестиграннике (полагали люди) стоит книга, содержащая суть и краткое изложение всех остальных: некий библиотекарь прочел ее и стал подобен Богу. В языке этих мест можно заметить следы культа этого работника отдаленных времен. Многие предпри-нимали паломничество с целью найти Его. В течение века шли безрезультатные поис-ки. Как определить таинственный священный шестигранник, в котором Он обитает? Кем-то был предложен регрессивный метод: чтобы обнаружить книгу А, следует пред-варительно обратиться к книге В, которая укажет место А; чтобы разыскать книгу
В, следует предварительно справиться в книге С, и так до бесконечности.. . »
Движущей силой произошедшей в середине XX века «информационной революции» стали не хранители информации — библиотечные работники, а ее потребители — ученые и инженеры. В 1931 году в Германии была создана Статистическая машина Эммануэля Гольдберга , обеспечивавшая чтение специальным образом подготовленной микроплен-ки, на которой хранился массив документов. Особенность организации хранения инфор-мации заключалась в том, что на пленку вместе с микрофильмированным документом заносилось описание этого документа, закодированное посредством перфорации. Поиск документа осуществляется путем сравнения запроса (также закодированного) с перфора-цией пленки. Машину Гольдберга отличало высокое качество механики и оптики: пользо-ватель имел возможность просматривать за час более 100 000 кадров 35-миллиметровой пленки. Статистическая машина Гольдберга, была, по-видимому, первым действующим инструментом, позволяющим автоматизировать поиск в больших массивах данных по их разметке. Кстати сказать, по мнению некоторых исследователей, на идеи Эммануэля Гольдберга опирался Вэннивер Буш, автор знаменитой статьи «Пока мы мыслим» («As We May Think») , фактически написанной в 1939 году, в которой сформулирована идея гипертекста и предсказано появление персонального устройства, хранящего информацию и автоматизирующего процесс ее поиска. Вот как выглядит одна из его идей:
Обсудим устройство персонального назначения. Пусть оно называется Memex и представляет собой что-то вроде автоматизированного архива или библиотеки. Memex хранит для своего хозяина все нужные книги, записи, корреспонденцию. Прибор автома-тизирован до такой степени, что дает ответы на вопросы, заданные в простой форме, — то есть очень гибок в общении.
Скорость ответов высока и не заставляет ждать. Имеется графический экран, кла-виатура и кнопки управления. Когда пользователь ищет нужную книгу, он должен вве-сти ее мнемонический код и нажать нужную для поиска кнопку. Перед ним на экране появится первая страница. Должна быть возможность листать книгу в любом направ-лении. Можно будет остановиться на выбранной странице, а потом пойти по ссылке и найти следующий интересующий материал. При этом всегда можно вернуться к предыдущей странице или одновременно рассматривать несколько страниц.
Появятся энциклопедии с готовыми ссылками для связывания информации и быст-рого поиска. Их можно будет загружать в Memex и искать все, что нужно.
Нередко в литературе можно встретить высказывания, что В. Буш предсказал идею персонального компьютера, но так говорить не совсем правильно, ибо фактическое время написания статьи «As We May Think» относится к тому периоду, когда под руководством В. Буша в Массачусетском технологическом институте был создан действующий макет микрофильмового селектора «Мемекс» .
Если же говорить о поисковых устройствах той эпохи, основанных не на аналоговом, а на цифровом представлении информации (как раз и используемом в современных ком-пьютерах), то следует отметить реализованную на суперпозиционных перфокартах си-стему поиска патентов, которую в 1939 году создал У. Баттен для британского концерна «Imperial chemical industries, Ltd». Ее алгоритм работы был основан на координатном ин-дексировании — представлении содержания документа при помощи списка содержащихся в нем ключевых слов. Эта идея получила дальнейшее развитие в работах американско-го математика Кельвина Муэрса, создавшего и запатентовавшего в 1947 году систему механизированного поиска документов, работавшую на особых картах с вырезами вдоль краев (так называемых «Zato-картах»).
В основе системы также лежал метод координатного индексирования. Именно К. Муэрс стал основоположником научного подхода к информационному поиску, введя в 1950 г. термины «информационный поиск», «информационно-поисковая система», «информационно-поисковый язык», «поисковый образ», «дескриптор», «дескрипторный словарь» и др. С этого времени началось бурное развитие информатики как науки о струк-туре и свойствах семантической информации (прежде всего научной). Важное место в этой науке занимали вопросы информационного поиска, в процессе выполнения которого, соб-ственно говоря, и происходит непосредственное удовлетворение информационных потреб-ностей пользователя. Обобщение накопленных результатов было проведено в монографии сотрудников Всесоюзного института научной и технической информации (ВИНИТИ) , описавших методологические основы теоретической информатики.
Возможности практической реализации алгоритмов информационного поиска рез-ко расширились, когда в середине 1960-х — начале 1970-х годов вместо механических устройств стали достаточно широко применять электронно-вычислительные машины тре-тьего, а затем и четвертого поколений, на базе которых создавались автоматизированные системы сбора, анализа, классификации, хранения, передачи на расстояние, поиска и вы-дачи информации. В частности, исследовательская группа под руководством профессора Гарвардского университета Дж. Солтона разработала систему анализа и извлечения тек-ста SMART (Salton"s Magic Automatic Retriever of Text), в которой были впервые реализо-ваны многие базовые принципы современных поисковых систем. Теоретическое описание и осмысление этих принципов было проведено Дж. Солтоном в монографии , причем особый акцент в ней был сделан на изложении новых подходов к вопросам классификации документов и запросов, анализ содержания, интерактивного поиска и выдачи информа-ции. Эта книга и до сих пор не потеряла своей актуальности.
Технологической основой создания подобных информационно-поисковых систем бы-ло использование так называемых мэйнфреймов — многопользовательских централизо-ванных вычислительных систем, в которых массивы данных и программы их обработки располагались на мощной центральной ЭВМ, а пользовательский доступ осуществлялся посредством алфавитно-цифровых терминалов (дисплеев), работающих под управлением машин-сателлитов. Бытует мнение, что информационно-поисковые системы того времени не получили должного развития из-за недостаточной мощности и памяти тогдашних ЭВМ, так и с отсутствием качественных каналов связи (особенно дальней). Здесь проблемы бы-ли несколько другие. Во-первых, отсутствие универсальных сетевых протоколов, сильно ограничивало удаленный доступ к таким системам. Во-вторых, большая загрузка вычис-лительными задачами не позволяла организовать работу таких систем в круглосуточном режиме. Все это придавало информационно-поисковым системам преимущественно ло-кальный характер.
Не смотря на это, в информационных системах того времени был собран и системати-зирован колоссальный по тем временам объем информации. Например, в Новосибирском ВЦ СО РАН на машинах типа БЭСМ-6 хранилась вся подписках реферативных журна-лов ВИНИТИ, библиографические описания изданий, поступающих в ГПНТБ и большое количество научно-технической документации. Основные проблемы связанные с ее ис-пользованием — это отсутствие интерактивной работы, поскольку, как правило, запрос посылался с терминала, а ответ приходил в виде «километровой» распечатки на АЦПУ. И это была жизненная необходимость, поскольку анализировать ответ за дисплеем не представлялось никакой возможности. Ну а вторая проблема была связана с визуали-зацией материала — практически отсутствовало программное обеспечение позволявшее просматривать информацию в близком к печатному изданию виде.
В 1980-е годы мэйнфреймы стали постепенно вытесняться персональными компьюте-рами, которые позволяли обрабатывать информацию непосредственно на рабочем месте, без связи с центральным процессором, а, кроме того, обладали достаточно мощными (по тем временам) средствами визуализации информации. Это привело к существенному сни-жению интереса к созданию централизованных информационных систем и, как следствие, к приостановке фундаментальных научных исследований в области информационного по-иска, которые возобновились лишь с появлением сети Интернет, приведшим к распреде-ленному хранению информации.

2 Принципы организации информационно-справочных систем
Как уже отмечалось, что созданные в трудах К. Муэрса и Дж. Солтона фундаменталь-ные основы поиска информации являются актуальными и по сей день. Однако здесь есть небольшой нюанс в их использовании. «Классики» называли такие системы Information Retrieval System (IRS). В 1950 - 1970 годах англоязычный термин Information Retrieval (IR) переводили на русский язык как «информационный поиск», а соответственно, си-стемы этого класса называли информационно-поисковыми системами. В этих системах использовались ручные процедуры индексирования документов, создания тезаурусов и дескрипторов. Но, что чрезвычайно важно, эти системы предназначались для выделения информации (именно информации и именно выделения) из разных документов. «Выделе-ние» — это более точное значение слова retrieval. Сейчас в энциклопедиях IR определяется как искусство и наука поиска информации в документах и поиска собственно документов и описывающих документы метаданных в базах данных (в том числе сетевых). Подмно-жеством IR является выделение информации в тексте (Text Retrieval, TR) и выделение информации в документах (Document Retrieval, DR).
Мы напоминаем об этом, чтобы подчеркнуть различие между поиском как автомати-зированной процедурой и выделением требуемой информации в найденных документах. Суть различий состоит в следующем:
. Выделение информации — это деятельность человека, использующего поисковую машину. Она является интерактивной, итерационной и связана с другими видами интеллектуальной деятельности человека.
. Читатель ищет не документы как таковые, а содержащую в них информацию для каких-то собственных целей (обучения, принятия решений и др.).
. Читатель нуждается в доступе к разным источникам данных, чтобы получить все-объемлющее представление об объекте поиска.
. Какими бы совершенными ни были аппаратное и программное обеспечение, исполь-зуемые человеком, они остаются инструментами, а интеллект является атрибутом Читателя.
Наиболее радикальный этап «информационный революции» начался в 1990-е годы. Он был связан с по-настоящему массовым распространением мощных и недорогих пер-сональных компьютеров, которые могли быть подключены в созданную всемирную ком-пьютерную сеть Интернет. Именно сеть Интернет, отличающаяся от печатных изданий оперативностью размещения и доставки информации практически любого характера, а от классических электронных СМИ — возможностью передачи печатного текста, делает все более реальной перспективу создания единого информационного пространства чело-веческой цивилизации.
В настоящее время Интернет является главным источником электронных докумен-тов. Количество документов в сети поддается лишь косвенным, притом явно заниженным оценкам. Так, по состоянию на начало августа 2005 года число документов, проиндекси-рованных поисковой системой Yahoo, превысило 20 миллиардов документов, из них 19,2 миллиарда — текстовые документы, 1,6 миллиарда — изображения и около 50 миллио-нов — аудио- и видеофайлы . При этом, разумеется, нельзя утверждать, что Yahoo индексирует все интернет-документы.
Однако такое обилие потенциально доступных документов сделало особенно актуаль-ной задачу предоставления пользователям сети адекватных средств информационного по-иска, без которых Интернет мог бы превратиться в реальное воплощение «Вавилонской библиотеки». Говоря о средствах информационного поиска в сети Интернет, обычно под-разумевают поисковые системы, предоставляющие возможность поиска информации по всему Интернету (по крайней мере, по всем www-страницам). Такие системы известны всем пользователям Интернета: это Google, Yahoo, MSN и др. (из числа отечественных разработок наиболее популярны Yandex, Rambler и Mail.ru). Однако для поиска докумен-тов, относящихся к той или иной предметной области, пользователи Интернета нередко обращаются к тематическим каталогам интернет-ресурсов — структурированным наборам ссылок на документы соответствующей тематики.
Чтобы описать принципы работы средств информационного поиска, необходимо, преж-де всего, уточнить соответствующую терминологию. Основные термины и определения в области поиска и распространения информации с помощью автоматизированных инфор-мационных систем, а также информационно-поисковых языков регламентированы офи-циальными документами Российской Федерации: государственными стандартами ГОСТ 7.73-96 «Поиск и распространение информации» и ГОСТ 7.74-96 «Информационно-поисковые языки».
Итак, информационно-поисковая система (ИПС) представляет собой совокупность справочно-информационного фонда и технических средств информационного поиска в нем. В свою очередь, справочно-информационный фонд (СИФ) — это совокупность ин-формационных массивов (т. е. упорядоченных совокупностей документов, фактов или све-дений о них) и связанного с ними справочно-поискового аппарата (т. е. данных об адресах хранения документов с определенными поисковыми образами документа). Наконец, поис-ковый образ документа — это текст, состоящий из лексических единиц информационно-поискового языка (т. е. специального формализованного искусственного языка), выра-жающий основное смысловое содержание документа и предназначенный для реализации информационного поиска. Процесс выражения содержания документа на информационно-поисковом языке называется индексированием.
Заметим, что под содержанием документа в данном контексте обычно подразумева-ют не только более или менее краткое изложение того, о чем повествует документ, но и его «библиографические характеристики»: название документа, фамилии его авторов, вы-ходные данные и т. п. Совокупность извлекаемых в процессе индексации характеристик документа вместе с формальным описанием структуры этих характеристик обычно на-зывают метаданными. Более формально, метаданные — это структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентифи-кации, поиска, оценки, управления ими .
Структурирование данных призвано облегчить поиск документов, ибо одно и то же слово (например «Пушкин») может входить в список авторов документа, в его загла-вие, в аннотацию или даже в выходные данные (город Пушкин в Ленинградской области как место издания документа). Эти случаи могут быть разграничены именно благодаря структурированию метаданных.
Нетрудно понять, что документ становится доступным для поиска с помощью той или иной информационно-поисковой системы, если его метаописание (т. е. совокупность мета-данных) попадает в справочно-информационный фонд этой системы. Но каким образом осуществляются поиск и индексация интернет-документов, заносимых в СИФ? Поиско-вые системы общего назначения используют поисковые роботы (их английское название — «crawler», т. е. «ползун»), которые последовательно просматривают интернет-документы, переходя от одного к другому посредством гиперссылок, и извлекают их метаданные. Ра-зумеется, поисковые роботы периодически просматривают документы, уже занесенные в СИФ информационной системы, чтобы установить, существуют ли они в настоящее время и не претерпели ли они каких-либо существенных изменений. При составлении тематиче-ских каталогов интернет-ресурсов также зачастую используются поисковые роботы, ко-торые, однако, собирают данные о документах лишь с сайтов соответствующей тематики. Сетевые имена таких сайтов, как правило, указываются экспертами в данной предметной области, при этом допускается и непосредственное занесение экспертами сведений об от-дельных интернет-документах. Наконец, некоторые специализированные информационно-поисковые системы создаются исключительно вручную, при этом размер их поисковых массивов может быть весьма внушителен. Так, очень популярная в среде математиков база данных журнала «Zentralblatt MATH» содержит почти 3 миллиона записей — биб-лиографических сведениях (включая довольно подробные аннотации) о математических публикациях, вышедших в свет за последние полтора века. Эти сведения заносятся в базу данных учеными-математиками из разных стран, реферирующими публикации по своей специальности, причем каждой записи соответствует динамически формируемый интернет-документ.
Но всё-таки справочно-информационные фонды большинства информационно-поиско-вых систем, работающих с интернет-документами, пополняются не вручную, а с помощью тех или иных программ, автоматизирующих поиск и индексацию документов. И здесь-то, в процессе индексации документа, проявляется основная проблема использования таких программ: автоматическое структурирование метаданных оказывается весьма непростой задачей. Чтобы убедиться в этом, достаточно просмотреть небольшое число интернет-документов, например, научной тематики. Можно легко увидеть, что в некоторых случа-ях фамилии авторов пишутся перед названием документа, а в некоторых, наоборот, после названия. Каким образом программа должна определять, что именно заносить в полет «авторы» данного документа, а что — в поле название? Заметим, что простейшие ва-рианты решения этой проблемы (типа «дополнить индексирующую программу словарем фамилий») оказываются малоэффективными. И дело не только в необходимости огром-ного (и не существующего на практике) объединенного словаря фамилий разных наций с вариантами транскрипций на других языках. Проблема состоит еще и в том, что многие фамилии (особенно в языках со слабовыраженным изменением словоформ при помощи окончаний) совпадают с «обычными» словами языка. Кроме того, фамилия может яв-ляться названием документа, например книги или статьи биографического характера.
Наличие указанных проблем привело к тому, что обычной практикой универсальных поисковых систем является представление поискового образа документа в виде неструкту-рированного набора ключевых слов — информативных слов, приведенных к стандартной лексикографической форме. Информативными словами, согласно ГОСТу 7.74-96, называ-ются слова, словосочетания или специальные обозначения в тексте документа (или запро-са), выражающие понятия, существенные для передачи содержания документа. Конкрет-ные критерии включения слова или словосочетания к множеству информативных слов зависят от вида ИПС. Так, в универсальных поисковых системах в качестве информатив-ных рассматриваются практически все слова, включая служебные. Напротив, в специа-лизированных информационно-поисковых системах, для которых набор ключевых слов — один из компонентов структуры метаданных документа, множество информативных слов обычно строится на основе предметного указателя соответствующей предметной области (содержащего наряду с одиночными словами и весьма сложные словосочетания), в то вре-мя как слова, относящиеся к «общеупотребительной» лексике, в число информативных не включаются.
Поскольку совершенно очевидны преимущества структурированного описания доку-мента перед неструктурированным (о чем уже говорилось выше), постольку организаци-ями, пытающимися выступать в качестве «законодателе мод» в сети Интернет, прежде всего консорциумом W3C, неоднократно предпринимались попытки предоставить созда-телям интернет-документов возможность явно указывать значения основных элементов метаданных документа, что позволило бы значительно повысить эффективность функци-онирования поисковых роботов. Так, еще в середине 1990-х годов в спецификации языка гипертекстовой разметки документов HTML было четко прописано, что каждый документ обязан иметь ровно один элемент TITLE («название») в поле HEAD («заголовок»). Более то-го, в описании языка HTML появился элемент META, предназначенный для записи парных элементов NAME:CONTENT («название:значение»), описывающих свойства данного докумен-та: фамилия автора, список ключевых слов и т. п.
Заметим, однако, что спецификация языка HTML не предусматривала каких-либо кон-кретных названий для обозначения элементов, содержащих информацию о фамилии ав-тора, ключевых словах и пр. Ввиду этого даже при наличии в индексируемом документе элементов META задача автоматического определения его структуры оставалась труд-норазрешимой. Наиболее известным подходом к ее решению стал предложенный в 1995 году на семинаре, проводившемся Национальным центром суперкомпьютерных приложе-ний (NSCA) в городе Дублин (штат Огайо, США), базовый набор из 15 полей метаданных, предназначенный для описания ресурсов, публикуемых в Интернете. В этот набор вошли такие общие свойства документов, как название, дата публикации, автор, издатель, вла-делец. Таким образом, в любом документе должно было существовать ядро метаданных, о которых заранее известно, как их следует интерпретировать. Эти предложения были опубликованы под рабочим названием Dublin Core metadata, которые впоследствии стали фундаментом проекта Dublin Core Metadata Initiative .
Названные идеи получили дальнейшее развитие в проекте Semantic Web, суть кото-рого заключается в создании сети документов, содержащих метаданные «исходных» до-кументов сети Интернет и существующей параллельно с ними. Эта «параллельная» сеть предназначена специально для построения поисковыми роботами (и другими интеллек-туальными агентами) однозначных логических заключений о свойствах «исходных» до-кументов. Основные принципы создания Semantic Web (до практической реализации ко-торой, впрочем, еще очень далеко) основаны на повсеместном использовании, во-первых, универсальных идентификаторов ресурсов (URI) посредством расширения этого понятия на объекты, недоступные для скачивания из Интернета (персоны, географические сущно-сти и т. п.), а во-вторых — онтологий (т. е. формальных моделей описания тех или иных предметных областей) и языков описания метаданных.
К сожалению, ни один из перечисленных подходов не стал по-настоящему широко распространенным. В этом без труда можно убедиться, просмотрев произвольный набор интернет-документов. Почти наверняка в большинстве из них будут отсутствовать эле-менты META, содержащие фамилии авторов, список ключевых слов и т. п. Причины сложившейся ситуации широко обсуждаются в интернет-сообществе, но, несомненно, к числу основных причин относится «человеческий фактор».
Во-первых, ввиду широкой распространенности интернет-технологий теоретическая подготовка многих создателей интернет-ресурсов оставляет желать лучшего, и они за-частую просто не знают о назначении элемента META в языке HTML. Во-вторых, явное указание значений метаданных — процесс весьма трудоемкий, поэтому даже те создатели ресурсов, которые знают о технологии метаданных, не всегда считают нужным тратить время и силы на работу с ними, тем более что разработчики универсальных поисковых систем, исходя из описанной ситуации, не слишком-то полагаются на возможность авто-матического получения структурированного поискового образа индексируемого докумен-та, ибо процент документов, подробно описанных создателями, весьма невелик. В итоге складывается своеобразный порочный круг, который в ближайшее время вряд ли будет разорван.
В несколько лучшем положении находятся создатели тематических каталогов интер-нет-ресурсов, поскольку количество организаций, работающих в той или иной области че-ловеческой деятельности, а также веб-сайтов, публикующих действительно ценную и/или новую информацию соответствующей тематики, как правило, довольно невелико. Важно отметить, что реальные технологии создания подавляющего большинства сайтов таковы, что однородные документы с одного сайта имеют практически одинаковую html-разметку. При этом неважно, генерируются ли документы динамически (в этом случае однородность разметки — естественное следствие работы соответствующей программы) или же они со-здаются вручную посредством создания копии уже имеющегося документа с последующей заменой текста (что также сохраняет разметку). Данное обстоятельство позволяет авто-матизировать процесс индексации метаданных интернет-документа посредством указания шаблона документов того или иного сайта, т. е. явному указанию команд (тэгов) языка HTML, обрамляющих основные характеристики документа: авторы, название, ключевые слова, аннотация, коды того или иного классификатора и т. п. .

3 Составление поисковых предписаний

Из предыдущего пункта мы получили некоторое представление о том, как устро-ен справочно-информационный фонд ИПС. Чтобы сделать запрос, мы должны, прежде всего, составить поисковый образ запроса, т. е. его формальное представление в терми-нах информационно-поискового языка. После этого составляется поисковое предписание, включающее поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска. ИПС сравнивает поисковое предписа-ние с хранящимися в ее справочно-поисковом аппарате поисковыми образами документов (при этом в большинстве поисковых систем ключевые слова по умолчанию приводятся к стандартной лексикографической форме) и выдает сведения: адреса хранения и, как правило, краткие описания, — о документах, поисковые образы которых соответствуют (т. е., фактически, не противоречат) поисковому предписанию.
Например, поисковое предписание для ИПС интернет-магазина, торгующего мужски-ми костюмами, может выглядеть примерно так:
(рост = 176) и (размер = 104) и ((цвет = "черный") или (цвет = "темно-синий"))
и (страна-производитель = не "Китай") и (цена < 7000 руб.)
При этом, коль скоро не указаны значения таких элементов метаданных, как материал и тип костюма (пара или тройка), то подразумевается, что пользователя устраивают любые значения этих элементов метаданных.
Простейшая формальная модель с использованием структурированных метаданных документов выглядит следующим образом. Пусть в справочно-поисковом аппарате ИПС хранится информация о документах di. При этом любой документ di представляется как di =< mjjk >, где mj"fc — принадлежит множеству значений элементов метаданных Mj, k — количество значений (с учетом повторений) соответствующего элемента метаданных в описании документа. Рассмотрим подмножество метаданных Mc, определяющее набор классификационных признаков документов, используемых для составления поискового предписания (с учетом заданных логических операций). Для фиксированного элемента метаданных Mj, где Mj С Mc , множество документов разбивается на классы эквивалент-ности, соответствующие различным значениям этого элемента метаданных.
Будем считать два документа толерантными, если у них совпадает значение хотя бы од-ного из элементов метаданных, входящих в Mc (напомним, что толерантность — отноше-ние, которое обладает свойствами рефлексивности и симметричности, но, вообще говоря, может не обладать, в отличие от отношения эквивалентности, свойством транзитивности). Каждое такое значение порождает класс толерантности .
Рассмотрим всевозможные сочетания значений элементов метаданных, входящих в Mc. Множества документов, обладающие одинаковым набором значений, суть ядра толе-рантности, которые служат классами эквивалентности на множестве документов.
Таким образом, поисковое предписание, содержащее подмножества метаданных, опре-деляющего набор классификационных признаков, и сочетаний значений этих метаданных при помощи логических операций, определяет конкретное ядро толерантности на множе-стве документов, которое и выдается пользователю в качестве ответа на его информаци-онный запрос.
К сожалению, в ИПС общего назначения поисковые образы документов, как уже отме-чалось в предыдущем пункте, структурированы весьма слабо. Обычно пользователь таких систем имеет возможность включить в поисковый образ запроса (точнее, в ту его часть, которую описывает содержание требуемого документа) лишь ключевые слова или словосо-четания, указав при этом, где именно они должны содержаться: в заголовка веб-страницы или в ее тексте. Остальные поля в форме поискового запроса касаются языка документа, региона расположения сервера размещения документа, формата файла, структуры его url-адреса и т. п., т. е. не имеют непосредственного отношения к содержанию документа.
Впрочем, построение более или менее сложного поискового предписания способно вы-звать затруднение у большинства рядовых пользователей, даже если им предоставлен удобный интерфейс, не требующий непосредственного использования языка запросов. Трудности возникают на уровне понимания схем данных и использования логических опе-раторов. В частности, преподавательский опыт одного из авторов показывает, что даже студенты старших курсов, специализирующиеся в области информатики, при выполнении задания типа «сделать запрос, выдающий данные за 3 и 5 октября», нередко связывают даты логическим оператором «И».
Развитыми возможностями построения поисковых предписаний обладают, как прави-ло, специализированные ИПС, справочно-информационный фонд которых содержит хо-рошо структурированные поисковые образы документов, причем возможности поискового интерфейса напрямую зависят от априорно оцениваемой возможности построения рядо-выми пользователями сложных логических запросов. Так, в уже упоминавшейся базе дан-ных журнала «Zentralblatt MATH», предназначено для профессиональных математиков, функция «Расширенный поиск» позволяет соединять в поисковом предписании при помо-щи логических связок до 5 значений элементов медатанных (притом сами эти элементы, с возможными их повторениями выбираются пользователем самостоятельно из общего списка), дополнительно указывая тип искомого документа и временной интервал его пуб-ликации.
И всё же нельзя не отметить, что умение формально записать поисковый запрос, пусть и весьма сложный, — дело, собственно говоря, не слишком-то хитрое, требующее лишь известного опыта и небольших технических навыков. Гораздо нетривиальнее задача пра-вильно выразить свою информационную потребность, т. е. неформально задать «характе-ристики предметной области, значения которых необходимо установить для выполнения поставленной задачи в практической деятельности» (ГОСТ 7.73-96).
Наиболее простая ситуация возникает, когда пользователь хочет найти конкретный документ, адрес хранения которого, однако, неизвестен. В этом случае задание в поиско-вом предписании в качестве ключевых слов имени автора документа и его названия, как правило, позволяют довольно быстро добиться нужного результата, даже если ИПС не предоставляет возможность структурировать вхождение перечисленных ключевых слов применительно к соответствующим полям метаданных. В последнем случае наибольшие проблемы могут возникнуть, если искомый документ относится к разряду «хрестоматий-ных» (как например «Гамлет» У. Шекспира, «Фауст» И.-В. Гёте или «Евгений Онегин» А. С. Пушкина) и существует масса документов, просто упоминающих о нем. Один из эф-фективных приемов решения подобной проблемы состоит в дополнении поискового пред-писания какой-либо достаточно длинной цитатой из текста (по возможности, не самой общеупотребительной).
Однако на практике пользователю обычно требуется найти не какой-то конкретный, заранее известный документ, а некие сведения (факты), знание которых необходимо для решения поставленной задачи (или же для удовлетворения любопытства). Возникающая при этом ситуация напоминает сюжет известной русской сказки «Пойди туда — не знаю куда, принеси то — не знаю что» (впрочем, подобные сказки известны в фольклоре мно-гих народов мира — от Ирландии до Китая ), причем акцент ставится на первой части фразы, поскольку о том, что именно ему нужно, пользователь все-таки имеет некоторое представление. Сказочного Федота-стрельца вел к цели волшебный мячик. А как же сле-дует составить поисковый запрос, чтобы скорее достигнуть поставленной цели?
«Лобовая атака» в форме постановки прямого запроса типа «Какова девичья фамилия жены М.Е.Салтыкова-Щедрина?» обычно не приведет к желаемому результату, посколь-ку современный уровень развития поисковых систем общего назначения не предполагает диалога с пользователем на естественном языке. Отметим, что поставленный выше вопрос — не совсем тривиальный, ибо ответы на «совсем тривиальные» вопросы типа «Где родил-ся М.Е.Салтыков-Щедрин?» поисковые системы обычно всё-таки находят, поскольку по-давляющее большинство биографий писателя начинаются примерно так: «М.Е.Салтыков-Щедрин родился в январе 1826 года в селе Спас-Угол Тверской губернии» (слово «где» как служебное поисковой системой во внимание обычно не принимается). Кроме того, со-здатели некоторых веб-страниц, содержащих часто разыскиваемую в Сети информацию (обычного не научного, а «бытового» характера), иногда включают предполагаемый вид пользовательского запроса (точнее, вопроса) в поисковый образ документа.
Более надежным способом составления поискового предписания представляется вклю-чение в поисковый образ запроса ключевых слов (или словосочетаний), которые, по мне-нию пользователя, непременно должны входить в текст документа, содержащего нужные сведения. Однако здесь возникает следующая дилемма: если включить в поисковый за-прос небольшое количество «наиболее вероятных» слов, то его результатом будут сотни (а то и тысячи) документов, далеко не все из которых будут содержать ответ именно на по-ставленный вопрос. Если же включить в запрос много «предполагаемых» ключевых слов (или даже целую фразу), то мы рискуем получить на выходе пустое множество докумен-тов, поскольку авторы документов требуемой тематики могли описывать интересующий пользователя предмет фразами, несколько отличающимися от заданной в запросе.
Итак, в процессе поиска документов, содержащих некие интересующие нас факты, сто-ит задача сформулировать поисковое предписание таким образом, чтобы получить в ре-зультате его выполнения не пустое множество документов, в котором процент «нужных» документов как можно более велик. Это резко повышает шансы сократить количество до-кументов, просмотренных «впустую», т. е. прежде чем мы наткнемся на «нужный» доку-мент. Проблемы, связанные с получением количественных оценок эффективности поиска, будут рассмотрены ниже.

4 О поиске «по аналогии»

В предыдущем пункте мы рассматривали ситуацию, когда поисковый образ запроса задается пользователем как некое «идеальное представление» о поисковом образе искомо-го документа. Однако, как уже отмечалось в начале статьи, информационные потребности научных работников, когда они в процессе исследования находятся на этапах изучения уже имеющихся в данной области результатов и научного поиска, характеризуются невысокой четкостью осознания и выражения. Опять-таки имеет место ситуация «Пойди туда — не знаю куда, принеси то — не знаю что», однако теперь уже акцент ставится на второй ча-сти фразы, поскольку известно, что описания документов, относящихся к той или иной научной тематике, заносятся в соответствующие реферативные базы данных. С другой стороны, у каждого исследователя за годы его работы образуется картотека библиогра-фических описаний статей, книг и т. д., представляющих для него интерес. Основной критерий их отбора — личные интересы ученого. В настоящее время такие картотеки хранятся, как правило, на электронных носителях.
Таким образом, возникает задача нахождения по данному множеству документов клас-са схожих по содержанию документов (поиск «по аналогии»). В качестве информаци-онного запроса предполагается задание непустого множества документов, а в качестве результата выполнения запроса выдаются документы, каждый из которых в определен-ном смысле близок к одному из документов, входящих в заданное множество. Процесс разбиения множества документов электронной базы на классы, при котором элементы, объединяемые в один класс, имеют большее сходство, нежели элементы, принадлежащие разным классам, называется кластеризацией.
Количественная характеристика меры сходства определяется на множестве докумен-тов D следующим образом:
m: D х D — ,
причем функция m в случае полного сходства принимает значение 1, в случае полного различия — 0. Вычисление меры сходства осуществляется по формуле вида

M(di, d2) = aimi (di, d2), (1)
где i — номер элемента (атрибута) метаданных документа, ai — весовые коэффициенты, причем ai = 1, mi(d1,d2)— мера сходства по i-му элементу (иными словами, по i-й шкале). Поскольку в описываемой ситуации практически все шкалы — номинальные (со-стоящие из дискретных текстовых значений), то мера сходства по i-й шкале определяется следующим образом: если значения i-ых атрибутов документов совпадают, то мера близо-сти равна 1, иначе 0. При этом необходимо учитывать, что значения атрибутов могут быть составными. В таком случае mi = ni1 /ni0, где nio = maxnio(d1),nio(d2), а nio(dj)— общее количество элементов, составляющих значение i-го атрибута документа dj, ni1 — количе-ство совпадающих элементов. Заметим, что в качестве шкал целесообразно использовать следующие элементы метаданных: авторы, ключевые слова, текст аннотации. Кроме того, при задании меры можно принять во внимание тот факт, что значения весовых коэф-фициентов в формуле (1) определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы и в определённых случаях один из коэффициентов мо-жет быть увеличен с пропорциональным уменьшением остальных. Например, полное (или даже «почти полное») совпадение значений атрибута «авторы» документа d1 и документа d2 более весомо в случае, когда количество значений этого атрибута в документе d1 доста-точно велико (по сравнению со случаем, когда документ d1 имеет всего одного автора).
Основная проблема кластеризации документов заключается в таком разнесении доку-ментов по группам, при котором элементы каждой группы были бы настолько сходны друг с другом, чтобы в некоторых случаях можно было пренебречь их индивидуальными особенностями. При кластеризации документов важно прийти к разумному компромис-су относительно размера кластеров, избегая как формирования большого числа очень мелких кластеров (что снижает эффективность кластеризации как выделения множеств схожих документов), так и небольшого количества очень крупных классов (что может вы-звать уменьшение точности поиска). Исследование различных алгоритмов кластеризации документов с целью выявления оптимального алгоритма для разбиения массива записей электронной базы с информацией о научных публикациях, на кластеры, содержащие в себе статьи по сходной тематике, проведено в работе .

5 Оценка эффективности поиска
Два основных понятия, в которых дается оценка эффективности поиска, определены в ГОСТ 7.73-96, причем эти определения остались практически неизменными с 1960-х годов (см. с. 282-283): релевантными называются документы, содержание которых соответ-ствует информационному запросу, а пертинентными — содержание которых соответствует информационной потребности. Разумеется, два этих понятия хотя и близки, но отнюдь не эквивалентны. Источник появления в выдаче нерелевантных документов — ошибки в описаниях и программном коде поисковых систем, а также прочие организационно-технические причины. При этом в тех случаях, когда поиск производится путем задания конкретного поискового запроса, возможно объективно судить о релевантности того или иного документа, вошедшего в выдачу, поскольку причиной выдачи нерелевантных до-кументов (совокупность которого называется поисковым шумом) являются погрешности в индексировании документов (ручном или автоматическом), проявляющиеся, например, во внесении в поисковый образ документа «лишних» слов. Такая ситуация может возник-нуть не только в результате явных ошибок, но и «языковых коллизий». Например, слова «вино» и «вина» имеют в некоторых падежах совпадающие словоформы, вследствие чего в поисковый образ документа, содержащего выражение «в вине», при автоматическом ин-дексировании (которое, как правило, не сопровождается семантическим анализом текста) будут включены оба названных слова. Тем самым при включении в поисковый запрос сло-ва «вино» будут выданы, в том числе, документы, содержащие слово с начальной формой «вина», которые являются, вообще говоря, нерелевантными. Обратите внимание, что при построении примера мы не могли ограничиться простыми омонимами, поскольку, напри-мер, при запросе «лук» релевантными будут документы как об оружии, так и о растении.
В тех же случаях, когда поиск производится «по аналогии», оценка релевантности до-кумента носит более субъективный характер, поскольку такой поиск допускает произвол в способе задания меры сходства, в установлении ее порогового значения, отделяющего «похожие» документы от «непохожих» и т. п. Но даже если мы сочтем все эти парамет-ры неотъемлемой частью поискового предписания, т. е. декларируем их «объективный» (для данного конкретного предписания) характер, то всё равно останется практически неустранимая зависимость результата поиска «по аналогии» от всей совокупности доку-ментов, входящих в информационный массив. Попросту говоря, вывод о схожести объек-та «кошка» с объектом «корова» различается в случае, когда «информационный массив» есть множество лев, корова, и в случае, когда «информационный массив» — корова, кобра (или даже лев, корова, кобра).
Что же касается пертинентности, то понятие это — сугубо субъективное, поскольку потребности (не обязательно информационные) разных людей, пусть даже и выраженные одними и теми же словами-запросами, могут быть весьма различны. Так, потребность в супе с точки зрения среднестатистического русского удовлетворяется посредством щей или борща, а с точки зрения среднестатистического француза — посредством супа-пюре.
Уже из этого примера видно, что пертинентность выдачи может быть повышена по-средством коррекции поискового предписания, формулируемого в соответствии с пред-полагаемым пониманием соответствующей потребности информационной системой (или, если угодно, разработчиками системы). Яркой иллюстрацией этого тезиса служит извест-ный анекдот, в котором на вопрос пролетавших над незнакомой местностью воздухопла-вателей: «Где мы находимся?» прохожий-математик дал абсолютно релевантный, но не пертинентный ответ: «В корзине воздушного шара». Конечно, объектом шутки здесь яв-ляется буквализм математика, но ведь именно такое поведение характерно и для компью-терных алгоритмов. Поэтому правильно сформулированый запрос типа: «Каковы наши географические координаты?» или (если уж ориентироваться как на буквалиста, так и на обычного прохожего): «Вблизи какого населенного пункта мы пролетаем?» мог бы привести к пертинентному ответу.
В заключение перечислим основные количественные характеристики информационно-го поиска:
. коэффициент полноты: отношение числа найденных релевантных документов к об-щему числу релевантных документов, имеющихся в информационном массиве,

Recall = \DretП Dretr\/\Dre{\,
где Drei — множество релевантных документов в информационном массиве, а Dretr — множество найденных документов,
. коэффициент точности: отношение числа найденных релевантных документов к об-щему числу документов в выдаче,

Precision = \DrelП Dretr \/\Dretr \,

Коэффициент шума: отношение числа нерелевантных документов в выдаче к общему числу документов в выдаче,

Noise = \Dnrel П Dretr \/\Dretr \,

Где Dnrei — множество нерелевантных документов в информационном массиве.
Заметим, что ни точность, ни полнота, взятые отдельно, не гарантируют высокого ка-чества поиска. Так, выдача всех документов, имеющихся в информационном массиве, даст значение коэффициента полноты, равное 1, но точность при этом будет невысокой. Напро-тив, если выдан только один документ, и притом релевантный, то коэффициент точности равен 1, но при большом количестве ненайденных релевантных документов коэффициент полноты будет очень мал. Чтобы соблюсти баланс между полнотой и точностью, на прак-тике используют так называемую F-меру (меру Ван Ризбергена), являющуюся средним гармоническим полноты и точности:

F = 2 х Recall х Precision/(Recall + Precision).

Заключение
Итак, мы проделали краткий экскурс в вопросы истории автоматизации информа-ционного поиска, ознакомились с основными принципами работы современных инфор-мационно-поисковых систем и приемами построения поисковых предписаний и, наконец, изложили основные подходы к оценки эффективности поиска. Нетрудно заметить, что со-временное развитие алгоритмов информационного поиска характеризуется усложнением и даже «интеллектуализацией» поисковых алгоритмов. Вероятнее всего, в будущем клю-чевым термином станет раскопка текстов (text mining), иногда называемая аналитикой текстов (text analytics) или раскопкой контента (content mining). А значит, в перспективе мы станем свидетелями конвергенции науки об информации и компьютерной науки.

Список литературы
Арский Ю.М., Гиляревский Р.С., Туров И.С., Черный А.И. Инфосфера: Информаци-онные структуры, системы и процессы в науке и обществе // М.: ВИНИТИ, 1996.
Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для класте-ризации текстовых документов // Вестник НГУ. Сер. Информационные технологии.
— 2008. — Т. 6, Вып. 1. — С. 3-9.
Барахнин В.Б., Федотов А.М. Ресурсы сети Интернет как объект научного исследо-вания // Известия вузов. Проблемы полиграфии и издательского дела. — 2008. — №
1. — С. 70-77.
Ляпунов А.А. О соотношении понятий материя, энергия и информация //В кн.: Ляпунов А.А. Проблемы теоретической и прикладной кибернетики. — Новосибирск:
Наука, 1980. — С. 320-323.
Михайлов А.И., Черный А.И, Гиляревский Р.С. Основы информатики. М: Наука,
1968.
Народные русские сказки под редкцией А.Н.Афанасьева в трех томах. Том II. М: Наука, 1985.
Отле П. Библиотека, библиография, документация: Избранные труды пионера ин-форматики / Пер. с англ. и фр. М.: ФАИР-ПРЕСС, Пашков дом, 2004.
Федотов А.М. Парадоксы информационных технологий // Вестник НГУ. Сер. Ин-формационные технологии. -- 2008. -- Т. 6, вып. 2. —- С. 3-14.
Черняк Л. Статистическая машина Эмануэля Гольдберга // Открытые системы, 2004, № 03 (http://www.osp.ru/os/2004/03/184081/).
Шрейдер Ю.А. Равенство, сходство, порядок. М.: Наука, 1971.
Шокин Ю.И., Федотов А.М., Гуськов А.Е., Жижимов О.Л., Столяров С.В. Элек-тронные библиотеки — путь интеграции информационных ресурсов Сибирского от-деления РАН // Вестник КазНУ, специальный выпуск. - г. Алматы, Р. Казахстан, Казахский национальный университет им. аль-Фараби. - 2005 г., № 2. - С. 115-127.
Bush V. As We May Think // The Atlantic Monthly, July, 1945 (http://www.theatlantic.com/doc/194507/bush).
Dublin Core Metadata Initiative (http://dublincore.org/).
Mayer T. Our Blog is Growing Up — And So Has Our Index (http://www.ysearchblog.com/archives/000172.html).
Otlet P. Traite de documentation. Bruxelles: Ed. Mundaneum, 1934.
Price D.J. de Solla. Little Science, Big Science. N.Y., L.: Columbia Univ. Press, 1963. / Рус. пер. Прайс Д. Малая наука, Большая наука // Наука о науке. М.: Прогресс, 1966. С. 281-385.
Salton G. Dynamic Information and Library Processing. N.J.: Prentice Hall, 1975. / Рус. пер. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир,
1979.
Тask Force on Metadata. Summary Report. // American Library Association. 1999. Т. June.

Хорхе Франсиско Исидоро Луис Борхес Асеведо — Jorge Francisco Isidoro Luis Borges Acevedo.
Информация и информационные ресурсы существовали всегда, но эти ресурсы из-за своей специфич-ности не рассматривались ранее как отдельная экономическая категория, несмотря на то, информация всегда использовалась людьми для управления и решения насущных задач.
Здесь мы не будем говорить о крупнейших библиотеках древности, поскольку в них проблемы поиска не были столь актуальны.
Дерек Де Солла Прайс — Derek J. de Solla Price.
Поль Отле — Paul Otlet.
Термин «информатика» принадлежал когда-то скромной науке, ведавшей именно информацией, в основном научно-технической. Термин «информатика» (франц. informatique) родился в 1960 году, условно происходит от французских слов information (информация) и automatique (автоматизация) и дословно означает «информационная автоматизация».
Борхес был профессиональным библиотекарем (библиографом) и даже одно время занимал пост ди-ректора Национальной библиотеки Аргентины.
Эммануэль Гольдберг — Emanuel Goldberg — немецкий инженер, выходец из России.
Вэннивер Буш — (Vannevar Bush.
Кельвин Муэрс — Calvin Northrup Mooers.
пДжерард Солтон — Gerard Salton.

Казалось бы, нет ничего проще, чем найти нужные данные в Сети. В реальности с этим может справиться даже тот, кто впервые воспользовался услугами поисковых систем. Однако в то же время с эффективностью такого поиска можно будет серьезно поспорить. Намного меньше времени можно потратить на поиск информации в Сети, располагая необходимыми сведениями об особенностях работы популярных поисковых систем.

В глобальной Сети применяют во время обработки запросов собственную машинную логику. Опираясь на несколько несложных правил и располагая достаточной информацией об использовании популярных поисковиков, можно значительно ускорить процесс нахождения необходимой информации, а самое главное - в результате вы получите именно то, что требуется.

Особенности составления поискового запроса

Как правильно искать в Интернете необходимую информацию? Для этого, в первую очередь, необходимо знать эффективные приемы удачного составления поисковых запросов. Выполнение поиска по единственному слову обычно приводит к выдаче результатов в виде миллионов страниц, большинство из которых абсолютно не относится к делу. Если в поисковой строке находится от четырех до шести значений и более, количество результатов автоматически сокращается до нескольких тысяч и сотен, а иногда ограничивается лишь парой страниц.

Более того, поиск в Интернете нуждается в составлении грамотных запросов. Чем точнее указано искомое слово или словосочетание, тем выше вероятность обнаружить необходимые данные на первой же странице в выдаче результатов. Все дело в том, что поисковикам далеко не всегда удается исправить ошибки орфографии, допущенные пользователем, а некоторые из них попросту упускаются. А ведь в отдельных случаях точность запроса может оказаться достаточно принципиальной.

Помимо прочего, не следует игнорировать необходимость введения заглавных букв, если запрос касается поиска человека по фамилии либо имен собственных. В противном случае среди подходящих страниц в результате поиска обязательно будет присутствовать достаточная масса неподходящих, косвенно касающихся запроса данных.

Почему важно использовать несколько поисковых систем?

Выполняя поиск в Интернете, крайне важно применять, как минимум, два поисковика. Ведь на получение результатов при этом будут влиять разные способы То, что не замечает один поисковик, обязательно заметит другая система. Например, использование отечественной поисковой системы может переместить необходимую информацию на несколько страниц вперед, и в то же время иностранная выдаст тот же результат в первой пятерке.

Выполнение поиска согласно синонимам

Что больше ищут в Интернете? Обычно предметом поиска пользователей оказывается медиа контент и развлечения, в частности, фильмы, музыка, компьютерные игры. При этом люди далеко не всегда нуждаются в нахождении конкретного запроса. Часто в результатах выдачи необходимо увидеть общую информацию, различные варианты одного значения.

Для поиска схожей информации согласно выбранному запросу применяется символ «~», который необходимо расположить перед запросом в поисковой строке. Например, задав запрос «~лучшие игры», в конечном итоге можно увидеть ссылки на страницы, где не будет присутствовать ни одного совпадения с определением «лучшие». Однако здесь окажется достаточно синонимов к данному определению.

Как получить несколько результатов одновременно?

Как искать информацию в Интернете, чтобы получить одновременно несколько результатов выдачи? Для этого используется разделение пары запросов специальным оператором «|», который может располагаться, как между несколькими словами, так и фразами. Например, разделив таким образом запросы «купить автомобиль» и «купить мотоцикл», можно быстро получить страницы, содержащие оба варианта.

Использование преимуществ расширенного поиска

Применение функции расширенного поиска дает возможность избежать самостоятельного формирования уточняющих запросов. Вместо этого можно воспользоваться теми вариантами, которые предлагает непосредственно поисковая система.

Большинство поисковиков знают, что искать в Интернете намного лучше по сравнению с самыми продвинутыми пользователями, так как основывают свою работу на статистике формирования популярных запросов. Поэтому задавая поисковику запрос в виде искомого слова, лучше сразу же конкретизировать его при помощи функционала расширенного поиска.

Как быстро отыскать значение незнакомого понятия?

Что люди ищут в Интернете? Нередко предметом поиска становятся незнакомые пользователю материалы, а также понятия, в сути которых нужно разобраться. Чтобы моментально отыскать значение тех или иных определений, достаточно всего лишь разместить перед запросом «define:».

Просмотр результатов из первого десятка страниц

Что искать в Интернете? В первую очередь, обращать внимание следует на первые результаты выдачи поисковой системы. Ведь именно здесь обычно встречаются не только самые соответствующие запросу данные, но также результаты, найденные на наиболее популярных среди пользователей страницах. Как правило, это самые уважаемые, проверенные Интернет порталы с содержанием точной, отвечающей запросам пользователя информации.

Уточнение географии искомых данных

Наименее актуальной необходимость уточнения географии запроса выглядит для жителей столиц и крупных городов, однако она остается важной для пользователей из отдаленных регионов. Несмотря на автоматическое определение местоположения пользователя, которое выполняется большинством продвинутых поисковых систем, в результатах на первых позициях обязательно окажутся ссылки, связанные с крупными населенными пунктами. Ведь именно в таких местах сконцентрирована основная масса активных пользователей.

Исходя из вышесказанного, не стоит слишком надеяться на то, что поисковик определит, из какой точки на карте исходит запрос. Вместо этого лучше сразу же добавить к искомому запросу упоминание о месте своего пребывания.

Не стоит забывать и жителям столичных областей, что искать в Интернете информацию подобным образом наиболее целесообразно. Ведь нужные товары или услуги запросто могут оказаться за пределами города. Иногда самое простое упоминание конкретного региона, улицы или даже станции метро способствует быстрому нахождению необходимых магазинов, компаний или сервисов, которые располагаются ближе всего по отношению к месту пребывания пользователя.

Федеральное агентство по образованию

Смоленский государственный университет

Технологии поиска информации в сети Интернет.

Смоленск


Введение…………………………………………………………………………..

1.Классификация поисковых систем …………………………………………...

2.Приемы поиска………………………………………………………………....

2.1.Простой поиск………………………………………………………………..

2.2.Расширенный поиск………………………………………………………….

3.Тематический каталог Yahoo.…………………………………………………

4.Автоматический индекс Alta Vista……………………………………………

5.Поиск информации в конференциях (Usenet)………………………………..

6.Отечественные поисковые службы …………………………………………..

6.1.Rambler……………………………………………………………………….

7.Поиск файлов …………………………………………………………………..

8.Источники специализированной информации ………………………………

9.Поиск отдельных людей в сети Internet ……………………………………...

10.Метапоиск……………………………………………………………………..

11.Эффективный поиск информации…………………………………………...

Заключение……………………………………………………………………….

Литература………………………………………………………………………..

Введение

Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство".

1. Классификация поисковых систем

Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.

Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически.

Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Web-документов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным.

Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий:

Science (Наука)

Physics (Физика)

Theoretical Physics (Теоретическая физика)

Theories (Теории)

String Theories (Теорииструн)


В результате будет получен список сайтов, среди которых наибольший интерес представляет сайт Superstrings. Щелкнув мышью на гиперссылке Superstrings, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д.

Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным.

Сводная таблица избранных предметных каталогов

List.Ru Апорт Яндекс Rambler Yahoo! About
Общая характеристика 19 разделов верхнего уровня 14 разделов верхнего уровня 10 основных разделов, 7 комбинированных, дополнительная классификация 56 разделов 14 основных разделов 36 разделов
Сортировка ресурсов внутри раздела Алфавит, оценка гидов, популярность (посещаемость), дата Алфавит, посещаемость, лига, оценка числа ссылок на данный ресурс, мнение пользователей Алфавит, дата добавления, индекс цитируемости по посещаемости по алфавиту по оплаченности ссылок
Булевские операторы Используется язык поисковой машины Апорт Используется язык поисковой машины Яndex Используется язык поисковой машины Rambler Нет Нет
Поиск по фразе " " " "
Префиксы +, - +, -
Итеративный поиск (в результатах) Есть поиск внутри категории После входа щелкните More…
замена части слова * * (не всегда корректно)

В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.

Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов. Таким образом, автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации.

Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве таковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д.

Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы.

Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций.

Если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий.

Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Когда речь идет о темах, имеющих общественный интерес, таких как новости, музыка и т. д., такие рекомендации, полученные статистическим методом, являются весьма удобными и полезными. Такие услуги, в частности, обеспечивает отечественная служба Rambler.

2. Приемы поиска

2.1. Простой поиск

Каждая поисковая система (ПС) предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей.

Как правило, указание одного ключевого слова является недостаточным, и тогда возникает вопрос о том, как задавать их соответствующие комбинации. Пусть, например, мы хотим получить информацию о российском лауреате нобелевской премии 2000 г. Жоресе Алферове. Указание в поле поиска только фамилии

приведет к обнаружению огромного количества документов, большинство из которых никакого отношения к интересующему нас физику не имеет. Задавая же в поле поиска два ключевых слова

разделенных символом пробела, мы должны иметь ввиду, что разные поисковые системы реагируют на этот символ по-разному. Большинство ПС рассматривают пробел как знак логической операции "или" (OR) (к ним относятся Yahoo, AltaVista и т. д.). Поэтому поиск по комбинации слов Zhorez Alferov не сократит, а, наоборот, увеличит количество документов, найденных поисковой системой: будут найдены все документы, где встречается или слово Zhorez, или слово Alferov, или оба эти слова вместе.

В таких случаях для более адекватного поиска можно использовать заключение ключевых слов в кавычки, которые определяют точную комбинацию заключенных в них символов:

"Zhorez Alferov".

Однако, при этом не будут найдены документы, в которые входит комбинация этих слов в другом порядке (Alferov Zhorez), ибо всё заключенное в кавычки является единым словосочетанием, и поисковая система ищет в документах абсолютно точное совпадение всех символов этого словосочетания.

Для того, чтобы найти только те Web-страницы, на которых одновременно присутствуют все наши ключевые слова, перед каждым из них нужно поставить знак плюс. Например,

Zhorez +Alferov

приведет к нахождению Web-документов, где обязательно присутствует и слово Zhorez, и слово Alferov, причем не только в любом порядке, но и на любом расстоянии друг от друга (в последнем случае в найденном документе между этими словами может не быть никакой логической связи).

Знак минус перед словом исключает все документы, которые его содержат, что в ряде случаев может быть очень полезно. Например, если нам нужно найти разные работы по геометрической, но не волновой оптике, то можно задать такую комбинацию ключевых слов

Свет+оптика-волна

Необходимо иметь ввиду, что многие слова могут иметь одинаковую основу, но разные окончания (например, указание множественного числа в английском языке, падежного окончания в русском и т. д.). В связи с этим многие поисковые системы, получив запрос в виде последовательности ключевых слов, производят его нормализацию: отбрасывают из этого запроса все слова, состоящие менее чем из четырех символов (например, английский предлог of), а также отбрасывают различные окончания и суффиксы.

Например, чтобы не пропустить документ, в который входит фраза "В геометрической оптике световой луч...", поисковая система может приведенный выше запрос свести (нормализовать) к виду

Свет+оптик*-волн* (1)

Здесь символом звездочка (*) обозначены любые комбинации символов после корня соответствующих слов.

Поскольку не все ПС проводят такую первоначальную обработку запроса клиента, целесообразно самим задавать запрос в форме (1), то есть использовать символ "звездочка" для указания возможных вариаций окончаний ключевых слов.

Необходимо иметь в виду некоторое различие при использовании больших (прописных) и малых (строчных) букв в ключевых словах. Обычно поиск по маленьким буквам учитывает совпадения и когда в тексте стоит большая буква, и когда маленькая. Написание же ключевых слов большими буквами означает поиск документов, содержащих слово именно в таком виде.

Очень полезным может быть поиск ключевых слов только в заголовках Web-страниц, поскольку важность заголовка документа обычно больше важности его текста. В разных ПС поиск ключевых слов лишь в заголовках Web-страниц, задается с помощью разных служебных слов: в AltaVista это слово title:, в Yahoo! - t: в Rambler - $ title:, и т. д.

2.2. Расширенный поиск

Приемы простого поиска не всегда позволяют с достаточной эффективностью найти требуемые нам Web-документы, в связи с чем поисковые системы предоставляют клиенту возможность использовать средства так называемого расширенного (advanced) поиска. Запросы для расширенного поиска строятся из ключевых слов, связанных знаками логических операций, и имеют вид аналогичный булевским выражениям, используемым в языках программирования.

При этом кроме стандартных логических операций OR ("или"), AND ("и") и NOT (отрицание) используется, (и является очень эффективной!) операция NEAR, определяющая степень близости друг к другу ключевых слов в Web-документе.

При выполнении сложных запросов важно понимать, в каком порядке выполняются приведенные выше операции, то есть каков их приоритет. В последовательности OR, AND, NOT, NEAR приоритет операций возрастает слева направо. Порядок выполнения отдельных элементов сложного запроса можно изменить с помощью круглых скобок, как это принято при записи булевских выражений в программировании.

В отличие от средств простого поиска, средства расширенного поиска го-раздо более стандартизованы для разных поисковых систем. Большим преимуществом расширенного поиска является также гибкость предлагаемых клиенту возможностей построения запроса, а существенным недостатком - значительно более медленная его работа по сравнению с простым поиском.

OR (операция "или") выполняет ту же самую функцию, что и знак пробела в запросах простого поиска в большинстве ПС. Например, запрос

приводит к поиску документов, в которых есть или слово bush, или слово modes, или оба эти слова одновременно.

AND (операция "и")приводит к нахождению документов, в которых обязательно встречаются оба связанных этой операцией слова, но при этом они могут находиться на любом расстоянии друг от друга. В результате может оказаться, что в документе нет какой-либо логической связи между двумя заданными ключевыми словами. Например, в ответ на запрос

поисковая система AltaVista выдает ссылки не только на соответствующие научные работы по нелинейной динамике, но и на отдельные главы известного фантастического романа Г. Уэльса "Борьба миров", которые, разумеется, не имеют никакого отношения к предмету поиска.

NOT - операция отрицания, позволяющая исключить те Web-документы, которые содержат ненужное словосочетание (таким образом, эта операция в сложном поиске играет ту же самую роль, что и знак "минус" в простом поиске).

NEAR (логическая операция, указывающая степень близости друг к другу ключевых слов) является одной из самых удобных команд расширенного поиска. В разных поисковых системах понятие близости слов разное. Например, AltaVista считает близкими слова, которые разделены не более чем десятью другими словами. Некоторые другие ПС допускают при записи операции NEAR указание степени близости в явном виде, то есть позволяют определить максимально допустимое число посторонних слов, которые могут стоять между двумя ключевыми словами, связанными этой операцией.

Запрос вида


приведет к поиску документов, в которых два указанных ключевых слова стоят достаточно близко друг к другу, и стало быть, скорее всего связаны по смыслу. Например, в тексте Web-страницы может быть фраза: "Bushes of normal modes..".

Жорес NEAR Алферов

приведет к поиску документов, в которых есть словосочетания Жорес Иванович Алферов, Алферов Жорес Иванович и т. д. Заметим, что при использовании операции NEAR порядок следования ключевых слов в документе указать невозможно, что, впрочем, является скорее не недостатком, а преимуществом, и это хорошо видно из только что приведенного запроса.

Как уже было сказано, с помощью вышеописанных логических операций можно задавать запрос на поиск в виде сложного логического выражения.

Несмотря на существование некоторых общих принципов организации поиска Web-документов, различные ПС могут весьма сильно отличаться друг от друга по предоставляемым клиенту возможностям, по внешнему виду своих заглавных страниц и т. д., в силу чего знакомиться с ними желательно при непосредственной работе в сети Internet.

В качестве примера ниже приведено очень краткое, схематическое описание двух наиболее популярных в настоящее время ПС Yahoo (тематический каталог) и AltaVista (автоматический индекс).

3. Тематический каталог Yahoo

Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Вызов поисковой системы Yahoo можно осуществить с помощью адреса http://www.yahoo.com.

Заметим, что броузеры обычно допускают возможность не полного набора адреса. Например, в для вызова Yahoo можно набрать в поле адреса только слово Yahoo, а остальная часть адреса дописывается броузером автоматически.

Заглавная страница Yahoo предоставляет клиенту возможность обращаться к двум основным методам работы с этой поисковой системой - к поиску Web-документов по ключевым словам, поле набора которых находится слева от кнопки "Search" ("Поиск"), и к поиску с помощью иерархического дерева различных разделов (категорий), расположенного ниже.

Заметим, что и в том, и в другом случае поиск ссылки на нужный Web-документ происходит в одной и той же базе данных, но разными способами.

Открыв интересующий раздел тематического каталога щелчком мыши по его названию, увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д.

На заглавной странице Yahoo можно увидеть также рекламные объявления, различные дополнительные категории, например, новости, которые содержат, в частности, информацию о погоде и т. д.

Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д.

На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами ключевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания.

Поисковая система Yahoo ищет ссылки на документы, соответствующие запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее число раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий.

В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Web-пространства.

4. Автоматический индекс Alta Vista

Вызов этой поисковой системы можно осуществить по адресу: http://altavista.digital.com (для многих броузеров достаточно при этом набрать только слово altavista).

Alta Vista имеет одну из самых больших баз данных в классе автоматических индексов, и самые мощные и гибкие правила построения запросов. При этом Alta Vista имеет как систему простого поиска (simple search), так и систему расширенного поиска (advanced search), кнопка которой находится ниже поля ввода ключевых слов.

Предусмотрена возможность поиска информации и с помощью каталога категорий, устроенном аналогично каталогу системы Yahoo, причем, поиск по ключевым словам можно осуществить лишь в рамках определенной категории.

Поиск Web-документов по ключевым словам можно осуществлять в базе данных для WWW-страниц или в базе данных телеконференций (Usenet). Для выбора одной из этих баз данных - содержимого WWW или Usenet - служит выпадающий список, который можно вызвать с помощью кнопки, находящейся под панелью заголовка этой системы, на ее заглавной странице.

При использовании простого поиска системы Alta Vista необходимо учитывать его отличия от соответствующего средства ПС Yahoo. Действительно, по умолчанию Alta Vista, в отличие от Yahoo, ищет вхождения целых слов: заказанный термин должен стоять в Web-документе обособленно, а не быть частью других цепочек символов. Если же необходимо найти все вхождения данного ключевого слова, даже когда оно является частью других слов, необходимо использовать символ * (этот символ может стоять только в конце ключевого слова и заменять не более пяти букв). Например, запрос вида Ада* приведет к нахождению документов, в которых есть слова “Ада”, ”Адам”, ”Адажио” и т. д.

Поисковая система Alta Vista, как и большинство других поисковых систем, предлагает клиенту и ряд дополнительных возможностей, в частности, позволяет находить лишь те Web-документы, в которых заданные ключевые слова встречаются только в гипертекстовых ссылках, заголовках документов, в их URL-адресах (что дает возможность находить все Web-страницы, расположенные на сервере с данным адресом) и т. д. Для этого в Alta Vista используются специальные команды: Anchor, title и т. д. Такие возможности можно использовать как порознь, так и вместе друг с другом.

Бланк для расширенного поиска (advanced search) отличается от бланка простого запроса наличием двух полей. Второе из них - Results Ranking Criteria - полностью аналогично полю ввода бланка простого поиска, и в нем можно использовать те же специальные выражения, кавычки и знаки +, -, *. Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов: документы, содержащие ключевые слова из поля Ranking будут стоять в списке первыми.

Ключевые же слова для собственно поиска должны вводиться в первом из полей - Selection Criteria. Запросы в этом поле строятся по описанным нами ранее правилам с использованием операций NEAR, NOT, AND, OR. Кроме того, внизу бланка поиска находится поле для ввода дат, позволяющих задать промежуток времени, в который были созданы или изменены интересующие нас документы.

Об особенностях поиска в Alta Vista документов на русском языке заметим, что искать документы по русским ключевым словам в каталоге Yahoo смысла не имеет, поскольку сотрудники этой службы на русском языке не говорят.

5. Поиск информации в конференциях (Usenet)

WWW-страницы являются самым масштабным и ценным, но не единствен-ным источником информации в Internet. Большой интерес представляет система телеконференций Usenet, в которой каждый день публикуется более 100 тысяч сообщений со всего мира.

Если клиент интересуется какой-либо определенной темой, он может просто подписаться на соответствующую группу телеконференций. Однако если он хочет не обсуждать свою проблему с живыми людьми, а просто выяснить, что известно по тому или иному вопросу, можно воспользоваться системами автоматического поиска в содержимом Usenet. Alta Vista ведет отдельный индекс по более чем 10 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель поиска из значения "the Web" в значение "Usenet" (все правила составления запроса и установки опций в обоих этих случаях одинаковы). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст любой из которых можно получить щелчком мыши по ее заголовку.

Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews (http://www.dejanews.com). Среди русскоязычных выделяется сервер RusNews (http://news.corvis.ru), являющийся также новостным сервером, содержащим более 2000 новостных групп. Также имеет место аналогичный российский сервер ТЕЛА-поиск (http://tela.dux.ru/news.html).

Совершенно уникальным источником информации являются документы с ответами на часто задаваемые вопросы (Frequently Asked Questions, FAQs). Такой жанр вопросов и ответов прекрасным образом вводит совершенно неподготовленного читателя в самую суть дела. Если первоначально списки ответов на вопросы существовали только для групп телеконференций, то сейчас документы с заголовком "FAQ" используются для клиентов самых разнообразных серверов и служб. В этом жанре пишутся статьи и обзоры, а фирмы и организации пропагандируют свои цели и устремления. Если клиенту нужно в сжатые сроки ознакомиться с новой областью науки, техники, культуры или политики, советуется начать с чтения раздела "FAQ" соответствующей телеконференции Usenet. И хотя таким образом нельзя приобрести слишком фундаментальные знания, зато можно быстро освоиться с терминологией, узнать о самых животрепещущих проблемах и нередко получить почти исчерпывающий список литературы.

6. Отечественные поисковые службы

Российский сектор Internet в настоящее время бурно развивается, и хотя отечественные поисковые системы еще отстают от соответствующих зарубежных систем по объему своих каталогов и индексов, по некоторым показателям (прежде всего, по применению новых технологий при обработке результатов поиска) они не уступают своим заграничным аналогам, а в ряде случаев и превосходят их.

Укажем, прежде всего, на автоматический индекс Aport 2000 и тематический каталог @Rus (Атрус), расположенных по адресам: http://www.aport.ru/ и http://www.atrus.ru/, соответственно. Эти две системы находятся в партнерских отношениях. Действительно, когда в результате проведенного поиска Aport 2000 выводит адрес некоторой Web-страницы, она может сопровождаться кратким описанием соответствующего Web-узла, взятым из каталога @Rus. С другой стороны, при наполнении каталога Атрус активно используются средства поисковой системы Aport. С точки зрения клиента, однако, эти поисковые системы являются все-таки независимыми средствами получения информации. Отметим некоторые их достоинства. Aport 2000 использует наиболее эффективную в настоящее время систему рейтингования по количеству ссылок, ведущих к данному ресурсу(по индексу цитирования). Поисковая система Атрус предоставляет клиенту удобный каталог-портал "Мой @Rus", который пользователь может настроить на быстрое получение наиболее нужной ему информации. Средства настройки этого каталога позволяют также отключить все лишнее на основной странице поисковой систе-мы, что делает работу с ним особенно быстрой и удобной.

6.1. Rambler ( http://www.rambler.ru )

Поисковая система Rambler обладает одним из крупнейших индексов в Рос-сии, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять.

По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска нужно выбрать опцию “Слова запроса: любое”.

Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска.

6.2. Яндекс ( http :// www . yandex . ru )

Поисковая система Яndex выделяется своими мощными средствами расши-ренного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме написали ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”.

Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND).

Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение же этого знака, т. е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т. е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом же операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR).

В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос

физическое/(-2 4) образование

означает, что слово физическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него).

Создавшая ПС Яndex компания CompTek бесплатно предоставляет для корпоративных клиентов (организаций) облегченную версию программы Яndex.Site, которая выполняет индексацию содержимого Web-узла. Это удобно владельцам тех Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах своего собственного узла.

Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы.

7. Поиск файлов

Среди специальных систем поиска файлов в Интернете существуют аналоги уже рассмотренных ранее тематических каталогов (типа Yahoo) и автоматических индексов (типа Alta Vista). Разумеется, эти поисковые системы предоставляют клиенту не сами файлы, а лишь списки ссылок на них.

Одной из самых популярных поисковых служб типа тематических каталогов для поиска файлов является shareware.com по адресу http://www.shareware.com. Эта система классифицирует файлы только по одному признаку: для какой операционной системы они предназначены, но она хранит описания всех файлов, составленные людьми. Заглавная страница shareware.com устроена аналогично страницам уже рассмотренных нами поисковых систем. Она предлагает клиенту различные виды поиска, причем, ключевые слова могут содержать символ *, соответствующий последовательности любых символов. Поиск производится как в именах, так и в описаниях файлов. Можно указать нижний временной порог поиска, чтобы получить ссылки на файлы, созданные не раньше заданной даты, и выбрать способ сортировки результатов-по дате или по алфавитному порядку имен файлов. Щелкнув на имени файла в списке результатов, получим ряд ссылок на узлы Internet, на которых хранятся копии этого файла с указанием надежности работы этих серверов и времени, необходимого для скачивания файла в зависимости от пропускной способности нашего канала.

В отличие от каталога shareware.com, поисковая система Archie является автоматическим индексом аналогичным Alta Vista. Список анонимных узлов для Archie приходится вести людям (его можно найти по адресу http://hoohoo.ncsa.uiuc.edu/ftp/). Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен.

Время ожидания связи с популярными FTP-узлами (такими, например, как богатое собрание программ для Windows (ftp://ftp.winsite.com)) может оказаться весьма большим, в силу чего в Интернете обычно имеются их точные копии или "зеркальные отражения" (mirrors), а поисковые системы выдают адреса всех этих зеркал.

Каталог, содержащий общедоступные файлы, почти всегда называется pub. В большинстве архивов в каждом каталоге имеется специальный файл с краткими-обычно не длиннее одной строки-описанием каждого файла этого каталога. Такой файл может называться 0index, 00index и т. п. (нолики приписываются к имени файла, чтобы он всегда попадал на первое место в отсортированном по алфавиту списке файлов).

8. Источники специализированной информации

Существуют информационные компании, обеспечивающие ин­формационное электронное обслуживание. Например, Knight-Ridder (KR) - это крупнейшая в мире информационная компания, предоставляющая доступ к своим службам в интерактивном режиме. Здесь объединились такие всемирно известные службы, как DialogInformationService из США и DataStar из Европы. Используя Ин­тернет в качестве среды для распространения своих услуг, KR суме­ла автоматизировать ключевые моменты своей деятельности, улуч­шить обслуживание клиентов и, самое главное, расширить рынок своих услуг. Все это в конечном счете привело к тому, что KR стала мировым лидером в области доставки электронных документов и информационного сервиса.

Имеет собственную систему информационного поиска в Интер­нете фирма IBM - InfoMarket. В ней сочетаются средства получения информации и управления платежами с правами доступа.

Однако на начальной стадии освоения пространства Интернета не обойтись без самостоятельного поиска информации. Здесь весь­ма полезными могут оказаться адреса Web-узлов, хорошо зареко­мендовавшие себя источники деловой информации:

www.kentis.com- это сервер компании KentInformationSystem, сотрудники которой помогают профессионалам в области бухгалте­рии и финансов использовать компьютерные технологии, особенно Интернет;

http://www.promotion.aha.ru- on-line журнал по маркетингу в сети Интернет;

http://www.inter.net.ru- журнал «Интернет», регулярно публи­кующий материал по маркетингу и рекламе в сети Интернет;

http://clickz.com- журнал, полностью посвященный вопросам Интернет-маркетинга.

9. Поиск отдельных людей в сети Internet

Наиболее просто найти информацию о человеке, если у него имеется в сети Internet своя личная страница (personal home pages), на которой обычно имеется его фотография, e-mail и почтовый адрес, телефон и т. д. Нередко такая страница содержит краткую биографию автора, его хобби и т. д. Одна из крупнейших систем для поиска личных страниц называется Who’sWho и расположена по адресу http://web.city.ac.uk/citylive/pages.html.

Существуют также обширные каталоги электронных адресов различных людей, которые пользуются электронной почтой (e-mail). Лидерство здесь, по-видимому, принадлежит каталогу Four11 по адресу http://www.four11.com.

Отметим также каталог WhoWhere (http://www.whowhere.com), который производит поиск даже по схожести звучания или написания фамилий (например, “Kirsanov”, “Kirsanoff” и т. д.).

Отечественный каталог электронных адресов располагается по адресу http://www.botik.ru/~intermap/form.html.

Совершенно уникальным является всеамериканский адресный справочник по адресу http://www.databaseamerica.com, который выдает координаты любого из 90 млн. жителей США и любой из 10 млн. американских компаний.

10. Метапоиск

Базы данных разных поисковых систем в значительной мере не пересекаются. Поэтому для поиска достаточно редкой информации целесообразно обращаться не к одной, а к нескольким ПС. Однако правила оформления запросов для разных ПС, вообще говоря, отличаются друг от друга. Для того, чтобы не обращаться поочередно к разным поисковым системам и не думать о специфических правилах оформления запроса для каждой из них, были созданы так называемые метапоисковые системы.

Приняв заказ клиента, заданный с помощью ключевых слов в соответствие со своими собственными правилами его оформления, метапоисковая система сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, метапоисковая программа сведет их в один документ и отправит пользователю. К таким метапоисковым системам относится MetaCrawler расположенный по адресу (http://metacrawler.cs.washington.edu:8080), который рассылает запрос на 9 различ-ных поисковых систем (в их число входит: Yahoo, Alta Vista, Lycos, Excite и т. д.). На случай разной интерпретации одних и тех же по смыслу опций в разных поисковых системах MetaCrawler предусматривает даже возможность проверки результатов поиска: прежде чем дать ссылку пользователю, он самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса - так как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов. Заметим, что на бланке запроса MetaCrawler можно задать время ожидания: в список будут включены только те результаты, которые успеют прийти с различных поисковых систем к этому моменту.

11. Эффективный поиск информации

После подробного изучения основных возможностей инструментов обратимся к проблеме эффективности поиска. Основными параметрами эффективности поиска являются:

Полнота поиска как отношение числа найденных документов к общему числу релевантных документов;

Точность поиска – отношение числа релевантных документов к общему числу полученных документов;

Актуальность ссылок на документы - существование найденных документов в сети в настоящий момент;

Скорость поиска.

В Internet существуют различные инструменты поиска, обладающие разными функциональными возможностями. Качество поиска, таким образом, зависит в первую очередь от параметров конкретной поисковой системы, например, от размеров индекса, от способа поиска (уточнение тем или поиск по запросу) и т.д. Далее, работая с конкретной поисковой системой, нужно иметь представление о методах составления запросов, знать необходимые операторы.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

Свойства и возможности поисковой системы;

Качество формулировки запроса пользователем.

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую необходимо найти. Затем желательно составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов и словосочетаний, специфичных для вашей предметной области.

Действия:

Выбор поискового инструмента;

Точная формулировка запросов с использованием операторов, поддерживаемых данным поисковым инструментом;

Отправка тестовых запросов;

Анализ результатов поиска (по количеству и релевантности ссылок);

При необходимости, корректировка запроса;

Повторный поиск;

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

Поиск информации общего характера в поисковых системах-каталогах. - Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска явно недостаточно использовать только системы-каталоги с ограниченным числом описанных ресурсов. Кроме того, узкоспециальная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск подобной информации в поисковых машинах, обладающих индексами большого объема.

Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной поисковой машины. Эффективным и простым способом решения проблемы составления качественного запроса является использование режима расширенного поиска.

Использование функции поиска среди найденных ресурсов. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов.

Использование метапоисковых систем. Данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько самых релевантных ссылок.

Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей.

Подписка на специализированные списки рассылки и т.д.

Заключение

В заключение, можно сказать, что единой оптимальной технологии поиска в Интернет не существует. В зависимости от специфики необходимой информации, для ее поиска должны использоваться соответствующие поисковые службы. Необходимо помнить, что чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

Литература

1. Информатика и информационные технологии / Под ред. Романовой Ю.Д. М.: Эксмо, 2008

2. Степанов А.Н. Информатика. СПб.: Питер, 2002

3. Майечак Б. Поиск информации в сети // Интернет для детей от 8 до 88. М.: Интерэксперт, 2002

4. Чечин Г. М., Положенцев Е. В., Нижникова С. В. Поиск информации в сети Internet. Ростов-на-Дону: РГУ, 2001 г.

5. Диканский Е.Ю. Осваиваем Internet: Практический курс по информационным и коммуникационным технологиям для начинающих пользователей. М.: Илекса, 2001

6. http://www.dist-cons.ru/modules/searchinf/index.html

7. http://www.seonews.ru/masterclasses/detail/29812.php

8. http://www.gdenet.ru/bibl/technology/transmission/5.1.html