検索ツールの概念を定義します。 検索ツール

30.10.2019 その他

パスワードと MAC アドレスのフィルタリングにより、ハッキングから保護されます。 実際、安全はあなたの注意力に大きく左右されます。 不適切なセキュリティ方法、単純なパスワード、ホーム ネットワーク上の見知らぬ人に対する不用意な態度は、攻撃者にさらなる攻撃の機会を与えます。 この記事では、WEP パスワードを解読する方法、フィルターを放棄する必要がある理由、ワイヤレス ネットワークをあらゆる面から保護する方法について説明します。

招かれざる客からの保護

あなたのネットワークは安全ではないため、スマートフォンやタブレットは安全でないネットワークに自動的に接続できるため、遅かれ早かれ部外者があなたのワイヤレス ネットワークに接続することになります。おそらく意図的ではないでしょう。 彼がいくつかのサイトを開くだけであれば、おそらく、トラフィックの消費を除いて悪いことは何も起こりません。 ゲストがインターネット接続を通じて違法なコンテンツをダウンロードし始めた場合、状況はさらに複雑になります。

まだセキュリティ対策を講じていない場合は、ブラウザからルーターのインターフェイスにアクセスし、ネットワーク アクセス データを変更します。 ルーターのアドレスは通常次のようになります。 http://192.168.1.1。 そうでない場合は、コマンド ラインを使用してネットワーク デバイスの IP アドレスを確認できます。 Windows 7 オペレーティング システムでは、「スタート」ボタンをクリックし、検索バーに「cmd」コマンドを入力します。 「ipconfig」コマンドでネットワーク設定を呼び出し、「デフォルト ゲートウェイ」行を見つけます。 指定された IP はルーターのアドレスであり、ブラウザのアドレス バーに入力する必要があります。 ルーターのセキュリティ設定の場所はメーカーによって異なります。 原則として、これらは「WLAN | WLAN | WLAN」というタイトルのセクションにあります。 安全性"。

ワイヤレス ネットワークでセキュリティで保護されていない接続を使用している場合は、共有フォルダーにあるコンテンツについては特に注意する必要があります。保護されていないと他のユーザーがコンテンツを利用できるようになるためです。 同時に、Windows XP Home オペレーティング システムでは、共有アクセスの状況は単に壊滅的です。デフォルトでは、ここではパスワードをまったく設定できません。この機能はプロフェッショナル バージョンにのみ存在します。 代わりに、すべてのネットワーク要求は安全でないゲスト アカウントを通じて行われます。 Windows XP では、簡単な操作でネットワークを保護できます。コマンド ラインを起動し、「net user guest YourNewPassword」と入力し、「Enter」キーを押して操作を確認します。 Windows を再起動した後は、パスワードを持っている場合にのみネットワーク リソースにアクセスできます。ただし、残念ながら、このバージョンの OS では詳細な調整はできません。 Windows 7 では、共有設定の管理がさらに便利になりました。ここで、ユーザー数を制限するには、コントロール パネルの「ネットワークと共有センター」に移動し、パスワードで保護されたホーム グループを作成するだけです。

ハッカーは特別なプログラム (スニファー) を使用して、保護されていないすべての接続を特定できるため、ワイヤレス ネットワークに適切な保護がないと他の危険が発生します。 こうすることで、ハッカーがさまざまなサービスからあなたの識別データを簡単に傍受できます。

ハッカー

以前と同様、現在最も一般的な 2 つのセキュリティ方法は、MAC アドレス フィルタリングと SSID (ネットワーク名) の非表示です。これらのセキュリティ対策では安全を確保できません。 ネットワーク名を特定するために、攻撃者に必要なのは、変更されたドライバーを使用して監視モードに切り替える WLAN アダプターと、Kismet などのスニファーだけです。 攻撃者は、ユーザー (クライアント) が接続するまでネットワークを監視します。 次に、データ パケットを操作し、クライアントをネットワークから切り離します。 ユーザーが再接続すると、攻撃者はネットワーク名を確認します。 複雑そうに見えますが、実際にはプロセス全体にかかる時間はわずか数分です。 MAC フィルターをバイパスすることも簡単です。攻撃者は MAC アドレスを決定し、それを自分のデバイスに割り当てます。 したがって、部外者の接続はネットワーク所有者に気づかれないままになります。

お使いのデバイスが WEP 暗号化のみをサポートしている場合は、すぐに対処してください。このようなパスワードは専門家でなくても数分で解読される可能性があります。

サイバー詐欺師の間で特に人気があるのは、Aircrack-ng ソフトウェア パッケージです。これには、スニッファに加えて、WLAN アダプタ ドライバをダウンロードして変更するためのアプリケーションが含まれており、WEP キーを回復することもできます。 よく知られたハッキン​​グ手法としては、PTW 攻撃と FMS/KoreK 攻撃があり、トラフィックが傍受され、その分析に基づいて WEP キーが計算されます。 この状況では、選択肢は 2 つだけです。まず、最新の暗号化方式をサポートする、デバイスの最新ファームウェアを探す必要があります。 メーカーがアップデートを提供しない場合は、ホーム ネットワークのセキュリティを危険にさらすことになるため、そのようなデバイスの使用を拒否することをお勧めします。

Wi-Fi の通信範囲を狭めるという一般的なアドバイスは、保護しているように見えるだけです。 近隣の人々は引き続きネットワークに接続できますが、攻撃者はより長い範囲の Wi-Fi アダプターを使用することがよくあります。

公共ホットスポット

無料 Wi-Fi のある場所には、大量の情報が通過し、誰でもハッキング ツールを使用できるため、サイバー詐欺師が集まります。 公共ホットスポットは、カフェ、ホテル、その他の公共の場所にあります。 しかし、同じネットワークの他のユーザーがあなたのデータを傍受し、たとえば、さまざまな Web サービスのアカウントを制御する可能性があります。

クッキーの保護。いくつかの攻撃方法は、本当に簡単なので誰でも使用できます。 Firefox ブラウザーの Firesheep 拡張機能は、Amazon、Google、Facebook、Twitter などの他のユーザーのアカウントを自動的に読み取り、リストします。 ハッカーがリスト内のエントリの 1 つをクリックすると、即座にアカウントに完全にアクセスできるようになり、ユーザーのデータを自分の裁量で変更できるようになります。 Firesheep はパスワードを解読しませんが、アクティブな暗号化されていない Cookie をコピーするだけです。 このような傍受から身を守るには、Firefox 用の特別な HTTPS Everywhere アドオンを使用する必要があります。 この拡張機能により、サービス プロバイダーのサーバーでサポートされている場合、オンライン サービスは常に HTTPS 経由の暗号化された接続を使用するようになります。

アンドロイドの保護。最近、Android オペレーティング システムの欠陥が広く注目を集めました。この欠陥により、詐欺師が Picasa や Google カレンダーなどのサービスのアカウントにアクセスしたり、連絡先を読み取ったりする可能性があります。 Google は Android 2.3.4 でこの脆弱性を修正しましたが、ユーザーが以前に購入したほとんどのデバイスには古いバージョンのシステムがインストールされています。 これらを保護するには、SyncGuard アプリケーションを使用できます。

WPA2

最高の保護は、2004 年以来コンピューター機器メーカーによって使用されている WPA2 テクノロジーによって提供されます。 ほとんどのデバイスはこのタイプの暗号化をサポートしています。 しかし、他のテクノロジーと同様、WPA2 にも弱点があります。ハッカーは、辞書攻撃やブルートフォース手法を使用してパスワードを解読できますが、それは信頼性が低い場合に限られます。 辞書は、データベースに保存されているキーを単純に調べます。原則として、数字と名前の考えられるすべての組み合わせを調べます。 「1234」や「Ivanov」などのパスワードは非常に早く推測されるため、ハッカーのコンピュータはウォームアップする暇さえありません。

ブルートフォース手法では、既成のデータベースを使用するのではなく、逆に、考えられるすべての文字の組み合わせをリストしてパスワードを選択します。 このようにして、攻撃者は任意のキーを計算できます。唯一の問題は、それにどれくらいの時間がかかるかということです。 NASA はセキュリティ ガイドラインの中で、少なくとも 8 文字、できれば 16 文字のパスワードを推奨しています。 まず第一に、小文字、大文字、数字、特殊文字で構成されていることが重要です。 ハッカーがそのようなパスワードを解読するには数十年かかるでしょう。

ネットワーク内のすべてのユーザーがルーターにアクセスし、その設定を変更できるため、ネットワークはまだ完全には保護されていません。 一部のデバイスには追加のセキュリティ機能が備わっており、これらも利用する必要があります。

まず、Wi-Fi 経由でルーターを操作する機能を無効にします。 残念ながら、この機能は Linksys ルーターなどの特定のデバイスでのみ利用できます。 最新のすべてのルーター モデルには、管理インターフェイスのパスワードを設定する機能もあり、これにより設定へのアクセスを制限できます。

他のプログラムと同様、ルーターのファームウェアは不完全です。セキュリティ システムの小さな欠陥や重大な穴は除外されません。 通常、これに関する情報はインターネット全体に瞬時に広がります。 ルーターの新しいファームウェアを定期的に確認してください (一部のモデルには自動更新機能もあります)。 ファームウェアをフラッシュすることのもう 1 つの利点は、デバイスに新しい機能を追加できることです。

ネットワーク トラフィックを定期的に分析すると、招かれざるゲストの存在を認識するのに役立ちます。 ルーター管理インターフェイスでは、どのデバイスがいつネットワークに接続されたかに関する情報を確認できます。 特定のユーザーがダウンロードしたデータの量を知ることはさらに困難です。

ゲスト アクセス - ホーム ネットワークを保護する手段

WPA2 暗号化を使用した強力なパスワードでルーターを保護すれば、危険にさらされることはなくなります。 ただし、パスワードを他のユーザーと共有するまでに限ります。 スマートフォン、タブレット、またはラップトップを使用して、あなたの接続を介してインターネットにアクセスしようとする友人や知人は、危険因子です。 たとえば、デバイスがマルウェアに感染している可能性を排除できません。 ただし、Belkin N や Netgear WNDR3700 などのトップエンド ルーター モデルは、そのような場合に特別にゲスト アクセスを提供しているため、これを理由に友人を拒否する必要はありません。 このモードの利点は、ルーターが独自のパスワードを持つ別のネットワークを作成し、ホーム ネットワークは使用されないことです。

セキュリティキーの信頼性

WEP (有線同等プライバシー)。擬似乱数生成器 (RC4 アルゴリズム) を使用してキーと初期化ベクトルを取得します。 後者のコンポーネントは暗号化されていないため、第三者が介入して WEP キーを再作成する可能性があります。

WPA (Wi-Fi 保護されたアクセス) WEP メカニズムに基づいていますが、セキュリティを強化するための動的キーを提供します。 TKIP アルゴリズムを使用して生成されたキーは、Bek-Tevs 攻撃または Ohigashi-Moriya 攻撃を使用して解読される可能性があります。 これを行うために、個々のパケットが復号化され、操作され、ネットワークに送り返されます。

WPA2 (Wi-Fi 保護されたアクセス 2)暗号化には信頼性の高い AES (Advanced Encryption Standard) アルゴリズムを使用します。 TKIP に加えて、同じく AES アルゴリズムに基づく CCMP プロトコル (カウンターモード/CBC-MAC プロトコル) が追加されました。 これまで、この技術で保護されたネットワークはハッキングできませんでした。 ハッカーにとっての唯一の選択肢は、辞書攻撃または推測によってキーを推測する「ブルート フォース手法」ですが、複雑なパスワードでは推測することは不可能です。

検索ツール

検索ツールは、インターネット ユーザーに最適かつ高品質の情報検索を提供することを主な目的とする特別なソフトウェアです。 検索ツールは特別な Web サーバー上でホストされており、それぞれが特定の機能を実行します。

1. Web ページを分析し、分析結果を検索サーバー データベースの 1 つまたは別のレベルに入力します。

2. ユーザーのリクエストに基づいて情報を検索します。

3. ユーザーが情報を検索し、検索結果を閲覧するための便利なインターフェースを提供します。

特定の検索ツールを使用するときに使用される作業テクニックはほぼ同じです。 それらについて説明する前に、次の概念について考えてみましょう。

1. 検索ツールのインターフェイスは、ハイパーリンク、クエリ行 (検索行)、およびクエリアクティブ化ツールを備えたページの形式で表示されます。

2. 検索エンジンのインデックスは、Web ページの分析結果を含む情報ベースであり、特定のルールに従って編集されます。

3. クエリは、ユーザーが検索バーに入力するキーワードまたは語句です。 さまざまなクエリを作成するには、特殊文字 (""、~) および数学記号 (*、+、?) が使用されます。

情報検索の仕組みはシンプルです。 ユーザーはキーフレーズを入力して検索を開始し、それによって、作成された (指定された) 要求に基づいてドキュメントの選択を受け取ります。 このドキュメントのリストは、ユーザーの要求に最もよく一致するドキュメントがリストの先頭になるように、特定の基準に従ってランク付けされます。 各検索ツールは、検索結果を分析するときと、インデックスを作成するとき (Web ページのインデックス データベースにデータを追加するとき) の両方で、ドキュメントをランク付けするために異なる基準を使用します。

したがって、各検索ツールの検索バーに同じデザインのクエリを指定すると、異なる検索結果が得られる可能性があります。 ユーザーにとって、検索結果の最初の 20 ~ 30 件の文書にどの文書が表示されるか、またそれらの文書がユーザーの期待にどの程度一致するかが非常に重要です。

ほとんどの検索ツールは2つの検索方法を提供します- 簡単な検索(簡易検索)と 高度な検索(高度な検索)特別なリクエストフォームの有無にかかわらず。 英語の検索エンジンの例を使用して、両方のタイプの検索について考えてみましょう。

たとえば、AltaVista は、「情報技術のオンライン学位に関する何か」という任意のクエリに役立ちますが、Yahoo の検索ツールを使用すると、世界のニュース、為替レート情報、または天気予報を取得できます。

クエリ絞り込み条件と高度な検索テクニックをマスターすると、検索効率が向上し、必要な情報をすばやく見つけることができます。 まず、クエリで論理演算子 (演算) Or、And、Near、Not、数学記号、特殊記号を使用すると、検索の効率を高めることができます。 ユーザーは演算子や記号を使用して、必要な順序でキーワードを関連付け、クエリに対して最も適切な検索結果を取得します。 申請フォームを表 1 に示します。

表1

単純なリクエストにより、ドキュメントへの一定数のリンクが提供されます。 リストには、リクエスト中に入力された単語の 1 つまたは単純な語句を含む文書が含まれます (表 1 を参照)。 and 演算子を使用すると、すべてのキーワードをドキュメントのコンテンツに含める必要があることを指定できます。 ただし、ドキュメントの数は依然として多く、レビューにはかなりの時間がかかる場合があります。 したがって、場合によっては、文書内で単語が十分に近接して配置される必要があることを示すコンテキスト演算子 Near を使用する方がはるかに便利です。 Near を使用すると、検出されるドキュメントの数が大幅に減少します。 クエリ文字列に「*」文字が存在するということは、単語がそのマスクによって検索されることを意味します。 たとえば、クエリ文字列に「gov*」と記述すると、「gov」で始まる単語を含む文書のリストが取得されます。 これらは、政府、知事などの単語である可能性があります。

ロシア語情報の最も開発された検索サービスは、Yandex 検索サーバーによって提供されます。 Yandex では、検索したいものを説明するフレーズをロシア語で書くだけで、システムがリクエストを分析して処理し、指定されたトピックに関連するものをすべて検索しようとします。 特別な演算子を使用して、関心のある情報に対する要件を検索エンジンに説明する文字列を作成できます。

同様に人気のある検索エンジン Rambler は、独自のデータベースからのリンク トラフィックの統計を保持しています。同じ論理演算子 AND、OR、NOT、メタシンボル * (クエリ範囲を拡張する AltaVista の * 文字に似ています)、係数記号 + および - は次のとおりです。リクエストに入力された重要な単語を増減することがサポートされています。

インターネット上の情報を検索するための最も一般的なテクノロジーを見てみましょう。

IRS (情報検索システム)情報検索言語と対応する検索ルールに基づいて、情報源(インデックス)が記述された専用のデータベースから必要なデータを検索・選択するシステムです。

関連性– これは、検索結果と定式化されたクエリの対応関係です。

適切性(情報検索において) - 受け取った情報がユーザーの情報ニーズに適合していること。

関連性は、ユーザーの期待と検索結果の一致度 (関連性との比較) によって測定され、検索エンジンによって検索された情報の総量に対するユーザーにとって有用な情報の量の比率として定義されます。

高度な永続性を達成することは、最新の検索エンジンの主な競争分野です。 最大限の満足を得るために 情報ニーズユーザー、セマンティックネットワークの理論と方法、コンテンツ分析とテキストの詳細な分析(テキストマイニング、 テキストマイニング).

インターネット上で必要な情報を見つけるには、次を使用します。 リソースアドレス (英語 . ユニフォームリソースロケータ (URL) 住所)、これには、必要な情報にアクセスするためのプロトコルの名前、サーバーのアドレス、およびこのサーバー上のファイルの名前が含まれます (図 2)。

米。 2. リソースアドレスの例

検索システム- インターネット上の情報を検索する機能を提供する Web インターフェイスを備えたソフトウェアとハ​​ードウェアの複合体。 検索エンジンは通常、システム インターフェイスが配置されている Web サイトを意味します。 検索システムのソフトウェア部分は検索エンジン (検索エンジン) です。検索システムの機能を提供する一連のプログラムであり、通常は検索エンジン開発会社の企業秘密です。

インターネット上の情報の検索は、リクエストを処理する特別なプログラムを使用して実行されます。 情報検索システム (IRS)。 検索エンジンの動作のベースとなるモデルはいくつかありますが、歴史的に最も人気があるのは 2 つのモデルです。 検索ディレクトリと検索インデックス.

検索目録は、大規模図書館の主題目録と同じ原則に基づいて編成されています。 これらは通常、このディレクトリにアドレスが含まれるサイトのトピックを定義する項目とサブ項目を備えた階層型のハイパーテキスト メニューで、トピックがレベルごとに段階的に明確になります。 検索ディレクトリは手動で作成されます。 高度な資格を持つ編集者が個人的に WWW 情報スペースをレビューし、公共の関心があると思われるものを選択し、それをカタログに入力します。

検索ディレクトリの主な問題は、WWW リソースのカバー率が非常に低いことです。 Web リソースの網羅率を大幅に高めるには、検索エンジンのデータベースを埋めるプロセスから人的要素を排除し、作業を自動化する必要があります。

Web リソースの自動カタログ化と顧客の要求への対応が実行されます 検索インデックス。 検索インデックスの作業は、次の 3 つの段階に分けることができます。

    プライマリデータベースのコレクション。 WWW 情報空間をスキャンするには、特別なエージェント プログラム、つまりワームが使用されます。ワームの任務は、未知のリソースを検索してデータベースに登録することです。

    データベースのインデックス作成 - 検索の最適化を目的とした主要な処理。 インデックス作成段階では、実際の検索インデックスである特殊なドキュメントが作成されます。

    結果のリストを改良します。 この段階で、結果としてユーザーに渡されるリンクのリストが作成されます。 結果のリストを絞り込むには、検索結果のフィルタリングとランク付けが含まれます。

フィルタリングとは、ユーザーに提供するには不適切なリンクをフィルタリングして除外することを意味します (重複のチェックなど)。 ランキングは、結果のリストを表示するための特別な順序 (キーワード、関連語などの数による) を作成することで構成されます。

情報システムの主なタスクは、ユーザーの情報ニーズに関連する情報を検索することです。 検索の結果、何も失わないこと、つまり、要求に関連するすべての文書を見つけ、余分なものを見つけないことが非常に重要です。 したがって、検索手順の定性的特性である関連性が導入されます。

関連性– これは、検索結果と定式化されたクエリの対応関係です。

1 検索ツール

検索ツールは、インターネット ユーザーに最適かつ高品質の情報検索を提供することを主な目的とする特別なソフトウェアです。 検索ツールは特別な Web サーバー上でホストされており、それぞれが特定の機能を実行します。

Web 検索エンジンは、URL の巨大なデータベースを備えたサーバーであり、これらすべてのアドレスにある WWW ページに自動的にアクセスし、これらのページのコンテンツを調べ、ページからキーワードを作成してデータベースに書き込みます (ページのインデックスを作成します)。

さらに、検索エンジン ロボットはページ上で見つかったリンクをたどって、インデックスを再作成します。 ほとんどすべての WWW ページには他のページへのリンクが多数含まれているため、このような作業を行うことで、理論的には検索エンジンは最終結果としてインターネット上のすべてのサイトをクロールできます。

このタイプの検索ツールは、すべてのインターネット ユーザーの間で最も有名で人気があります。 誰もが有名なWeb検索エンジン(検索エンジン)の名前を聞いたことがあるでしょう-Yandex、Rambler、Aport。

Web 検索エンジンの仕組みは次のとおりです。

    Web ページの分析と、検索サーバー データベースの 1 つまたは別のレベルでの分析結果の記録。

    ユーザーのリクエストに基づいて情報を検索します。

    ユーザーが情報を検索し、検索結果を表示するための便利なインターフェイスを提供します。

特定の検索ツールを使用するときに使用される作業テクニックはほぼ同じです。 それらを説明する際には、次の概念が使用されます。

    検索ツールのインターフェイスは、ハイパーリンク、クエリ行 (検索行)、およびクエリ アクティベーション ツールを備えたページの形式で表示されます。

    検索エンジンのインデックスは、Web ページの分析結果を含む情報ベースであり、特定のルールに従って編集されます。

    クエリは、ユーザーが検索バーに入力するキーワードまたは語句です。 さまざまなクエリを作成するには、特殊文字 (""、~) および数学記号 (*、+、?) が使用されます。

情報検索の仕組みはシンプルです。 ユーザーはキーフレーズを入力して検索を開始し、それによって、作成された (指定された) 要求に基づいてドキュメントの選択を受け取ります。 このドキュメントのリストは、ユーザーの要求に最もよく一致するドキュメントがリストの先頭になるように、特定の基準に従ってランク付けされます。 各検索ツールは、検索結果を分析するときと、インデックスを作成するとき (Web ページのインデックス データベースにデータを追加するとき) の両方で、ドキュメントをランク付けするために異なる基準を使用します。

ロシアで最大かつ最も人気のある検索インデックスは次のとおりです。

    「ヤンデックス」(www.yandex.ru)

    ランブラー (www.rambler.ru)

    グーグル (www.google.ru)

    「Aport2000」(www.aport.ru)

2 検索メカニズム

汎用検索テクノロジーは次の段階で構成されます。

    ユーザーがリクエストを作成する

    システムは文書 (またはその検索画像) を検索します。

    ユーザーは結果(文書に関する情報)を受け取ります

    ユーザーがリクエストを改善または改革する

    新しい検索を整理しています...

通常、検索エンジンは、簡易検索モードと高度な検索モードの 2 つのモードをサポートします。 一般化された可能性を考えてみましょう。

簡易検索モードでリクエストを作成します。スペースで区切って 1 つ以上の単語を入力するだけです。 考えられるすべての語尾を持つ単語の検索は、単語の末尾にある記号 * によってモデル化されます。 多くのシステムでは語句を検索できますが、これを行うには引用符で囲む必要があります。 特定の単語を強制的に含めるか除外する必要がある場合があります。

原始的に構成されたクエリ (キーワードをリストする形式) を使用した検索の主な問題は、検索エンジンが、ドキュメントの任意の部分に指定された単語が出現するすべてのページを検索してしまうことです。 通常、検出されるページの数は多すぎます。

簡易検索モードでの検索の品質を向上させるために、論理演算子や検索範囲を制限したり、表示されたリストから特定のカテゴリの文書を選択したりできる演算子を使用することができます。

多くの検索エンジンには、クエリ言語に特別な演算子が含まれており、これにより、ドキュメントの特定の領域 (タイトルなど) を検索したり、アドレスの既知の部分でドキュメントを検索したりできます。

高度なクエリモードまたは詳細なクエリモードさまざまなシステムでは個別に実装されますが、ほとんどの場合、適切なボックスをチェックするか、リストからパラメータを選択するだけで、前述の演算子と主要な要素が実装される形式です。

以下は例として、セクションからの情報です。 ヘルプ Yandex 検索エンジン: 詳細検索ウィンドウ、クエリ言語、見つかった内容で検索します。

検索 V 見つかったもし V Yandexリクエストの結果 見つかったドキュメントは多数ありますが、必要以上に広範なトピックについては、クエリを指定してこのリストを絞り込むことができます。 別のオプションは、チェックボックスを有効にすることです V 見つかった V検索フォームに追加のキーワードを設定すると、次回の検索は選択されたドキュメントに対してのみ実行されます。 V以前の検索。

クエリ言語の使用に関する注意事項

意味

「朝漬けを食べに来てください」

単語がそのままの形で並んでいる

「大使が到着しました」

引用文に単語がありません

半分のスライスとコーン

一文内の単語

装備&&入手

1 つの文書内の単語

ヨーロッパオオトウダイグサ ヤマウズラ | 誰か

任意の単語を検索してください

あなたはできません<< винить

非ランキング「and」: 演算子の後の式は、検索結果内のドキュメントの位置に影響を与えません。

/2 実行する必要があります

任意の方向の 2 単語以内の距離 (つまり、指定された単語の間に 1 つの単語が出現する可能性があります)

何か私は~~理解しています

単語の削除 わかります検索から

私の /+2 知性を使って

直接順序で 2 単語以内の距離

お茶〜ラップテム

その単語が含まれる文を検索する お茶何も言わずに会う 靭皮靴

キャベツスープ/(-1 +2)すする

逆順の 1 単語から順順の 2 単語までの距離

なんと!

大文字小文字を指定した正確な形式の単語

&& (+ に | !me)

複雑なクエリでは括弧がグループを形成します

ポリシー

単語の辞書形式

タイトル:(国内)

文書タイトルで検索する

URL:ptici.narod.ru/ptici/kuropatka.htm

URLで検索

確かにinurl:vojne

URLフラグメントに基づいた検索

ホストで検索

逆入力でホストから検索

サイト:http://www.lib.ru/PXESY/FILATOW

特定のサイトのすべてのサブドメインとページを検索します

1 つのファイル タイプで検索する

言語によって検索を制限する

ドメイン限定検索

日付を制限して検索する

州のビジネス && /3 あなたはスレッドを捕まえます

任意の方向に 3 文分の距離

何か私は~~理解しています

単語の削除 わかります検索から

興味深いオプションは、指定した URL のページにリンクしている Web 上のドキュメントを検索することです。 このようにして、Web サイトへのリンクがある Web 上のページを見つけることができます。 一部のシステムでは、指定したドメイン内で検索を制限できます。

追加の特殊演算子には次のものがあります。

    特定のグラフィック ファイルを含むドキュメントを検索するための演算子。

    検索されるページの日付を制限する演算子。

    単語間の近接演算子。

    単語形式の会計演算子。

    結果をソートするための演算子 (関連性、新しさ、古さによる)。

残念ながら、現在、さまざまな検索エンジンでサポートされる演算子の数と構文に関する標準は存在しないことに注意してください。 サポートされる演算子の構文の標準を開発する取り組みが進行中であるため、検索エンジン開発者がユーザー エクスペリエンスに配慮することが期待されています。 検索ツールの開発のこの段階では、ユーザーは特定の検索エンジンにアクセスするときに、まずクエリを作成するためのルールをよく理解する必要があります。 原則としてホームページにリンクを張ります。 ヘルプ参照情報が表示されます。

検索エンジンが異なれば、インターネット上の情報ソースの数も異なります。 したがって、検索を 1 つの検索エンジンだけに限定することはできません。

方法を考えてみましょう 検索エンジンでの検索結果の表示。

ほとんどの場合、見つかった文書の数は数十を超え、場合によっては数十万に達することがあります。 したがって、発行形態としては、1 ページあたり 5 ~ 10 ~ 15 単位の文書のリストが作成され、ページの下部で次の部分に移動できるようになります。 見つかった文書のタイトルと URL (アドレス) を表示する必要がありますが、システムが文書の関連度をパーセンテージで示す場合もあります。

ほとんどの場合、文書の説明には、キーワードが強調表示された文書テキストの最初の数文または抜粋が含まれます。 原則として、文書の更新(検証)日が示され、そのサイズはキロバイト単位で表示されます。システムによっては、文書の言語とそのエンコーディング(ロシア語文書の場合)が決定されます。

得られた結果から何ができるでしょうか? ドキュメントのタイトルと説明が要件を満たしている場合は、リンクを使用して元のソースにすぐにアクセスできます。 検索結果をさらに分析するには、新しいウィンドウでこれを行う方が便利です。 多くの検索エンジンでは、見つかったドキュメントを検索でき、追加の用語を導入してクエリを絞り込むことができます。

システムの知能が高ければ、類似文書を検索するサービスが提供されることもあります。 これを行うには、特に気に入ったドキュメントを選択し、それを従うべきモデルとしてシステムに指定します。

ただし、類似性の判定を自動化することは非常に簡単な作業ではなく、多くの場合、この機能は期待どおりに機能しません。 一部の検索エンジンでは、結果を再並べ替えることができます。 時間を節約するために、後でオフラインで学習できるように、検索結果をローカル ドライブにファイルとして保存できます。

講義 4. 情報検索ツール

情報配列の継続的な更新とデータ量の増加により、既存の文書を考慮することが非常に困難になり、それに応じて検索が非常に困難になります。文書は次のように分類されます。

  • 事実検索:百科事典、参考書、辞書、
  • 書誌検索:ライブラリ、カタログ、プログラム。
  • ドキュメンタリー検索:電子文書、電子ライブラリ、電子ジャーナル。

情報検索の問題の重要性により、ユーザーがサイバースペースを移動するのを支援することを任務とする業界全体が形成されるようになりました。 この業界は特殊な組織で構成されています検索サービスまたはサービス。 それらは伝統的に次のように分類されます。

  • ディレクトリまたはカタログ
  • サーチエンジン

これらの品種は視覚的に非常によく似ているため、「各ディレクトリには独自の検索エンジンがあり、各検索エンジンには独自のディレクトリがあります。」。 ただし、彼らの仕事の原則は、まったく異なるアプローチとテクノロジーに基づいています。 さらに、各種類の検索サービスは、特定の種類の問題を解決するために使用されます。 情報検索には、特定の戦略、方法、メカニズム、および手段の使用が含まれます。 検索プロセスを管理するユーザーの行動は、必要な情報だけでなく、システムの手段の多様性、つまりシステムが提供するテクノロジーやツールによっても決まります。 ツールの選択でほぼ決まります検索戦略と検索テクノロジー。

検索技術- ユーザーがシステムと対話するプロセスにおいて個々の検索ツールを効果的に使用するための、統一された (特定の情報検索システム内で最適化された) シーケンス。

使用されている検索技術別情報システムは次の 3 つのカテゴリに分類できます。

  • テーマ別カタログと専門カタログ(オンライン ディレクトリ)。
  • 検索エンジン (全文検索);
  • メタ検索ツール。

主題カタログドキュメントの処理と、そのリストが事前に決定されているいくつかのカテゴリの 1 つにドキュメントを割り当てることができます。 実際、これはすべての図書館員によく知られています分類ベースのインデックス作成. 専門カタログ参考書とか 特定の業界やトピック向けに作成されています。サーチエンジン(インターネット上で最も高度な検索ツール) 全文検索テクノロジーを実装しています。 リクエストされたサーバー上にあるテキストにはインデックスが付けられます。資金を使用する場合メタサーチ リクエストは複数の検索エンジンによって同時に実行されます。 検索結果は、関連性の順に並べられた共通のリストに結合されます。

検索ツール - 情報検索言語とデータ定義/管理言語の相互依存する複合体であり、処理オブジェクト (文書、辞書、検索結果のセット) の構造的および意味論的な変換を提供します。

1. ディレクトリ

最初のグループの検索ツールは、明確な階層的体系的または論理的テーマ構造を持つ電子ディレクトリです。体系的な図書館カタログの構造によく似ています。 参考書を使用すると、知識の個々のブランチ内でインターネット リソースをナビゲートしたり、一般的な内容から特定の内容へさらに深く進んだり、階層ブランチを変更したり、いくつかのステップを戻したりすることができます。

この分野におけるロシアの発展には次のようなものがある。

  • Aport (アドレス: www.aport.ru)、
  • List.ru (アドレス: list.mail.ru)、
  • ウェブリスト (アドレス: www.weblist.ru)、
  • イワン・スサーニン (住所: www.susanin.net)
  • カタツムリ(アドレス:www.ulitka.ru)。

参考書の最大の特徴は手作りであることです。 各参考書の編集委員会は、仕事の性質は大規模図書館の目録作成および体系化部門に似ています, 新しく出現したサーバーの内容を定期的に確認し、既存のサーバーの変更を監視します。 識別されたデータは分析され、受け入れられた分類に従ってディレクトリのセクションに入力されます。 サーバー全体 (完全に独立したブロックである場合はセクション) の説明には、利用可能な情報の性質に関する一般情報を含む簡単な注釈が付けられます。 場合によっては、ドキュメントの言語、リソースのトラフィック、物理的な場所などに関する追加情報が入力されます。

参考書の利点を特徴付ける主なパラメータは次のとおりです。

  • 音量;
  • 新しいリソースまたは変更されたリソースを反映する効率。
  • 階層分類スキームの一貫性と一貫性。
  • クロス構造。

ディレクトリの容量は、その信頼性の程度または「情報力」。 一部のシステムには、サイトの可用性を定期的にチェックし、長期間インターネットに「存在しない」場合には、そのサイトをリストから除外する特別なメカニズムがあります。 使用される分類スキームの論理的 (科学的) 性質によって、ユーザーが必要な情報を見つける容易さの程度が決まります。 システムクロスリファレンスさまざまなアプローチ (地域別または部門別など) を使用して情報を識別できます。 この場合、どの検索パスが選択されたとしても、分類スキームは自動的にユーザーを目的のオブジェクトに導く必要があります。

このタイプの検索ツールのクエリを作成する機能は、特別な役割を果たしません。 詳細なリクエストを必要とする複雑な検索は、カタログを使用して実行されません。

ディレクトリは解決することを目的としています3種類のタスク:

  • なじみのない知識分野の方向性。
  • 組織や重要なプロジェクトのサーバーなどの大きなオブジェクトの検索。
  • 検索イメージがぼやけているリソースの既製のリストを取得する(特定の種類の図書館、交通機関のスケジュール、政党のウェブサイトなど)。

もう 1 つの例は、リソース ディレクトリと、書籍 (この場合は Web サイト全体) の説明と注釈のみが残っている体系的な図書館カタログとの比較です。

2. 検索エンジン

検索システム (検索エンジン) の動作は、まったく異なる技術原理に基づいています。 検索エンジンの役割は、情報の詳細な検索を提供することですが、これは会計によってのみ実現できます (インデックス作成 ) 可能な最大数の Web ページのコンテンツ。 ディレクトリとは異なり、検索エンジンは自動モードで動作し、統一された動作原理を持っています。

検索エンジンには 2 つの基本コンポーネントがあります。 最初のコンポーネントはロボットプログラム 、そのタスクは、サーバーからサーバーに移動し、そこで新しい (または変更された) ドキュメントを見つけて、システムのメイン コンピューターにダウンロードすることです。 ロボットはドキュメントの内容をスキャンし、サーバー上の他のドキュメントと外部サイトの両方への新しいリンクを見つけます。 次に、プログラムは指定されたリンクを独自にたどって新しいドキュメントを見つけ、その後プロセスが再度繰り返されます。文献学でよく知られる「雪だるま式」を彷彿とさせる. 識別されたドキュメントは、検索エンジンの 2 番目のコンポーネントによって処理 (インデックス付け) されます。 この場合、原則として、テキスト、イラスト、オーディオ、ビデオ ファイルを含むページのコンテンツ全体が考慮されます。 文書内のすべての単語にはインデックスが付けられているため、検索エンジンを使用して最も狭いトピックに関する詳細な検索が可能になります。 教育を受けたインデックスファイル 、どの文書で、どのサーバー上で、どのキーワードが何回使用されたかに関する情報が保存され、キーワードの組み合わせをクエリ文字列に入力する図書館員がアクセスするデータベースを構成します。

結果は、次のような特別なモジュールを使用して出力されます。結果のインテリジェントなランキング 。 この場合、次のことが考慮されます。

  • 文書内の用語の位置 (タイトル、見出し、本文)、その用語の繰り返しの頻度、
  • ページテキストに対する検索語の割合、
  • 他のサイトからこのページへの外部リンクの数と権限。

検索エンジンの基本パラメータ関係する:

  • インデックス付きサーバーと個々のドキュメントの数 (インデックス ファイルの量)。
  • 新しい資料に関する情報を追加し、古い資料を削除することによるデータベース更新の効率の程度。
  • リクエストを行う可能性。
  • 検索結果ランキング システムのインテリジェンス。
  • ユーザーの作業を容易にする追加のサービス機能の存在。

クエリを可能な限り正確に表現する検索エンジンの能力によって、得られる結果の品質が大きく決まります。 各マシンには独自の語彙があり、さまざまな方法で詳細を説明できます。検索仕様.

すべての検索エンジンには、検索結果ランキングモジュール。 これは、すべてのシステムの 2 番目の基本コンポーネントです。 リンク リスト内のドキュメントの位置を決定するときに考慮される要素のリストは、ページ上の単語の位置から、見つかったドキュメントへのリンクがあるページの評価 (信頼性) まで、非常に広範囲に及びます。

  • Google(アドレス:www.google.com)、
  • AlltheWeb (アドレス: www.alltheweb.com)、
  • アルタビスタ (アドレス: www.altavista.com)。

ロシアにも同様の検索ツールが存在する。 これらはすべてロシア語の文書を扱うように設計されており、強力な機能を備えています。 http://www.metabot.ru)。

講義ブロックのトピックに関する結論

検索エンジンはリクエストに従ってデータベースからページを選択し、そのページは一致の降順に並べられます (A.A. による注記)

この場合、分散図書館カタログの動作原理と直接類似しています。 重要な機会メタ検索 ユーザーのリクエストをさまざまな検索エンジンに同時に送信し、結果を合計する機能です。 (A.A.によるメモ)

参考書に目を向けるとき、図書館員はそのテーマに関する非常に一般的な情報だけを受け取り、詳細なデータは決して受け取らないと期待できます。何千ページもある大企業のサーバーから、参考書にはタイトルと数行の内容しか含まれていません。注釈。