robots txt ファイルのセットアップに関する推奨事項。 どのページをどのようにインデックスからブロックする必要がありますか?
作成されたサイトの技術的側面は、サイトを宣伝する上で同様に重要な役割を果たします。 サーチエンジンああ、その中身よりも。 最も重要なものの 1 つ 技術的側面サイトのインデックス作成です。つまり、検索エンジン ロボットによってインデックスを作成できるサイトの領域 (ファイルとディレクトリ) を決定します。 Robots.txt はこれらの目的に使用されます - これは 特別なファイル、検索エンジン ロボット用のコマンドが含まれています。 正しいファイル Yandex および Google 用の Robots.txt は、サイトのインデックス作成に関連する多くの不快な結果を回避するのに役立ちます。
2. robots.txt ファイルの概念とその要件
/robots.txt ファイルは、すべての検索ロボット (スパイダー) にインデックスを作成するよう指示することを目的としています。 情報サーバーこのファイルで定義されているとおり、つまり /robots.txt に記述されていないディレクトリとサーバー ファイルのみ。 このファイルには、特定のロボット (agent_id フィールドの値によって決定される) に関連付けられた 0 個以上のレコードが含まれており、各ロボットまたはすべてのロボットに対してインデックスを作成する必要がないものを一度に示す必要があります。
ファイル構文を使用すると、すべてのロボットと特定のロボットの両方に対して、制限されたインデックス作成領域を設定できます。
robots.txt ファイルには特別な要件があり、これに従わないと、検索エンジンのロボットがファイルを正しく読み取れなかったり、一般にファイルが機能しなくなってしまう可能性があります。
主な要件:
- ファイル名のすべての文字は大文字にする必要があります。つまり、小文字にする必要があります。
- robots.txt は正しいです。
- Robots.txt または ROBOTS.TXT – 不正確です。
- robots.txt ファイルは次の場所に作成する必要があります。 テキスト形式ユニックス。 このファイルを Web サイトにコピーする場合は、FTP クライアントをテキスト ファイル交換モードに設定する必要があります。
- robots.txt ファイルはサイトのルート ディレクトリに配置する必要があります。
3. robots.txt ファイルの内容
robots.txt ファイルには、「User-agent」と「Disallow」という 2 つのエントリが含まれています。 これらのエントリの名前では、大文字と小文字は区別されません。
一部の検索エンジンもサポートしています 追加のエントリ。 したがって、たとえば、Yandex 検索エンジンは「ホスト」レコードを使用してサイトのメイン ミラーを決定します (サイトのメイン ミラーは、検索エンジンのインデックスに含まれるサイトです)。
各エントリには独自の目的があり、インデックス作成がブロックされているページやディレクトリの数、および接続するロボットの数に応じて、複数回出現することがあります。
役職名[オプション
スペース] : [オプション
スペース] 意味[オプションのスペース]
robots.txt ファイルが有効であるとみなされるには、各「User-agent」エントリの後に少なくとも 1 つの「Disallow」ディレクティブが存在する必要があります。
完全に 空のファイル robots.txt は robots.txt がないことと同じであり、サイト全体のインデックスを作成する許可を意味します。
ユーザーエージェントエントリ
「User-agent」エントリには、検索ロボットの名前が含まれている必要があります。 このエントリでは、サイトのどのページにインデックスを付けるか、どのページにインデックスを付けないかを特定のロボットに指示できます。
「ユーザー エージェント」レコードの例では、すべての検索エンジンが例外なくアクセスされ、「*」記号が使用されます。
Rambler 検索エンジン ロボットのみが接続される「ユーザー エージェント」レコードの例:
ユーザーエージェント: StackRambler
各検索エンジン ロボットには独自の名前があります。 二つあります 主な方法その(名前)を調べてください:
多くの検索エンジンの Web サイトには、専門の「ウェブマスター ヘルプ」セクションがあり、そこには検索ロボットの名前が示されていることがよくあります。
Web サーバーのログを表示すると、つまり robots.txt ファイルへの呼び出しを表示すると、検索エンジンの名前またはその一部を含む名前が多数表示されます。 だからあなたがしなければならないのは選択することだけです 希望の名前それを robots.txt ファイルに追加します。
「許可しない」エントリ
「Disallow」レコードには、「User-agent」レコードからの検索ロボットに対して、どのファイルやディレクトリのインデックス作成が禁止されているかを示す命令が含まれている必要があります。
「許可しない」記録のさまざまな例を見てみましょう。
robots.txt のエントリの例 (すべてのインデックス作成を許可):
許可しない:
例 (サイトでは を完全に禁止しています。これには「/」記号が使用されます): 許可しない: /
例(ルートディレクトリにあるファイル「page.htm」とディレクトリ「dir」にあるファイル「page2.htm」はインデックス作成が禁止されています):
禁止: /page.htm
禁止: /dir/page2.htm
例 (ディレクトリ「cgi-bin」と「forum」、したがってこのディレクトリのすべてのコンテンツはインデックス作成が禁止されています):
禁止: /cgi-bin/
禁止: /フォーラム/
1 つの「禁止」エントリだけを使用して、同じ文字で始まる多数のドキュメントおよび (または) ディレクトリのインデックス作成をブロックすることができます。 これを行うには、最初の同一の文字を終了スラッシュなしで記述する必要があります。
例 (ディレクトリ「dir」、および文字「dir」で始まるすべてのファイルおよびディレクトリ、つまりファイル: 「dir.htm」、「direct.htm」、ディレクトリ: 「dir」、「directory1」のインデックス作成が禁止されています) ” ”、”ディレクトリ 2” など):
「許可」エントリ
「許可」オプションは、「禁止」エントリで指定されたインデックス付け不可能なディレクトリおよびページからの例外を示すために使用されます。
たとえば、次のようなエントリがあります 次のタイプ:
禁止: /フォーラム/
ただし、この場合、ページ page1 が /forum/ ディレクトリにインデックス付けされている必要があります。 次に、robots.txt ファイルに次の行が必要になります。
禁止: /フォーラム/
許可: /forum/page1
サイトマップエントリ
このエントリは、次のサイトマップの場所を示します。 XML形式、検索ロボットによって使用されます。 このエントリは、このファイルへのパスを指定します。
サイトマップ: http://site.ru/sitemap.xml
「ホスト」エントリ
「ホスト」レコードは、Yandex 検索エンジンによって使用されます。 サイトのメイン ミラーを決定する必要があります。つまり、サイトにミラーがあるかどうか (ミラーは部分ミラーか、 フルコピーサイト。 頻繁にアクセスされるサイトの所有者がサービスの信頼性と可用性を高めるために、リソースの重複の存在が必要になる場合があります)。その場合、「Host」ディレクティブを使用して、インデックスを作成する名前を選択できます。 そうしないと、Yandex が独自にメイン ミラーを選択し、他の名前によるインデックス作成が禁止されます。
robots.txt ファイルの処理時に Host ディレクティブを受け入れない検索ロボットとの互換性を確保するには、Disallow エントリの直後に「Host」エントリを追加する必要があります。
例: www.site.ru – メインミラー:
ホスト: www.site.ru
「クロールディレイ」録音
このエントリは Yandex によって認識されます。 これは、ページのインデックス作成の間に指定された時間 (秒単位) を取るようにロボットに指示します。 サイトを過負荷から保護するためにこれが必要になる場合があります。
したがって、次のエントリは、Yandex ロボットが 3 秒以内にあるページから別のページに移動する必要があることを意味します。
コメント
robots.txt 内の「#」文字で始まる行はコメントとみなされます。 ディレクティブ行の末尾にはコメントを使用できますが、一部のロボットはその行を正しく認識しない場合があります。
例 (コメントはディレクティブと同じ行にあります):
禁止: /cgi-bin/ #comment
コメントを投稿することをお勧めします 別行。 行の先頭にスペースを入れることは許可されますが、推奨されません。
4. robots.txt ファイルの例
例 (コメントは別の行にあります):
禁止: /cgi-bin/#comment
すべてのロボットがサイト全体のインデックスを作成できるようにする robots.txt ファイルの例:
ホスト: www.site.ru
すべてのロボットによるサイトのインデックス作成を禁止する robots.txt ファイルの例:
ホスト: www.site.ru
すべてのロボットがディレクトリ「abc」、および文字「abc」で始まるすべてのディレクトリとファイルのインデックスを作成することを禁止する robots.txt ファイルの例。
ホスト: www.site.ru
サイトのルート ディレクトリにある「page.htm」ページが Googlebot 検索ロボットによってインデックス付けされるのを防ぐ robots.txt ファイルの例:
ユーザーエージェント: googlebot
禁止: /page.htm
ホスト: www.site.ru
インデックス作成を禁止する robots.txt ファイルの例:
– 「googlebot」ロボットへ – 「directory」ディレクトリにあるページ「page1.htm」。
– 「Yandex」ロボットへ – シンボル「dir」で始まり、サイトのルート ディレクトリにあるすべてのディレクトリとページ (/dir/、/direct/、dir.htm、direction.htm など)。
ユーザーエージェント: googlebot
禁止: /directory/page1.htm
ユーザーエージェント: Yandex
5. robots.txt ファイルに関連するエラー
最も一般的な間違いの 1 つは、構文の逆転です。
間違っている:
禁止: Yandex
右:
ユーザーエージェント: Yandex
間違っている:
禁止: /dir/ /cgi-bin/ /forum/
右:
禁止: /cgi-bin/
禁止: /フォーラム/
エラー 404 (ドキュメントが見つかりません) の処理中に、Web サーバーが特別なページを表示し、robots.txt ファイルが見つからない場合、検索ロボットが robots.txt ファイルを要求したときに、同じファイルが与えられる可能性があります。特別なページ。これはファイルのインデックス管理ではありません。
に関連するエラー 悪用 robots.txt ファイルに登録します。 たとえば、「cgi-bin」ディレクトリを閉じる必要がある場合、「Disallow」エントリにディレクトリ名を大文字の「cgi-bin」で記述することはできません。
間違っている:
禁止: /CGI-BIN/
右:
禁止: /cgi-bin/
インデックス作成からディレクトリを閉じるときに、開始スラッシュが欠落していることに関連するエラー。
間違っている:
禁止: page.HTML
右:
禁止: /page.HTML
最も一般的な間違いを避けるために、Yandex.Webmaster またはツールを使用して robots.txt ファイルをチェックできます。 Google ウェブマスター。 チェックはファイルをダウンロードした後に実行されます。
6. 結論
したがって、robots.txt ファイルの存在とそのコンパイルは、検索エンジンでの Web サイトのプロモーションに影響を与える可能性があります。 robots.txt ファイルの構文を知らなければ、プロモートされる可能性のあるページやサイト全体のインデックス作成を防ぐことができます。 逆に、このファイルを適切にコンパイルすると、リソースのプロモーションに非常に役立ちます。たとえば、必要なページのプロモーションを妨げるドキュメントをインデックスからブロックできます。
サイト上のどのページも、検索エンジンによるインデックス作成のために開いたり閉じたりすることができます。 ページが開いている場合、検索エンジンはそのページをインデックスに追加しますが、ページが閉じている場合、ロボットはそのページを入力せず、考慮しません。 の検索結果.
ウェブサイトを作成するときに重要なことは、 プログラムレベル何らかの理由でユーザーや検索エンジンに表示されるべきではないすべてのページのインデックス作成をブロックします。
このようなページには、サイトの管理部分 (管理パネル)、さまざまなサービス情報を含むページ (登録ユーザーの個人データなど)、複数レベルのフォームを含むページ (例: 複雑な形状登録)、フォーム フィードバック等
例:
Searchengines 検索エンジン フォーラムのユーザー プロフィール。
コンテンツがすでに他のページで使用されているページをインデックスから除外することも必須です。このようなページは重複ページと呼ばれます。 完全または部分的な重複は、サイト上の非固有コンテンツの量を増加させるため、サイトを大きく悪化させます。
ご覧のとおり、両方のページのコンテンツは部分的に重複しています。 そのため、WordPressサイトのカテゴリーページはインデックス登録されなくなったり、投稿名のみが表示されたりすることがあります。
タグ ページについても同様であり、このようなページは WordPress ブログの構造によく存在します。 タグ クラウドにより、サイト内の移動が容易になり、ユーザーは興味のある情報をすぐに見つけることができます。 ただし、これらは他のページと部分的に重複しているため、インデックス作成から閉鎖される可能性があります。
別の例は、CMS OpenCart 上のストアです。
製品カテゴリページ http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html。
割引対象製品のページ http://www.masternet-instrument.ru/specials.php。
これらのページには同じ製品が多数含まれているため、同様のコンテンツが含まれています。
コンテンツを複製することは特に重要です。 いろいろなページサイトは Google に属します。 後ろに たくさんの Google に重複があると、検索結果からサイトを一時的に除外するなど、特定の制裁を受ける可能性があります。
ページのコンテンツを検索エンジンに「表示」すべきではないもう 1 つのケースは、非固有のコンテンツを含むページです。 典型的な例は、オンライン薬局での薬の説明書です。 この薬について説明しているページ http://www.piluli.ru/product271593/product_info.html の内容は独自のものではなく、他の何百ものサイトで公開されています。
このような特定のテキストを書き直すことは、ありがたく禁じられた作業であるため、それを一意にすることはほとんど不可能です。 最良の解決策この場合、そのページはインデックス作成から閉鎖されるか、何らかの理由でユニークにすることができない非ユニークなコンテンツを忠実に守るよう求める手紙が検索エンジンに書かれます。
ページのインデックス作成をブロックする方法
ページのインデックス作成をブロックする古典的なツールは、robots.txt ファイルです。 これはサイトのルート ディレクトリにあり、検索ロボットにアクセスすべきでないページを示すために特別に作成されています。 これは正常です テキストファイルいつでも編集できます。 robots.txt ファイルがない場合、またはファイルが空の場合、検索エンジンはデフォルトで、見つかったすべてのページにインデックスを付けます。
robots.txt ファイルの構造は非常に単純です。 1 つまたは複数のブロック (命令) で構成される場合があります。 各命令は 2 行で構成されます。 最初の行は User-agent と呼ばれ、どの検索エンジンがこの指示に従うべきかを決定します。 すべての検索エンジンのインデックス作成を無効にしたい場合、最初の行は次のようになります。
たとえば、Yandex など、1 つの PS に対してのみページのインデックス作成を禁止したい場合、最初の行は次のようになります。
命令の 2 行目は Disallow と呼ばれます。 サイトのすべてのページをブロックするには、この行に次のように記述します。
すべてのページのインデックス作成を許可するには、2 行目は次のようになります。
[禁止] 行では、インデックス作成から閉じる必要がある特定のフォルダーとファイルを指定できます。
たとえば、images フォルダーとそのすべてのコンテンツのインデックス作成を禁止するには、次のように記述します。
検索エンジンから特定のファイルを「隠す」ために、それらをリストします。
ユーザーエージェント: *
禁止: /myfile1.htm
禁止: /myfile2.htm
禁止: /myfile3.htm
これらは、robots.txt ファイル構造の基本原則です。 これらは、サイト上の個々のページやフォルダーのインデックス作成をブロックするのに役立ちます。
インデックス作成をブロックするもう 1 つのあまり一般的ではない方法は、Robots メタ タグです。 ページのインデックス作成をブロックしたり、検索エンジンがページに投稿されたリンクのインデックスを作成できないようにするには、このタグを HTML コードに含める必要があります。 タグの前の HEAD 領域に配置する必要があります。
Robots メタ タグは 2 つのパラメータで構成されます。 INDEX はページ自体のインデックス作成を担当するパラメータで、FOLLOW はこのページにあるリンクのインデックス作成を許可または拒否するパラメータです。
インデックス作成を無効にするには、INDEX と FOLLOW の代わりに、それぞれ NOINDEX と NOFOLLOW を記述する必要があります。
したがって、ページのインデックス作成をブロックし、検索エンジンがページ上のリンクを考慮しないようにするには、コードに次の行を追加する必要があります。
ページをインデックスから非表示にしたくないが、ページ上のリンクを「非表示」にする必要がある場合、Robots メタ タグは次のようになります。
逆に、PS からページを非表示にする必要があるが、同時にリンクを考慮する必要がある場合、このタグは次のようになります。
最新の CMS では、サイトの管理パネルから直接、一部のページのインデックス作成をブロックできます。 これにより、コードを理解し、これらのパラメータを手動で設定する必要がなくなります。 ただし、上記に挙げた方法は、今も昔も普遍的であり、インデックス作成を禁止するための最も信頼できるツールです。
Robots.txt は、検索エンジンの Web ドキュメントのコンテンツへのアクセスを制限するための推奨事項として機能するサービス ファイルです。 この記事では、一般的な CMS 用の Robots.txt のセットアップ、ディレクティブの説明、および作成について説明します。
位置した このファイルロボットはサイトのルート ディレクトリにあり、開かれたり編集されたりします。 簡単なメモ帳を使って, おすすめはNotepad++です。 読みたくない人のために、ビデオがありますので、記事の最後をご覧ください 😉
robots.txt が必要な理由は何ですか?
上で述べたように、robots.txt ファイルを使用すると、検索ボットのドキュメントへのアクセスを制限できます。 私たちはサイトのインデックス作成に直接影響を与えます。 ほとんどの場合、インデックス作成がブロックされます。
- サービスファイルとCMSフォルダー
- 重複
- ユーザーにとって役に立たない文書
- 固有のページではない
具体的な例を見てみましょう。
靴を販売するオンライン ストアは、人気のある CMS の 1 つで実装されていますが、 可能な限り最善の方法で。 検索結果には、検索ページ、ページネーション、ショッピング カート、いくつかのエンジン ファイルなどが含まれることがすぐにわかります。 これらはすべて、ユーザーにとって役に立たない重複ファイルおよびサービス ファイルになります。 したがって、それらはインデックス作成から閉じる必要があります。また、さまざまな情報が含まれる「ニュース」セクションがまだある場合は、 興味深い記事競合他社のサイトからのアクセス – 考える必要さえありません。すぐに閉鎖されます。
したがって、結果にゴミが入らないように robots.txt ファイルを作成するようにします。 ファイルは http://site.ru/robots.txt で開く必要があることを忘れないでください。
Robots.txt ディレクティブと構成ルール
ユーザーエージェント。これは、特定の検索エンジン ロボットまたはすべてのロボットに対するアピールです。 処方された場合 特定の名前ロボット (たとえば「YandexMedia」) の場合、一般的なユーザー エージェント ディレクティブは使用されません。 書き方例:
ユーザーエージェント: YandexBot 禁止: /cart # メインの Yandex インデックス付けロボットによってのみ使用されます
禁止/許可。これは、特定の文書またはセクションのインデックスを禁止または許可します。 記述の順序は関係ありませんが、同じプレフィックスのディレクティブが 2 つある場合は、「許可」が優先されます。 検索ロボットは、プレフィックスの長さに従って、最小から最大までそれらを読み取ります。 ページのインデックス作成を無効にする必要がある場合は、そのページへの相対パスを入力するだけです (無効: /blog/post-1)。
ユーザーエージェント: Yandex 禁止: / 許可: /articles # 1 セクションの記事を除き、サイトのインデックス作成を禁止します
* と $ を使用した正規表現。アスタリスクは、一連の文字 (空の文字も含む) を意味します。 ドル記号は中断を意味します。 使用例:
Disallow: /page* # すべてのページ、構造を禁止します http://site.ru/page Disallow: /arcticles$ # ページ http://site.ru/articles のみを禁止し、ページ http://site.ru/ を許可します記事/新着
サイトマップディレクティブ。これを使用する場合は、robots.txt で次のように指定する必要があります。
サイトマップ: http://site.ru/sitemap.xml
ホストディレクティブ。ご存知のとおり、サイトにはミラーがあります (そう読みます)。 このルール検索ボットがリソースのメイン ミラーを指すようにします。 ヤンデックスを指します。 WWW のないミラーがある場合は、次のように書きます。
ホスト: site.ru
クロール遅延。ボットがドキュメントをダウンロードする間の遅延 (秒単位) を設定します。 これは、Disallow/Allow ディレクティブの後に記述されます。
クロール遅延: 5 # 5 秒でタイムアウト
クリーンパラメータ。追加の重複情報 (セッション識別子、リファラー、ユーザー) をダウンロードする必要がないことを検索ボットに示します。 Clean-param は動的ページに指定する必要があります。
Clean-param: ref /category/books # 私たちのページがメインのページであり、 http://site.ru/category/books?ref=yandex.ru&id=1 が同じページですが、パラメーターがあることを示します
主なルール: robots.txt は小文字で記述し、サイトのルートに配置する必要があります。 ファイル構造の例:
ユーザーエージェント: Yandex 禁止: /cart 許可: /cart/images サイトマップ: http://site.ru/sitemap.xml ホスト: site.ru クロール遅延: 2
メタロボットタグとその書き方
ページを禁止するこのオプションは、検索エンジンによってより適切に考慮されます。 Googleシステム。 Yandex は両方のオプションを同様に考慮します。
これには 2 つのディレクティブがあります。 フォロー/ノーフォローそして インデックス/インデックスなし。 リンクのフォローの許可・禁止と文書のインデックス作成の許可・禁止です。 ディレクティブは一緒に記述することができます。以下の例を参照してください。
誰にも 別ページタグに書き込めます
続く:一般的な CMS 用の robots.txt ファイルを修正する
WordPress の Robots.txt の例
以下に、この SEO ブログの私のバージョンを示します。
ユーザーエージェント: Yandex 許可しない: /wp-content/uploads/ 許可する: /wp-content/uploads/*/*/ 許可しない: /wp-login.php 許可しない: /wp-register.php 許可しない: /xmlrpc.php 許可しない: /template.html 不許可: /cgi-bin 不許可: /wp-admin 不許可: /wp-includes 不許可: /wp-content/plugins 不許可: /wp-content/cache 不許可: /wp-content/主題 不許可: / wp-trackback 不許可: /wp-feed 不許可: /wp-comments 不許可: */trackback 不許可: */feed 不許可: */comments 不許可: /tag 不許可: /archive 不許可: */trackback/ 不許可: */feed/不許可: */comments/ 不許可: /?feed= 不許可: /?.php 不許可: /wp-register.php 不許可: /xmlrpc.php 不許可: /template.html 不許可: /cgi-bin 不許可: /wp-admin不許可: /wp-includes 不許可: /wp-content/plugins 不許可: /wp-content/cache 不許可: /wp-content/主題 不許可: /wp-trackback 不許可: /wp-feed 不許可: /wp-comments 不許可: */trackback 不許可: */feed 不許可: */comments 不許可: /tag 不許可: /archive 不許可: */trackback/ 不許可: */feed/ 不許可: */comments/ 不許可: /?feed= 不許可: /?。 XML
コメント欄の記事と重複するためトラックバックを禁止させていただきます。 トラックバックが多いと、同じコメントが大量に届くことになります。
CMS のサービス フォルダーとファイルを閉じようとします。理由は次のとおりです。 私はそれらをインデックスに含めたくないのです(いずれにしても検索エンジンはそれらを受け入れませんが、これ以上悪くはなりません)。
フィードは閉鎖する必要があるため... これらは部分的または完全に重複したページです。
タグを使用しない場合、またはタグを最適化するのが面倒な場合は、タグを閉じます。
他のCMSの例
目的の CMS に適したロボットをダウンロードするには、適切なリンクをクリックするだけです。
Robots.txt ファイル検索ロボットによるサイトのインデックス作成において重要な役割を果たします。 彼の主な仕事 インデックス作成から重複を閉じるオリジナルのページ、草稿、その他のドキュメント。
どうやって robots.txt ファイルを作成するレビューしました。 どうしたの robots.txt は正しいですか?正しいものを作る方法 ロボットテキスト? これは特に形成時に当てはまります。 WordPress の robots.txt ファイル。 WordPress エンジン大量の重複とゴミが作成されます。 robots.txt ファイルによるインデックス作成をブロックする必要があるものは何ですか?
この質問に答えるために、サービスに目を向けてみましょう。 このサービスの操作について説明します。
今日は、robots.txt ファイルを変更して Yandex ロボットを実行した結果を見てみましょう。 Yandex ウェブマスター パネルに移動し、[マイ サイト] => [ウェブサイト] に移動します。 2013年12月25日現在 ロボットは 518 ページをダウンロードしました。 2013 年 12 月 18 日付けのロボット 448 対 236 によって排除されました。 インデックス作成が禁止されているページの数が増加しました。 これが私たちが望んでいたものです。 検索ページ -77。 しかし、サイトに投稿したのは 58 件だけでした。 そのうち 57 件が出版され、1 件は保留されました (ブログのメイン ページ: 「年齢は障壁ではありません!」)。 これを確認するには、次の場所にアクセスする必要があります。 ブログ管理パネルそして、「レコード」=>「すべてのレコード」を選択します。
では、検索対象の他の 19 ページ (77-17-1=19) は何でしょうか? Yandex Webmaster パネルで、[PAGES IN SEARCH] をクリックします。 著者の 58 のエントリ (ページ) に加えて、次のものが含まれます。
私のブログのメニューページ: サイトのメインページ: http://site/ 続き ホームページサイト (2 ページ目) http://site/page/2/ サイトのメイン ページの続き (3 ページ目) http://site/page/3/ サイトのメイン ページの続き (4 ページ目) http ://infbiznull..ru/ karta-sajta/ サイト マップの続き (ページ 2) http://site/karta-sajta/?pg=2 このページは robots.txt ファイルによってインデックス作成が禁止されており、インデックス化されていません。検索の 77 ページに含まれています!?pg=3 このページは、robots.txt ファイルのインデックス作成が禁止されており、検索の 77 ページに含まれていません!.ru/kontakty/ そして、もう 1 つ:
年齢は障壁ではありません。 http://site/485/ エントリーはメインページに貼り付けられています(正確に言うと、メインページには告知のみです!)
私はその分野の専門家ではありません SEOの最適化. キーワードそして タグ私にとって、これらは今でも同義語です。 コンテンツ内で多くのキーワードを使用します。 これは、提示された資料 (メインページを参照) の本質を理解し、検索を容易にするためです。 必要な情報ブログで。 検索エンジンのトップに昇格するには、タグの数がキーワードよりも少ない必要があることを理解しています。 しかし、今のところはそれだけです。 完璧を目指すのに限界はありません。
検索エンジンのロボットによるカテゴリやタグでのページのインデックス作成の禁止は、キーワード、カテゴリ、タグを使用したブログ上の情報の検索には影響しません。 確認しよう。 ブログに行きましょう、クリックしてください キーワード記事のお知らせの下で、またはカテゴリ (ページ) を選択するか、検索バーにクエリを入力すると、記事の選択が表示されます。 たとえば、キーワード htacces は 2 つのブログ記事を返します。 中間結果を引き出すことができます。 robots.txt ファイルを調整することで、Yandex 検索エンジン ロボットが重複した元のページをバイパスし、サイト監査時間を短縮できるようになりました。 Yandex ロボットの動作を監視し、リソースを使用してさらなる分析を行い、必要に応じてファイルに変更や追加を加えます。 ロボット.txt。 この作業は定期的に、少なくとも月に 1 回、またはロボットを 2 ~ 3 回訪問した後に実行する必要があります。
親愛なる 初心者! これで、入金することを恐れなくなります robots.txt ファイルへの変更。 もうその方法がわかりました インデックス作成を終了します ダブルスブログのページ。 ただし、ブログにゴミ (投稿の下書き、重複など) が蓄積されている場合は、削除する必要があることに注意してください。 これを行うには、ブログ データベースを定期的にクリーンアップする必要もあります。 これについては後で説明します。
サイトの Robots.txt は、UTF-8 エンコードのインデックス テキスト ファイルです。
これは、どのページをクロールする必要があり、どのページをクロールすべきでないかという検索ロボットの推奨事項が含まれているため、インデックスと呼ばれています。
ファイルのエンコードが UTF-8 と異なる場合、検索ロボットはファイルに含まれる情報を誤って認識する可能性があります。
このファイルは http、https、ftp プロトコルで有効であり、ファイルが配置されているホスト/プロトコル/ポート番号の制限内でのみ「権限」を持ちます。
robots.txt はサイトのどこにありますか?
robots.txt ファイルには、ホスティング上のルート ディレクトリという 1 つの場所のみを含めることができます。 次のようになります: http://your-site.xyz/robots.txt
サイトの Robots txt ファイル ディレクティブ
サイトの robots.txt ファイルに必要なコンポーネントは、Disallow ルールとユーザー エージェント命令です。 細かいルールもあります。
禁止ルール
Disallow は、どのページがクロールしても意味がないことを検索ロボットに指示するルールです。 そしてすぐにいくつかの 具体的な例このルールの適用:
例 1 - サイト全体のインデックス作成を許可します。
例 2 - サイトのインデックス作成を完全に禁止します。
その場合は駄目になります。 この例の使用は、サイトが改善のために「閉鎖」されている場合 (たとえば、サイトが適切に機能していない場合) に当てはまります。 この場合、そのサイトは検索結果に表示されないため、ロボット txt ファイルによるインデックス作成からサイトを閉じる必要があります。 もちろん、サイトが完成したらインデックスは解禁されるべきですが、人々はそれを忘れてしまいます。
例 6 - ロボット txt で特定の拡張子のファイルのインデックス作成をブロックする方法 ( この場合- .gif):
.gif$ の前のアスタリスクはファイル名が任意であることを示し、$ 記号は行の終わりを示します。 それらの。 このような「マスク」により、すべての GIF ファイルのスキャンが禁止されます。
ロボットテキストの許可ルール
許可ルールはまったく逆のことを行い、ファイル/フォルダー/ページのインデックス作成を許可します。
そしてすぐに具体的な例を示します。
Disallow:/ ディレクティブを使用すると、ロボットによるテキストのインデックス作成からサイトをブロックできることはすでにわかっています。 同時に、Allow: /catalog というルールがあり、/catalog フォルダーのスキャンを許可します。 したがって、これら 2 つのルールの組み合わせは、検索ロボットによって「/catalog フォルダーを除き、サイトのクロールが禁止されている」と認識されます。
許可および禁止のルールとディレクティブは、URL プレフィックスの長さの昇順で並べ替えられ、順番に適用されます。 複数のルールが同じページに適している場合、ロボットはリストから最後に適したルールを選択します。
互いに矛盾する 2 つのルールがある 2 つの状況を考えてみましょう。1 つのルールは /content フォルダーのインデックス作成を禁止し、もう 1 つのルールは許可します。
この場合、Allow ディレクティブが優先されます。 それはリストの下にあります。
ただし、ここでは同じ理由で Disallow ディレクティブが優先されます (リストの下にあります)。
ロボットのユーザーエージェントテキスト
ユーザーエージェントは、検索ロボットに対する「アピール」であるルールであり、おそらく「特にあなたのための推奨事項のリスト」です(ちなみに、robots.txt には、Google と Yandex のさまざまな検索ロボット用のいくつかのリストが存在します) )。
たとえば、この場合、「ねえ、Googlebot、こっちに来て、これがあなたのために特別に用意されたおすすめのリストです」と言うと、「OK、特に私にとっては、それは特に私にとってという意味です」のようなものであり、他のリストをスキャンします。
Google 用の正しいロボット テキスト (Googlebot)
Yandex 検索ボットについてもほぼ同じ話です。 今後を見据えると、ほぼ 100% の場合、Yandex の推奨リストは他の検索ロボットのリストとは若干異なります (その理由については後ほど説明します)。 しかし、本質は同じです。「やあ、Yandex、あなたには別のリストがあります」 - 「OK、さあ、それを勉強しましょう」。
それらの。 同じ robots.txt にユーザー エージェント: *、ユーザー エージェント: Googlebot、ユーザー エージェント: Yandex の 3 つのリストがある場合、最初のリストは Googlebot と Yandex を除いて「全員に 1 つ」であることを意味します、つまりTo。 彼らのための「個人的な」リストがあります。
サイトマップ
サイトマップ ルール - クロールする必要があるすべてのページのアドレスを含む XML サイトマップを含むファイルの場所。 原則として http://site.ua/sitemap.xml のようなアドレスを指定します。
それらの。 毎回、検索ロボットはサイト マップで新しいアドレスの出現を確認し、検索エンジン データベース内のサイトに関する情報を更新するためにさらにスキャンするためにアドレスを追跡します。
サイトマップ ルールは次のように Robots.txt に入力する必要があります。
ホストディレクティブ
robots.txt ファイル内の横断的な Host ディレクティブも必要です。 これは Yandex 検索ロボットに必要です。インデックス作成時にサイトのどのミラーを考慮する必要があるかをロボットに指示します。 そのため、Yandex 用に別のルールのリストが作成されています。 Google やその他の検索エンジンは Host ディレクティブを理解できません。 したがって、サイトにコピーがある場合、またはサイトが別の環境で開くことができる場合、 URLアドレス次に、サイト ページのインデックスが正しく作成されるように、host ディレクティブを robots txt ファイルに追加します。
「サイト ミラー」は通常、サイトの正確またはほぼ正確な「コピー」と呼ばれ、別のアドレスで利用できます。
メインミラーのアドレスは次のように指定する必要があります。
http 経由で動作するサイトの場合 - ホスト: site.ua またはホスト: http://site.ua (つまり、http:// はオプションで記述されます)
https で実行されているサイトの場合 - ホスト: https://site.ua (つまり、https:// は必須です)
HTTPS プロトコルを使用するサイトの robots txt 内のホスト ディレクティブの例:
クロールの遅延
以前のものとは異なり、クロール遅延パラメーターは必須ではなくなりました。 その主なタスクは、ページの読み込みに何秒かかるかを検索ロボットに伝えることです。 通常、弱いサーバーを使用している場合に使用されます。 Yandex にのみ関連します。
クリーンパラメータ
Clean-param ディレクティブを使用すると、get-parameter に対抗してコンテンツの重複を防ぐことができます。 同じコンテンツには、異なる動的リンク (疑問符が付いているもの) を介してアクセスできます。 動的リンクは、さまざまな並べ替えが使用されている場合、セッション ID が使用されている場合などに、サイトによって生成できます。
たとえば、同じコンテンツが次の 3 つのアドレスで利用できる場合があります。
www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1
この場合、Clean-param ディレクティブは次のようにフォーマットされます。
それらの。 コロンの後に、リンクのソースを示す ref 属性が書き込まれ、その後のみその「末尾」が示されます (この場合 - /catalog/get_phone.ua)。
よくある質問
robots.txt のインデックス作成を無効にするにはどうすればよいですか?
これらの目的のために、Disallow ルールが考案されました。 インデックス作成から閉じる必要があるドキュメント/ファイルへのリンクをコピーし、コロンの後に貼り付けます。
禁止: http://your-site.xyz/privance.html
禁止: http://your-site.xyz/foord.doc
禁止: http://your-site.xyz/barcode.jpg
次に、ドメイン アドレスを削除します (この場合、この部分 (http://your-site.xyz) を削除する必要があります)。 削除後は、残すべきものだけが残ります。
禁止: /privance.html
禁止: /foord.doc
禁止: /barcode.jpg
すべてのファイルのインデックス作成をブロックしたい場合は、 特定の拡張子の場合、ルールは次のようになります。
禁止: /*.html
禁止: /*.doc
禁止: /*.jpg
robots.txtでメインミラーを指定するにはどうすればよいですか?
これらの目的のために、Host ディレクティブが発明されました。 それらの。 アドレス http://your-site.xyz と http://yoursite.com が同じサイトの「ミラー」である場合、そのうちの 1 つを Host ディレクティブで指定する必要があります。 メインミラーを http://your-site.xyz とします。 この場合、正しいオプションは次のとおりです。
サイトが https プロトコルを使用して動作する場合は、これを行うだけで済みます。
ユーザーエージェント: Yandex
禁止: /privance.html
禁止: /foord.doc
禁止: /barcode.jpg
ホスト: https://your-site.xyz
サイトが http プロトコルを使用して動作する場合、以下のオプションはどちらも正しいものになります。
ユーザーエージェント: Yandex
禁止: /privance.html
禁止: /foord.doc
禁止: /barcode.jpg
ホスト: http://your-site.xyz
ユーザーエージェント: Yandex
禁止: /privance.html
禁止: /foord.doc
禁止: /barcode.jpg
ホスト: your-site.xyz
ただし、Host ディレクティブは推奨事項であり、規則ではないことに注意してください。 それらの。 ウェブマスター パネルに適切な設定が入力されている場合、1 つのドメインがホストで指定され、Yandex は別のドメインをメイン ミラーと見なす可能性があります。
正しい robots.txt の最も単純な例
この形式では、robots.txt ファイルをほぼすべての Web サイトに (最小限の調整で) 配置できます。
では、そこに何があるのか見てみましょう。
- ルールのリストは 2 つあります。1 つは Yandex 用、もう 1 つは他のすべての検索ロボット用です。
- 禁止ルール: 空。これは、スキャンに制限がないことを意味します。
- Yandex のリストには、メイン ミラーを示す Host ディレクティブと、サイト マップへのリンクが含まれています。
ただし...これは、robots.txt をこの方法でフォーマットする必要があるという意味ではありません。 ルールはサイトごとに厳密に個別に記述する必要があります。 たとえば、「技術的な」ページ (ログインとパスワードを入力するページ、または テストページ、それに基づいて計算されます 新しいデザインウェブサイトなど)。 ちなみに、ルールは使用する CMS によっても異なります。
インデックス作成から閉鎖されたサイト - robots.txt はどのようなものですか?
CMS に関係なく、サイトのインデックス作成を禁止できる既製のコードをすぐに提供します。
https robots.txt でサイトのメインミラーを指定するにはどうすればよいですか?
とてもシンプルです:
ホスト: https://your-site.xyz
重要!!! https サイトの場合、プロトコルを厳密に指定する必要があります。
robots.txt で最も一般的なエラー
特にあなたのために、robots.txt で発生する最も一般的なエラーを厳選して用意しました。 これらの間違いのほぼすべてには、不注意が原因で発生するという共通点があります。
1. 指示が混同されている:
正しいオプション:
2. 多数のフォルダーが 1 つの [禁止] に挿入されます。
このような記録ではロボットが混乱する可能性があります。 インデックスを作成できないフォルダーはどれですか? 最初? 最後は? それとも全部? それともどうやって? または何? 1 つのフォルダー = 1 つの禁止ルール、他は何もありません。
3. ファイル名は 1 つだけ使用できます (robots.txt)。文字はすべて小さいです。 Robots.txt、ROBOTS.TXT などの名前を付けます。 禁じられている。
4. ユーザー エージェント ルールを空のままにすることはできません。 検索ロボットの名前を指定するか (たとえば、Yandex の場合)、アスタリスクを付けます (その他すべての場合)。
5. ファイル内のゴミ ( 余分なスラッシュ、アスタリスクなど)。
6. ファイルに追加 完全なアドレス非許可ルールがない場合でも、非表示のページが表示される場合があります。
間違っている:
http://mega-site.academy/serrot.html
また間違っています:
禁止: http://mega-site.academy/serrot.html
右:
禁止: /serrot.html
robots.txt ファイルのオンライン検証
robots.txt ファイルがインターネット上で一般に受け入れられている標準に準拠しているかどうかを確認するには、いくつかの方法があります。
方法 1. Yandex および Google ウェブマスター パネルに登録します。 唯一の欠点は、機能を理解するために徹底的に調べなければならないことです。 次に、推奨される変更が行われ、 準備ができたファイルホスティングにアップロードされました。
方法 2. オンライン サービスを使用する:
https://services.sl-team.ru/other/robots/
https://technicalseo.com/seo-tools/robots-txt/
http://tools.seochat.com/tools/robots-txt-validator/
すると、robots.txtが生成されます。 あとはエラーをチェックするだけです。 これには、検索エンジン自体が提供するツールを使用するのが最善です。
Google ウェブマスター ( サーチコンソール Google): アカウントにログインし、サイトが確認されていない場合は確認し、[クロール] -> [Robots.txt ファイル検証ツール] に移動します。
ここで次のことができます。
- すべてのエラーと潜在的な問題を即座に検出し、
- 「その場で」すぐに修正し、再度エラーをチェックします (ファイルをサイトに 20 回再アップロードしないようにするため)
- ページのインデックス作成の禁止と許可が正確であることを確認します。
これは前のものと似ていますが、次の点が異なります。
- 許可は必要ありません。
- サイトに対する権利の確認は必要ありません。
- 利用可能 マスチェックアクセシビリティのためのページ。
- すべてのルールが Yandex によって正しく受け入れられることを確認できます。
最も人気のある CMS 向けの既製のソリューション
Wordpress 用の robots.txt を修正する
禁止: /cgi-bin # このジャンルのクラシック
許可しない: /? # メインページのリクエストパラメータ
禁止: /wp- # すべての WP ファイル: /wp-json/、/wp-includes、/wp-content/plugins
禁止: *?s= # 検索
禁止: *&s= # 検索
禁止: /search # 検索
禁止: *?attachment_id= # 添付ファイル ページ。 実はリダイレクトなんですが…
禁止: */feed # すべてのフィード
禁止: */rss # RSS フィード
禁止: */embed # すべての埋め込み
禁止: */page/ # すべての種類のページネーション
許可: */uploads # アップロードを開く
許可: /*/*.js # /wp- 内 (優先度のため /*/ -)
許可: /*/*.css # /wp- 内 (/*/ - 優先順位)
許可: /wp-*.png # プラグイン、キャッシュ フォルダーなどの画像。
許可: /wp-*.jpg # プラグイン、キャッシュ フォルダーなどの画像。
許可: /wp-*.jpeg # プラグイン、キャッシュ フォルダーなどの画像。
許可: /wp-*.gif # プラグイン、キャッシュ フォルダーなどの画像。
許可: /wp-*.svg # プラグイン、キャッシュ フォルダーなどの画像。
許可: /wp-*.pdf # プラグイン、キャッシュ フォルダーなどのファイル。
#Disallow: /wp/ # WP が wp サブディレクトリにインストールされている場合
サイトマップ: http://site.ru/sitemap2.xml # 別のファイル
#サイトマップ: http://site.ru/sitemap.xml.gz # 圧縮バージョン (.gz)
ホスト: www.site.ru # Yandex および Mail.RU 用。 (交差点)
# コードバージョン: 1.0
# `site.ru` を自分のサイトに変更することを忘れないでください。
WordPress CMS の robots txt ファイル コードを見てみましょう。
ここで、すべてのルールがすべての検索ロボットに関連することを示します (「個人用」リストが作成されているロボットを除く)。 リストが特定のロボット用にコンパイルされる場合、* はロボットの名前に変更されます。
ユーザーエージェント: Yandex
ユーザーエージェント: Googlebot
許可: */アップロード
ここでは、/uploads を含むリンクのインデックス作成を意図的に許可します。 この場合、このルールは必須です。 V WordPress エンジンディレクトリ /wp-content/uploads (画像やその他の「オープン」コンテンツが含まれる可能性があります) があり、そのインデックス作成は Disallow: /wp- ルールによって禁止されています。 したがって、Allow: */uploads を使用して、Disallow: /wp- ルールの例外を作成します。
それ以外の場合は、単にインデックス作成が禁止されます。
禁止: /cgi-bin - インデックス作成スクリプトを禁止します
Disallow: /feed - RSS フィードのスキャンを禁止します
禁止: /trackback - スキャン通知を禁止します
Disallow: ?s= または Disallow: *?s= - サイトの内部検索ページのインデックス作成を禁止します
Disallow: */page/ - あらゆる種類のページネーションのインデックス作成を禁止します
サイトマップ ルール: http://site.ru/sitemap.xml は、XML マップを含むファイルへのパスを Yandex ロボットに伝えます。 パスは完全に指定する必要があります。 このようなファイルが複数ある場合は、いくつかのサイトマップ ルールを記述します (1 ファイル = 1 ルール)。
Host: site.ru の行で、Yandex のサイトのメインミラーを具体的に登録しました。 他のミラーにも同様にインデックスが付けられるように指定されます。 Host: の前に空行が必要です。
おそらく皆さんは、WordPress ロボット テキストがどこにあるかご存知でしょう。他の CMS と同様に、このファイルはサイトのルート ディレクトリに配置する必要があります。
Joomla 用の Robots.txt ファイル
Joomla はウェブマスターの間でほぼ最も人気のあるエンジンです。 にもかかわらず 最も幅広い機会そして多くの 既製のソリューション、無料で提供されます。 ただし、標準の robots.txt を修正することには常に意味があります。 あまりにも多くの「ゴミ」がインデックス用に公開されていますが、写真は閉じられています(これは悪いことです)。
Joomla の正しい robots.txt は次のようになります。
禁止: /administrator/
禁止: /cache/
禁止: /components/
禁止: /images/
禁止: /includes/
禁止: /installation/
禁止: /言語/
禁止: /layouts/
禁止: /libraries/
禁止: /logs/
禁止: /media/
禁止: /modules/
禁止: /plugins/
禁止: /templates/
ロボット.txt Wix
Wix プラットフォームは、Wix サイトごとに robots.txt ファイルを個別に自動的に生成します。 それらの。 /robots.txt をドメイン (例: www.domain.com/robots.txt) に追加すると、サイトにある robots.txt ファイルの内容を安全に調べることができます。
Robots.txt は編集できません。 ただし、noindex を使用すると、一部を閉じることができます 特定のページインデックス作成から。
Opencart 用の robots.txt
OpenCart の標準 robots.txt ファイル:
禁止: /*route=account/
禁止: /*route=affiliate/
禁止: /*route=checkout/
禁止: /admin
禁止: /catalog
禁止: /download
禁止: /export
禁止: /system
禁止: /*?sort=
禁止: /*&sort=
禁止: /*?order=
禁止: /*&order=
禁止: /*?limit=
禁止: /*&limit=
禁止: /*?filter_name=
禁止: /*&filter_name=
禁止: /*?filter_sub_category=
許可しない: /*&filter_sub_category=
禁止: /*?filter_description=
許可しない: /*&filter_description=
禁止: /*?tracking=
禁止: /*&tracking=
禁止: /*?page=
禁止: /*&page=
許可しない: /wishlist
禁止: /login
ユーザーエージェント: Yandex
禁止: /*route=account/
禁止: /*route=affiliate/
禁止: /*route=checkout/
禁止: /*route=product/search
禁止: /index.php?route=product/product*&manufacturer_id=
禁止: /admin
禁止: /catalog
禁止: /download
禁止: /export
禁止: /system
禁止: /*?sort=
禁止: /*&sort=
禁止: /*?order=
禁止: /*&order=
禁止: /*?limit=
禁止: /*&limit=
禁止: /*?tracking=
禁止: /*&tracking=
禁止: /*route=product/search
禁止: /*?page=
禁止: /*&page=
クリーンパラメータ: 追跡
クリーンパラメータ: filter_name
クリーンパラメータ: filter_sub_category
クリーンパラメータ: filter_description
許可しない: /wishlist
禁止: /login
禁止: /index.php?route=製品/製造元
禁止: /index.php?route=product/compare
禁止: /index.php?route=product/category
ホスト: あなたのドメイン
サイトマップ: http://Vash_domain/sitemap.xml
Bitrix の robots.txt
1. /bitrix フォルダーと /cgi-bin フォルダーを閉じる必要があります。 これは純粋に技術的な「ゴミ」であり、検索結果に表示される必要はありません。
禁止: /bitrix
禁止: /cgi-bin
2. /search フォルダーも、ユーザーや検索エンジンにとっては関係ありません。 そして、誰も重複を形成する必要はありません。 そのため、こちらも閉店させていただきます。
禁止: /search
禁止: /auth/
禁止: /auth.php
4. 印刷物 (請求書など) も検索結果に表示されても意味がありません。 閉じましょう。
禁止: /*?print=
禁止: /*&print=
5. Bitrix の大きな利点の 1 つは、サイトの履歴全体 (誰がいつログインしたか、誰がいつパスワードを変更したかなど) を記録することです。 機密情報、その漏れは許容されません。 したがって、次のように終了します。
禁止: /*register=yes
許可しない: /*forgot_password=yes
禁止: /*change_password=yes
禁止: /*login=yes
許可しない: /*logout=yes
禁止: /*auth=yes
6. バックアドレスにインデックスを付けるのも意味がありません。 これらのアドレスは、たとえば、フォト アルバムを表示しているときに、最初に「前方」にスクロールし、次に「後方」にスクロールするときに形成されます。 このような瞬間に アドレスバー卑劣な呪いのようなものが現れる可能性があります: ?back_url_ =%2Fbitrix%2F%2F。 このようなアドレスの値はゼロであるため、インデックス付けからも除外します。 おまけに、検索結果から潜在的な「重複」が排除されます。
禁止: /*BACKURL=*
禁止: /*back_url=*
禁止: /*BACK_URL=*
禁止: /*back_url_admin=*
7. /upload フォルダーは、状況に応じて厳密に閉じる必要があります。 ページ内に掲載されている写真や動画素材がそこに保存されていれば、切り取られないように隠す必要はありません 追加のトラフィック。 そうですね、機密事項がある場合は、必ず閉じます。
禁止: /upload
Bitrix 用の既製の robots.txt ファイル:
許可: /search/map.php
許可: /bitrix/templates/
禁止: */index.php
禁止: /*action=
禁止: /*print=
禁止: /*/gallery/*order=
禁止: /*/search/
禁止: /*/slide_show/
禁止: /*?utm_source=
禁止: /*ADD_TO_COMPARE_LIST
許可しない: /*arrFilter=
禁止: /*auth=
禁止: /*back_url_admin=
禁止: /*BACK_URL=
禁止: /*back_url=
禁止: /*backurl=
禁止: /*bitrix_*=
禁止: /*bitrix_include_areas=
禁止: /*building_directory=
禁止: /*bxajaxid=
禁止: /*change_password=
禁止: /*clear_cache_session=
禁止: /*clear_cache=
禁止: /*count=
許可しない: /*COURSE_ID=
禁止: /*forgot_password=
禁止: /*index.php$
禁止: /*login=
許可しない: /*ログアウト=
禁止: /*modern-repair/$
禁止: /*MUL_MODE=
禁止: /*ORDER_BY
禁止: /*PAGE_NAME=
禁止: /*PAGE_NAME=detail_slide_show
禁止: /*PAGE_NAME=search
禁止: /*PAGE_NAME=user_post
禁止: /*PAGEN_
禁止: /*print_course=
禁止: /*print=
禁止: /*register=
禁止: /*register=yes
禁止: /*set_filter=
禁止: /*show_all=
禁止: /*show_include_exec_time=
禁止: /*show_page_exec_time=
禁止: /*show_sql_stat=
禁止: /*SHOWALL_
禁止: /*sort=
禁止: /*sphrase_id=
禁止: /*tags=
禁止: /access.log
禁止: /admin
禁止: /auth.php
禁止: /bitrix
禁止: /bitrix/
禁止: /cgi-bin
禁止: /club/$
禁止: /club/forum/search/
禁止: /club/gallery/tags/
禁止: /club/group/search/
禁止: /club/log/
禁止: /club/messages/
禁止: /club/search/
禁止: /communication/blog/search.php
禁止: /communication/forum/search/
禁止: /communication/forum/user/
禁止: /content/board/my/
禁止: /content/links/my/
許可しない: /error
禁止: /e-store/affiliates/
禁止: /e-store/paid/detail.php
禁止: /examples/download/download_private/
禁止: /examples/my-components/
禁止: /include
禁止: /personal
禁止: /search
禁止: /upload
禁止: /*/*ELEMENT_CODE=
禁止: /*/*SECTION_CODE=
禁止: /*/*IBLOCK_CODE
禁止: /*/*ELEMENT_ID=
禁止: /*/*SECTION_ID=
禁止: /*/*IBLOCK_ID=
禁止: /*/*CODE=
禁止: /*/*ID=
禁止: /*/*IBLOCK_EXTERNAL_ID=
禁止: /*/*SECTION_CODE_PATH=
禁止: /*/*EXTERNAL_ID=
禁止: /*/*IBLOCK_TYPE_ID=
禁止: /*/*SITE_DIR=
禁止: /*/*SERVER_NAME=
サイトマップ: http://site.ru/sitemap_index.xml
サイトマップ: http://site.ru/sitemap.xml
Modx および Modx Revo 用の robots.txt
CMS Modx Revo にも重複の問題がないわけではありません。 ただし、Bitrix ほど深刻ではありません。 さて、彼女の決断について。
- サイト設定で CNC を有効にします。
- インデックス作成を終了します:
禁止: /index.php # なぜなら これはサイトのメインページの複製です
許可しない: /*? # すべてのページの重複の問題を一度に解決する
Modx および Modx Revo 用の robots.txt ファイルを準備しました:
禁止: /*?id=
禁止: /assets
禁止: /assets/cache
禁止: /assets/components
禁止: /assets/docs
禁止: /assets/export
禁止: /assets/import
禁止: /assets/modules
禁止: /assets/plugins
禁止: /assets/snippets
禁止: /connectors
禁止: /index.php
禁止: /install
禁止: /manager
禁止: /profile
禁止: /search
サイトマップ: http://site.ru/sitemap.xml
結論
誇張することなく、robots.txt ファイルは「Yandex および Google 検索ロボットのガイド」と呼ぶことができます (もちろん、正しくコンパイルされていれば)。 robots txt ファイルが見つからない場合は、それを作成して Web サイト ホスティングにアップロードする必要があります。 ヘルプ禁止ルールについてはこの記事の上で説明されており、独自の目的に安全に使用できます。
もう一度、robots.txt のルール/ディレクティブ/指示を要約します。
- ユーザー エージェント - ルールのリストがどの検索ロボットに対して作成されたかを示します。
- 許可しない - 「これにはインデックスを作成しないことをお勧めします。」
- サイトマップ - インデックスを作成する必要があるすべての URL を含む XML サイトマップの場所を指定します。 ほとんどの場合、マップは http://[your_site]/sitemap.xml にあります。
- クロール遅延は、サイトページが読み込まれるまでの期間 (秒単位) を示すディレクティブです。
- ホスト - Yandex にサイトのメインミラーを表示します。
- 許可 - 「禁止ルールの 1 つに矛盾しますが、これをインデックス化することをお勧めします。」
- Clean-param - パラメータの取得との戦いに役立ち、重複ページのリスクを軽減するために使用されます。
robots.txt をコンパイルするときの兆候:
- 「アスタリスク」の「$」記号は「区切り文字」です。
- スラッシュ「/」の後に、インデックス作成のために非表示にする必要がある ([禁止] の場合) または開く必要がある ([許可] の場合)、ファイル/フォルダー/拡張子の名前が示されます。
- 「*」記号は「任意の数の任意の文字」を意味します。
- 「#」記号は、ウェブマスターが自分自身または他の人のために残したコメントやメモを区切ります。 探索ロボット彼らは読んでいません。