- змест:
- Што такое файл robots.txt і для чаго ён патрэбны?
- Дзе знаходзіцца файл robots.txt і як яго стварыць?
- 8 папулярных памылак, якія дапускаюць пачаткоўцы вэб-майстры
- Правільны і правераны robots.txt для сайта WordPress
- Апісанне значэння радкоў файла robots.txt:
- Вось на ўсялякі выпадак парачка класных сэрвісаў для аналізу і праверкі на памылкі файла robots.txt:
Добры дзень калегі! У адной з папярэдніх артыкулаў я вяшчаў аб самастойнай seo аптымізацыі сайта і казаў, што гэта вельмі вялікая тэма і супер падрабязна кожны пункт у рамках 1-2 двух артыкулаў раскрыць у поўнай меры немагчыма.
Памятаеце такое? Дык вось, сёння я хачу раскрыць па падрабязней адзін з самых важных пунктаў ўнутранай аптымізацыі вэб-рэсурсу. Сёння будзем казаць аб файле robots.txt для сайта WordPress. Прачытаўшы артыкул ад пачатку і да канца, вы даведаецеся:
змест:
1. Што такое файл robots.txt і для чаго ён патрэбны?
2. Дзе знаходзіцца файл robots.txt і як яго стварыць?
3. 8 папулярных памылак, якія дапускаюць пачаткоўцы вэб-майстры
4. Правільны і правераны robots.txt для сайта WordPress
5. Апісанне значэння радкоў файла robots.txt
Дарэчы, для тых таварышаў хто не хоча разбірацца ў гэтым файле з дзіўнай назвай, а жадае проста ўзяць гатовы і правераны варыянт для свайго інтэрнэт-праекта, я дам спасылку на запампоўку свайго працоўнага файла robots.txt для сайта WordPress.
Я выкарыстоўваю яго з 2013 года на ўсіх сваіх вэб-рэсурсах створаных на WP і за ўвесь час ён выдатна сябе зарэкамендаваў. Натуральна я імкнуся быць у трэндзе і пры неабходнасці ўношу ў яго праўкі з улікам новаўвядзенняў пошукавых сістэм і seo.
Свой файл я збіраў вельмі доўга, браў шаблоны з паспяховых сайтаў, якія знаходзяцца ў ТОПе, запампоўваў у блогераў, прасіў у хлопцаў на seo форумах, а потым усё гэта аналізаваў, узяў самае лепшае з кожнага і вось ён просты, эфектыўны, працоўны роботс. Такім чынам, давайце пачнем з вызначэння.
Што такое файл robots.txt і для чаго ён патрэбны?
Robots.txt - гэта сістэмны, унутраны файл сайта, створаны ў звычайным тэкставым нататніку, які ўяўляе з сябе пакрокавую інструкцыю для пошукавых машын, якія штодня наведваюць і індэксуе вэб-рэсурс.
Кожны web-майстар павінен ведаць значэнне гэтага важнага элемента ўнутранай аптымізацыі і ўмець яго пісьменна наладжваць. Наяўнасць дадзенага файла абавязковае ўмовы для правільнага і якаснага seo.
Яшчэ такі нюанс, калі ў вашага сайта маецца некалькі паддаменаў, то ў кожнага з іх, у каранёвым каталогу на сэрвэры павінен быць свой роботс. Дарэчы, гэты файл з'яўляецца дадаткам да Sitemaps (карта сайта для ПС), далей у артыкуле вы даведаецеся пра гэта больш падрабязна.
У кожнага сайта ёсць раздзелы, якія можна індэксаваць і якія нельга. У роботсе, як раз ткі можна дыктаваць умовы для пошукавых робатаў, напрыклад, сказаць ім, каб яны індэксавалі усе старонкі сайта з карысным і прадаўцам кантэнтам, але не браў да тэчках рухавічка, да сістэмных файлаў, да старонак з дадзенымі акаўнтаў карыстальнікаў і т. в.
Яшчэ ў ім можна даць каманду пошукавай машыне, выконваць вызначаны прамежак часу паміж загрузкай файлаў і дакументаў з сервера падчас індэксавання, а таксама ён выдатна вырашае праблему наяўнасці дубляў (копій кантэнту вашага сайта).
А цяпер, я хачу з вамі падзяліцца невялікім сакрэтам, пра які, дарэчы, ведаюць не ўсе вэб-майстра. Калі вы стварылі і наладзілі robots.txt, то не думайце, што вы валадар пошукавых робатаў, ведайце і памятайце, што ён дазваляе толькі часткова кіраваць індэксаванне сайта.
Наш айчынны пошукавы гігант Яндэкс строга і адказна выконвае прапісаныя інструкцыі і правілы, а вось амерыканскі таварыш Гугл, ня добрасумленна да гэтага ставіцца і ў лёгкую можа праіндэксаваць старонкі і раздзелы на якіх варта забарона, а потым яшчэ і дадаць у пошукавую выдачу.
Дзе знаходзіцца файл robots.txt і як яго стварыць?
Гэты таварыш размяшчаецца ў каранёвым каталогу сайта, для нагляднасці глядзіце ніжэй карцінку са скрыншот майго каталога на серверы. Калі вы ўсталёўваеце WordPress на хостынгу праз функцыю «Устаноўка прыкладанняў», пра гэта я распавядаў у артыкуле « Як усталяваць WordPress на хостынг? Поўнае кіраўніцтва па ўсталёўцы! », То файл роботс ствараецца аўтаматычна па змаўчанні ў стандартным, ня дапрацаваным выглядзе.
Ствараецца ён на працоўным стале, з дапамогай звычайнага, тэкставага нататніка, які мае пашырэнне файла .txt. Дарэчы, рэкамендую выкарыстоўваць прогу Notepad ++ для рэдагавання і стварэння тэкставых файлаў, вельмі зручна.
Запампаваць на сервер яго можна, напрыклад, з дапамогай ftp выкарыстоўваючы праграмы Filezilla або Total Commander. Калі вы хочаце паглядзець, як выглядае гэты файл на нейкім сайце або на сваім, то набярыце ў браўзеры http: //имя_сайта/robots.txt.
8 папулярных памылак, якія дапускаюць пачаткоўцы вэб-майстры
1.Путаница ў напісанні правілаў. Мабыць гэта самая папулярная памылка ў рунэце.
Няправільны варыянт:
User-agent: /
Disallow: Googlebot
Правільны варыянт:
User-agent: Googlebot
Disallow: /
2. Напісанне цэлага спісу тэчак у адным правіле. Некаторыя хлопцы прымудраюцца зрабіць забарону індэксацыі тэчак у адным радку.
Няправільны варыянт:
Disallow: / wp-admin /wp-login.php /xmlrpc.php / wp-includes
Правільны варыянт:
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: /wp-login.php
Disallow: /xmlrpc.php
3. Імя файла роботс вялікімі літарамі. Тут я думаю зразумела, заўсёды пішам назва толькі маленькімі літарамі.
Няправільны варыянт:
Robots.txt
ROBOTS.TXT
Правільны варыянт:
robots.txt
4. Напісанне пустой радкі ў дырэктыве User-agent
Няправільны варыянт:
User-agent:
Disallow:
Правільны варыянт:
User-agent: *
Disallow:
5. Няправільна напісаная спасылка ў правіле «Host». Трэба пісаць лінк без ўказанні пратаколу http: // і без слеша на канцы /
Няправільны варыянт:
User-agent: Yandex
Disallow: / wp-content / plugins
Host: http://www.ivan-maslov.ru/
Правільны варыянт:
User-agent: Yandex
Disallow: / wp-content / plugins
Host: www.ivan-maslov.ru
6. Напісанне доўгай каўбасы з пералікам кожнага файла. Каб гэтага не здарылася, проста закрываем тэчку ад індэксацыі цалкам.
Няправільны варыянт:
User-agent: Yandex
Disallow: /Brend/Armani.html
Disallow: /Brend/Chanel.html
Disallow: /Tur/Thailand.html
Disallow: /Tur/Vietnam.html
Disallow: /Tur/Egypt.html
Правільны варыянт:
User-agent: Yandex
Disallow: / Brend /
Disallow: / Tur /
7. Адсутнасць у роботсе правілы Disallow. Па агульнапрынятым стандарту пошукавых сістэм, дадзеная інструкцыя з'яўляецца абавязковай, калі вы не збіраецеся нічога забараняць, тады проста пакіньце яе пустой. Ок?
Няправільны варыянт:
User-agent: Googlebot
Host: www.ivan-maslov.ru
Правільны варыянт:
User-agent: Googlebot
Disallow:
Host: www.ivan-maslov.ru
8. Ці не паказваюць слеша ў каталогах
Няправільны варыянт:
User-agent: Googlebot
Disallow: ivan
Правільны варыянт:
User-agent: Googlebot
Disallow: / ivan /
Правільны і правераны robots.txt для сайта WordPress
А цяпер, я прапаную вам азнаёміцца утрыманнем кода файла роботс, разабрацца ў кожнай яго дырэктыве. а затым спампаваць гатовы варыянт.
User-agent: Yandex Disallow: / wp-admin Disallow: / wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /? S = * Disallow: / * ? * Disallow: / search * Disallow: * / trackback / Disallow: * / * / trackback Disallow: * / feed Disallow: * / * / feed / * / Disallow: * / comments / Disallow: * / comment Disallow: * / attachment / * Disallow: * / print / Disallow: *? print = * Disallow: * / embed * Disallow: / cgi-bin Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / tag Disallow: / category / * / * Allow: / wp-content / uploads Crawl-delay: 5 Host: ivan-maslov.ru Sitemap: http: ///sitemap.xml Sitemap: http: // /sitemap.xml.gz User-agent: Googlebot Disallow: / wp-admin Disallow: / wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /? s = * Disallow: / *? * Disallow: / search * Disallow: * / trackback / Disallow: * / * / trackback Disallow: * / feed Disallow: * / * / feed / * / Disallow: * / comments / Disallow: * / comment Disallow: * / attachm ent / * Disallow: * / print / Disallow: *? print = * Disallow: * / embed * Disallow: / cgi-bin Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / tag Disallow: / category / * / * Allow: / wp-content / uploads User-agent: Mail.Ru Disallow: / wp-admin Disallow: / wp-includes Disallow: /wp-login.php Disallow : /wp-register.php Disallow: /xmlrpc.php Disallow: /? s = * Disallow: / *? * Disallow: / search * Disallow: * / trackback / Disallow: * / * / trackback Disallow: * / feed Disallow : * / * / feed / * / Disallow: * / comments / Disallow: * / comment Disallow: * / attachment / * Disallow: * / print / Disallow: *? print = * Disallow: * / embed * Disallow: / cgi -bin Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / tag Disallow: / category / * / * Allow: / wp-content / uploads User-agent: * Disallow: / wp-admin Disallow: / wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /? s = * Disallow: / *? * Disallow: / search * Disallow: * / tra ckback / Disallow: * / * / trackback Disallow: * / feed Disallow: * / * / feed / * / Disallow: * / comments / Disallow: * / comment Disallow: * / attachment / * Disallow: * / print / Disallow: *? print = * Disallow: * / embed * Disallow: / cgi-bin Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / tag Disallow: / category / * / * Allow: / wp-content / uploads User-agent: Googlebot-Image Allow: / wp-content / uploads / User-agent: YandexImages Allow: / wp-content / uploads / User-agent: Mediapartners-Google Disallow: User-Agent: YaDirectBot Disallow:
>> Спампаваць файл robots.txt для сайта WordPress
Апісанне значэння радкоў файла robots.txt:
- «User-agent: *» - правілы, прапісаныя ніжэй будуць ставіцца да ўсіх пошукавым сістэмам і іх робатам, акрамя Яндэкса і Google
- «User-agent: Yandex» - правілы, прапісаныя ніжэй будуць ставіцца да пошукаваму гіганту Яндэкс і ўсім яго пошукавым робатам (ПР)
- «User-agent: Googlebot» - правілы, прапісаныя ніжэй будуць ставіцца да пошукаваму гіганту Гугл і ўсім яго ПР
- «User-agent: Mail.Ru» - правілы, прапісаныя ніжэй будуць ставіцца да пошукаваму гіганту Майл ру і ўсім яго ПР
- «Disallow:» - умова якая забараняе індэксаванне
- «Allow:» - умова дазвалялае індэксаванне
- «*» - зорачка азначае дапушчэнне абсалютна любы і нават пусты паслядоўнасці знакаў
- «$» - дае магчымасць рабіць выключэньня для пэўных файлаў і каталогаў ў правіле
- «Host: vas-domen.ru» - дадзенае правіла выкарыстоўваецца толькі старым Яндэксам і паказвае яму галоўнае люстэрка вашага сайта (www.sait.ru або sait.ru)
- «User-agent: Googlebot-Image» - правілы, прапісаныя ніжэй будуць ставіцца канкрэтна да пошукавага боту Гугла, які займаецца індэксаванне малюнкаў
- «User-agent: YandexImages» - правілы, прапісаныя ніжэй будуць ставіцца канкрэтна да пошукавага боту Яндэкса, які займаецца індэксаванне малюнкаў
- «User-agent: Mediapartners-Google» - правілы, прапісаныя ніжэй будуць ставіцца канкрэтна да пошукавага боту Гугла, які займаецца індэксаванне старонак і аб'яў з рэкламай AdSense. Нагадаю, што мы прапісалі там «Disallow:» гэта дазволіць падбіраць больш рэлевантныя аб'явы і пазбегнуць памылак індэксавання. Калі вы ў будучыні збіраецеся размяшчаць рэкламу ад Гугла або ўжо размяшчае, то прапісваюцца такія правілы адразу, каб на Верачка было ўсё ок, а то потым забудзеце.
- «User-Agent: YaDirectBot» - правілы, прапісаныя ніжэй будуць ставіцца канкрэтна да пошукавага боту Яндэкса, які займаецца індэксаванне старонак і аб'яў з рэкламай Яндэкс Дірект. У астатнім усё тое ж самае, што пісаў у папярэднім пункце.
- «Sitemap:» - правіла, у якім паказваецца спасылка на месцазнаходжанне файла з картай сайта sitemap.xml.
- «Crawl-delay:» - карыснае правіла, якое зніжае нагрузку на сервер, калі ПР вельмі часта заходзяць у госці да вашага сайту, тут мы задаем час у секундах і гаворым гэтым няўрымслівым таварышам, каб сканавалі наш вэб-рэсурс не часцей, чым 1 раз у 5 секунд.
Ну вось мы і разгледзелі значэнне ўсіх радкоў, калі гэтай інфармацыі вам мала, то дадаткова рэкамендую пачытаць даведку Яндэкса. Дарэчы, спампаваць цалкам гатовы файл robots.txt для сайта WordPress, можна - тут . Не забудзьцеся памяняць у ім радкі:
спасылку на Sitemap
галоўнае люстэрка web-рэсурсу ў дырэктыве «Host:»
Пасля таго, як вы зрабілі ўсё налады і загрузілі свой роботс ў каранёвую тэчку сайта, абавязкова праверце яго на памылкі, калі вы спампавалі мой варыянт, то можаце не правяраць, я ўжо гэта зрабіў, там усё выразна
Вось на ўсялякі выпадак парачка класных сэрвісаў для аналізу і праверкі на памылкі файла robots.txt:
Правяраем robots.txt ў інструментах Яндэкс Вэбмайстар: http://webmaster.yandex.ru/robots.xml
Правяраем robots.txt ў интсрументах Гугла: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru
Ну і напрыканцы, хачу звярнуць вашу ўвагу на тое, што файл robots.txt для сайта WordPress важнае звяно ў seo аптымізацыі, паміж вашым web-рэсурсам і пошукавымі робатамі. З яго дапамогай, вы можаце ўплываць на індэксацыю сайта. Сябры, памятайце пра гэта і выкарыстоўвайце свой роботс пісьменна, бо ў seo не бывае дробязяў.
Засталіся пытанні - пішыце іх у каментах, паспрабую адказаць у бліжэйшы час. А якія інструкцыі карыстаецеся вы ў сваім файле robots.txt з вышэй пералічаных?
Калі вам спадабаўся артыкул, рэкамендуйце яе сваім сябрам і падпісвайцеся на рассылку блога. Убачымся ў наступных пастах, да сувязі 😉
З павагай, Іван Маслаў
Txt і для чаго ён патрэбны?Txt і як яго стварыць?
Памятаеце такое?
Txt і для чаго ён патрэбны?
Txt і як яго стварыць?
Txt і для чаго ён патрэбны?
Txt і як яго стварыць?
Ок?
Php Disallow: /?
S = * Disallow: / * ?