Robots.txt és Sitemap.xml: a crawlolhatóság technikai alapjai
A robots.txt és a sitemap.xml két olyan fájl, amelyet minden weboldal gyökerében el kell helyezni. Együtt határozzák meg, hogy a keresőrobotok - beleértve a Google-t, a Binget és az AI-alapú crawlereket - hogyan fedezik fel, indexelik és értelmezik az oldaladat. E két fájl hiánya vagy hibás konfigurációja láthatatlanná teheti a weboldaladat.
Miért fontosak a keresőrobotoknak?
Amikor egy keresőrobot - legyen az a Googlebot, a Bingbot vagy egy AI-alapú crawler, mint a GPTBot - először ellátogat a weboldaladra, az első dolga nem az, hogy elolvassa a főoldalad tartalmát. Ehelyett két fájlt keres a domain gyökerében: a robots.txt fájlt és a sitemap.xml fájlt. Ez a két fájl együtt alkotja a weboldal „kommunikációs protokollját" a keresőrobotok felé.
A robots.txt fájl a „belépési szabályzat": megmondja a robotoknak, mely területeket látogathatják meg, és melyeket kell elkerülniük. A sitemap.xml a „térkép": strukturált listát ad az összes fontos oldalról, azok frissítési gyakoriságáról és prioritásáról. A kettő együtt biztosítja, hogy a keresőrobot hatékonyan és a te szándékaid szerint járja be az oldaladat.
Miért számít ez ennyire? A keresőrobotoknak korlátozott a crawl budget-jük (bejárási keretük) minden egyes weboldalra. A Google nem tud és nem is akar minden egyes URL-t bejárni a világ összes weboldalán. Ha a robots.txt rosszul van konfigurálva, a robot értékes időt pazarol olyan oldalak bejárására, amelyek nem fontosak (pl. admin felületek, keresési eredmények oldalak), miközben a valóban fontos termékoldalak vagy blogposztok kimaradnak. Ha nincs sitemap.xml, a robot kizárólag a belső linkeket követve fedezi fel az oldalakat - ami azt jelenti, hogy az elárvult (orphan) oldalak soha nem kerülnek indexelésre.
Az AI keresők megjelenésével ez még fontosabbá vált. A ChatGPT, a Gemini és a Perplexity saját crawlerekkel rendelkeznek, amelyek szintén a robots.txt fájlból tudják meg, jogosultak-e az oldal bejárására. Ha nem állítod be helyesen ezeket a fájlokat, a weboldalad kimaradhat az AI-alapú keresők válaszaiból is - ami 2026-ban egyre nagyobb forgalmi veszteséget jelent.
Tipp: Az AI Web teszt audit AI Stabilitás pillérébe tartozik a robots.txt és sitemap.xml ellenőrzése. Ha ezek a fájlok hiányoznak vagy hibásak, az közvetlenül csökkenti az audit pontszámodat.
🔍 AI Web teszt — alkönyvtár-ellenőrzés fejlesztőknek:
Az AI Web teszt audit nem csak a domain gyökerében keresi a robots.txt és sitemap.xml fájlokat. Ha az auditált URL egy alkönyvtárban van (pl. https://dev.example.com/projekt-neve/), az audit először az alkönyvtárban keresi ezeket a fájlokat, majd a domain gyökerében. Ez a funkció fejlesztőcégeknek készült, akik az élesítés előtt alkönyvtárakban tesztelik ügyfeleik weboldalait.
Fontos: Az éles (production) környezetben a robots.txt fájlnak mindig a domain gyökerében kell lennie az RFC 9309 szabvány szerint (pl. https://peldaoldal.hu/robots.txt). Az alkönyvtárban elhelyezett robots.txt fájlokat a valódi keresőrobotok (Googlebot, Bingbot, stb.) nem veszik figyelembe. Ez kizárólag az audit pontozási funkciója a fejlesztési fázis támogatására.
Robots.txt - a keresők „belépési szabályzata"
A robots.txt egy egyszerű szöveges fájl, amelyet a weboldal gyökerében kell elhelyezni: https://peldaoldal.hu/robots.txt. A fájl a Robots Exclusion Protocol (REP) szabványt követi, amelyet 1994-ben vezettek be, és azóta az összes nagy keresőmotor tiszteletben tartja. Fontos megérteni: a robots.txt egy kérés, nem egy parancs - a jóindulatú robotok betartják, de egy rosszindulatú scraper figyelmen kívül hagyhatja.
Alapvető szintaxis
A robots.txt fájl sorai az alábbi direktívákból állnak:
- User-agent: Meghatározza, melyik robotra vonatkozik az utána következő szabály. A
*(csillag) az összes robotot jelenti. - Disallow: Tiltja a megadott elérési út bejárását. Például
Disallow: /admin/tiltja az admin könyvtár bejárását. - Allow: Kifejezetten engedélyezi egy elérési út bejárását. Akkor hasznos, amikor egy tiltott könyvtáron belül van engedélyezett rész.
- Sitemap: Megadja a sitemap.xml fájl teljes URL-jét. Több sitemap is megadható.
- Crawl-delay: Egyes keresők (pl. Bing) támogatják - másodpercben megadva lassítja a bejárási sebességet. A Google ezt nem veszi figyelembe.
Alapértelmezett robots.txt - minden engedélyezve
A legegyszerűbb robots.txt, amely minden robotnak mindent engedélyez:
User-agent: *
Allow: /
Sitemap: https://peldaoldal.hu/sitemap.xml
Tipikus éles konfiguráció
Egy átlagos weboldal robots.txt fájlja jellemzően így néz ki:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search?
Disallow: /user/
Disallow: /*?sessionid=
Disallow: /*?utm_
Sitemap: https://peldaoldal.hu/sitemap.xml
Sitemap: https://peldaoldal.hu/sitemap-images.xml
Tipp: A Disallow: /search? szabály megakadályozza, hogy a keresőrobotok bejárják a belső kereső eredményoldalait. Ezek az oldalak általában alacsony minőségű, duplikált tartalmakat generálnak, amelyek feleslegesen fogyasztják a crawl budget-et.
Wildcard (helyettesítő karakter) használata
A Google és a Bing támogatja a * (bármilyen karaktersorozat) és a $ (URL vége) helyettesítő karaktereket:
# Minden .pdf fájl tiltása
User-agent: *
Disallow: /*.pdf$
# Minden URL tiltása, amely tartalmaz "?sort=" paramétert
User-agent: *
Disallow: /*?sort=
A robots.txt tesztelése
A Google Search Console (GSC) beépített robots.txt tesztelő eszközzel rendelkezik. Emellett használhatod a parancssorot is:
# robots.txt letöltése és megtekintése
curl -s https://peldaoldal.hu/robots.txt
# Ellenőrzés: a válasz HTTP 200-as legyen
curl -sI https://peldaoldal.hu/robots.txt | head -1
Figyelmeztetés: Ha a robots.txt fájl nem elérhető (HTTP 404 vagy 5xx), a keresőrobotok úgy kezelik, mintha nem lenne tiltás - tehát mindent bejárnak. Ez nem feltétlenül baj, de ha szándékosan akartál valamit tiltani, az nem fog érvényesülni. Ha viszont HTTP 5xx hibát ad, a Google ideiglenesen leállíthatja az oldal bejárását.
Sitemap.xml - a weboldal térképe
A sitemap.xml egy XML formátumú fájl, amely felsorolja a weboldal összes fontos URL-jét, kiegészítve metaadatokkal: mikor frissült utoljára, milyen gyakran változik, és mekkora a prioritása. Ez a fájl a keresőrobotok számára a leghatékonyabb módja annak, hogy felfedezzék az összes releváns oldalt - különösen azokat, amelyekre nem mutat belső link.
XML formátum és kötelező elemek
Egy sitemap.xml fájl alapstruktúrája:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://peldaoldal.hu/</loc>
<lastmod>2026-03-09</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://peldaoldal.hu/szolgaltatasok/</loc>
<lastmod>2026-02-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://peldaoldal.hu/blog/seo-tippek</loc>
<lastmod>2026-03-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.7</priority>
</url>
</urlset>
A sitemap elemek magyarázata
<loc>(kötelező): Az oldal teljes, abszolút URL-je. Mindighttps://protokollal kell kezdődnie, és meg kell egyeznie a canonical URL-lel.<lastmod>(ajánlott): Az oldal utolsó módosításának dátumaYYYY-MM-DDformátumban. A Google ezt a dátumot használja annak eldöntésére, hogy érdemes-e újra bejárni az oldalt. Fontos: csak akkor frissítsd, ha a tartalom ténylegesen változott!<changefreq>(opcionális): Milyen gyakran változik a tartalom. Lehetséges értékek:always,hourly,daily,weekly,monthly,yearly,never. A Google hivatalosan nem veszi figyelembe, de más keresők igen.<priority>(opcionális): Az oldal relatív fontossága a saját oldaladon belül, 0.0-tól 1.0-ig. Nem befolyásolja a rangsorolást más oldalakhoz képest - kizárólag a saját URL-jeid közötti prioritást jelzi a keresőrobotnak.
Sitemap index nagy weboldalakhoz
Egy sitemap.xml fájl maximum 50 000 URL-t tartalmazhat, és nem lehet nagyobb 50 MB-nál (tömörítés nélkül). Ha a weboldalad ennél több URL-t tartalmaz, sitemap index fájlt kell használnod:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://peldaoldal.hu/sitemap-pages.xml</loc>
<lastmod>2026-03-09</lastmod>
</sitemap>
<sitemap>
<loc>https://peldaoldal.hu/sitemap-blog.xml</loc>
<lastmod>2026-03-08</lastmod>
</sitemap>
<sitemap>
<loc>https://peldaoldal.hu/sitemap-products.xml</loc>
<lastmod>2026-03-09</lastmod>
</sitemap>
</sitemapindex>
Dinamikus sitemap generálás
Statikus weboldalak esetén manuálisan is karbantarthatod a sitemap-et, de CMS-ek és webshopok esetén automatikus generálás az egyetlen fenntartható megoldás:
- WordPress: A Yoast SEO vagy Rank Math bővítmény automatikusan generálja és frissíti a sitemap-et.
- Shopify: A
/sitemap.xmlautomatikusan generálódik a termékekből, kollekcióból és blogposztokból. - Egyedi fejlesztés (PHP/Node.js): Írj egy szkriptet, amely az adatbázisból lekérdezi az aktív oldalakat, és XML formátumban generálja a sitemap-et. Állíts be cron job-ot a napi frissítéshez.
Tipp: A sitemap.xml fájlt gzip tömörítéssel is kiszolgálhatod (sitemap.xml.gz). Ez különösen nagy sitemapek esetén hasznos, és a keresőmotorok mindegyike támogatja.
Gyakori hibák és megoldásaik
Az alábbiakban összegyűjtöttük a robots.txt és sitemap.xml konfigurálása során leggyakrabban elkövetett hibákat, valamint azok megoldásait:
1. CSS és JavaScript fájlok tiltása
Hiba: A robots.txt-ben tiltva vannak a CSS és JS fájlok:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/
Probléma: A Google a rendereléshez szükséges CSS-t és JavaScript-et is le akarja tölteni, hogy úgy lássa az oldalt, ahogy a felhasználók. Ha ezeket tiltod, a Googlebot nem tudja renderelni az oldalt, és „mobile usability" hibákat fog jelezni a Search Console-ban.
Megoldás: Soha ne tiltsd a CSS, JS és képfájlok elérését. Ha biztonsági okokból aggódsz, használj más védelmi mechanizmusokat (pl. autentikáció), ne a robots.txt-et.
2. Képek tiltása a keresőrobotok elől
Hiba: Az összes kép könyvtár tiltva van:
User-agent: *
Disallow: /images/
Disallow: /uploads/
Probléma: A képek nem jelennek meg a Google Képek keresőben, ami jelentős forgalomveszteséget okozhat, különösen e-kereskedelmi és portfólió weboldalaknál. Emellett az AI keresők sem tudják értelmezni a vizuális kontextust.
Megoldás: Engedélyezd a képek bejárását. Ha bizonyos képeket (pl. admin területen lévő screenshotokat) nem szeretnél indexeltetni, használj noindex meta tag-et vagy X-Robots-Tag HTTP fejlécet azoknál a specifikus képeknél.
3. Hiányzó sitemap hivatkozás a robots.txt-ben
Hiba: A robots.txt nem tartalmaz Sitemap: direktívát.
Probléma: Bár a Google Search Console-ban külön is be lehet nyújtani a sitemap-et, a robots.txt-ben lévő hivatkozás biztosítja, hogy minden keresőrobot - beleértve azokat is, amelyeknél nincs GSC fiókod - automatikusan megtalálja a sitemap-et.
Megoldás: Mindig add hozzá a Sitemap: https://domain.hu/sitemap.xml sort a robots.txt végéhez. Ha több sitemap-ed van, mindegyiket sorold fel.
4. Helytelen URL formátumok a sitemap-ben
Hiba: A sitemap relatív URL-eket tartalmaz, vagy a protokoll/domain nem egyezik a canonical URL-lel:
<!-- HIBÁS: relatív URL -->
<loc>/szolgaltatasok/</loc>
<!-- HIBÁS: http a https helyett -->
<loc>http://peldaoldal.hu/szolgaltatasok/</loc>
<!-- HIBÁS: www nélkül, miközben a canonical www-vel van -->
<loc>https://peldaoldal.hu/szolgaltatasok/</loc>
Megoldás: Minden <loc> elemben abszolút URL-t használj, pontosan ugyanazzal a protokollal és domain formátummal, mint a canonical URL-ekben.
5. Túl nagy sitemap fájl
Hiba: Egyetlen sitemap.xml fájl 50 000 URL felett vagy 50 MB felett van. Megoldás: Használj sitemap index fájlt, és osszd fel a URL-eket logikus csoportokba (oldalak, blogposztok, termékek). Minden al-sitemap legyen a limiten belül.
6. Fontos oldalak letiltása a robots.txt-ben
Hiba: Egy túl agresszív Disallow szabály véletlenül fontos oldalakat is tilt. Például a Disallow: /szolg nemcsak a /szolgaltatasok-admin/ oldalt tiltja, hanem a /szolgaltatasok/ publikus oldalt is. Megoldás: Legyél specifikus a tiltásoknál. Használj pontos elérési utakat, és teszteld a robots.txt-et a GSC tesztelővel, mielőtt élesíted.
AI keresők és a crawlolás
2024-2026 között az AI-alapú keresők (ChatGPT, Gemini, Perplexity) elterjedése fundamentálisan megváltoztatta a crawlolás dinamikáját. Ezek az eszközök saját crawlerekkel rendelkeznek, amelyek - a hagyományos keresőmotorokhoz hasonlóan - tiszteletben tartják a robots.txt szabályokat. Fontos ismerni ezeket a crawlereket és tudatosan kezelni az engedélyeiket.
A legfontosabb AI crawler User-agent nevek
- GPTBot - Az OpenAI (ChatGPT, ChatGPT Search) crawlere. Ha engedélyezed, a weboldalad tartalma megjelenhet a ChatGPT válaszaiban és a ChatGPT Search eredményeiben.
- OAI-SearchBot - Az OpenAI keresés-specifikus crawlere, amely kifejezetten a ChatGPT Search funkcióhoz gyűjt adatokat.
- Google-Extended - A Google AI (Gemini) crawlere. A hagyományos Googlebot-tól független: tilthatod a Google-Extended-et anélkül, hogy a normál Google keresési indexelést befolyásolnád.
- PerplexityBot - A Perplexity AI crawlere. A Perplexity közvetlenül idézi a forrásokat a válaszaiban, ami közvetlen forgalmat hozhat.
- ClaudeBot - Az Anthropic (Claude) crawlere.
- Bytespider - A ByteDance (TikTok) crawlere, amelyet AI modelljeik tanítására is használnak.
- CCBot - A Common Crawl adatbázis crawlere, amelyet számos AI modell tanításához használnak.
AI crawlerek szelektív engedélyezése/tiltása
Ha szeretnéd, hogy a weboldalad megjelenjen az AI keresők válaszaiban (ami 2026-ban egyre fontosabb forgalmi forrás), de bizonyos AI szolgáltatókat ki szeretnél zárni:
# Minden hagyományos kereső engedélyezve
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
# GPTBot (ChatGPT) engedélyezve
User-agent: GPTBot
Allow: /
# Google Gemini AI engedélyezve
User-agent: Google-Extended
Allow: /
# Perplexity engedélyezve
User-agent: PerplexityBot
Allow: /
# ByteDance/TikTok AI tiltva
User-agent: Bytespider
Disallow: /
# Common Crawl tiltva (széles körű adatgyűjtés)
User-agent: CCBot
Disallow: /
Sitemap: https://peldaoldal.hu/sitemap.xml
Tipp: Ha teljesen tiltod az AI crawlereket, az oldal tartalma nem jelenik meg a ChatGPT, Gemini vagy Perplexity válaszaiban. 2026-ban az AI keresők az összes webes forgalom becslések szerint 15-25%-áért felelősek - ennek a forgalomnak az elvesztése jelentős üzleti hatással járhat.
AI keresők és a sitemap kapcsolata
Az AI crawlerek is felhasználják a sitemap.xml fájlt az oldalak felfedezéséhez. Különösen fontos, hogy a sitemap <lastmod> dátumai pontosak legyenek, mert az AI crawlerek jellemzően a friss tartalmakat részesítik előnyben. Ha egy blogposzt lastmod értéke naprakész, nagyobb eséllyel kerül be az AI válaszokba, mint egy évekkel ezelőtti, soha nem frissített oldal.
Figyelmeztetés: Ne hamisítsd a lastmod dátumot! Ha minden oldalon a mai dátumot írod be, a Google és az AI crawlerek is észreveszik, és a lastmod értéket a jövőben figyelmen kívül hagyják az egész domainen. Csak akkor frissítsd, ha a tartalom ténylegesen változott.
Ellenőrző lista
Az alábbi ellenőrző listával gyorsan ellenőrizheted, hogy a robots.txt és sitemap.xml fájljaid helyesen vannak-e konfigurálva:
Robots.txt ellenőrző lista
- A
robots.txtelérhető ahttps://domain.hu/robots.txtcímen (HTTP 200 válasz) - A fájl UTF-8 kódolású, egyszerű szöveges formátumú
- Tartalmaz
User-agent: *szabályt az általános keresők számára - A CSS, JS és képfájlok nincsenek tiltva (
/css/,/js/,/images/engedélyezve) - Az admin, API és belső keresési URL-ek tiltva vannak
- Tartalmaz legalább egy
Sitemap:direktívát a sitemap.xml teljes URL-jével - Az AI crawlerek (GPTBot, Google-Extended, PerplexityBot) tudatosan vannak kezelve - engedélyezve vagy tiltva
- A fájl tesztelve van a Google Search Console robots.txt tesztelőjével
- Nincs benne véletlenül a teljes oldalt tiltó
Disallow: /szabály aUser-agent: *alatt
Sitemap.xml ellenőrző lista
- A
sitemap.xmlelérhető ahttps://domain.hu/sitemap.xmlcímen (HTTP 200 válasz) - A fájl érvényes XML formátumú (nincs szintaktikai hiba)
- Minden
<loc>elem abszolút URL-t tartalmaz (https://) - Az URL-ek megegyeznek a canonical URL-ekkel (protokoll, www/nem-www, záró perjel)
- A
<lastmod>dátumok pontosak és aktuálisak - Nem tartalmaz 404-es, 301-es átirányított vagy
noindexoldalakat - A sitemap be van nyújtva a Google Search Console-ban
- A sitemap be van nyújtva a Bing Webmaster Tools-ban
- A sitemap hivatkozva van a robots.txt fájlban
- 50 000 URL vagy 50 MB alatti méretű (ha felette van, sitemap index használata)
- Dinamikus generálás esetén a cron job rendszeresen fut és frissíti a fájlt
Gyors terminál ellenőrzés
Az alábbi parancsokkal gyorsan ellenőrizheted a fájlok elérhetőségét:
# Robots.txt ellenőrzés
curl -sI https://peldaoldal.hu/robots.txt | head -3
# Sitemap.xml ellenőrzés
curl -sI https://peldaoldal.hu/sitemap.xml | head -3
# Sitemap URL-ek száma
curl -s https://peldaoldal.hu/sitemap.xml | grep -c "<loc>"
# Robots.txt tartalmának megtekintése
curl -s https://peldaoldal.hu/robots.txt
Hasznos külső források
Az alábbi hivatalos források részletes technikai útmutatást nyújtanak a robots.txt és sitemap.xml konfigurálásához:
- Google: Robots.txt bevezetés - A Google hivatalos robots.txt dokumentációja
- Google: Sitemaps áttekintés - A Google hivatalos sitemap útmutatója
- sitemaps.org - A sitemap protokoll hivatalos specifikációja
- OpenAI: GPTBot dokumentáció - A GPTBot crawler specifikációja
- Google: Crawlerek áttekintése - Az összes Google crawler (beleértve a Google-Extended-et) listája
- Google Search Console - Sitemap benyújtás és robots.txt tesztelés
Szeretnéd ellenőrizni, hogy a weboldalad robots.txt és sitemap.xml fájljai helyesen vannak-e beállítva?
Vagy töltsd le az Optimalizálási Sablon HTML-t — az összes szükséges meta tag, schema és struktúra egy fájlban.
További cikkek a Tudástárban
AI Stabilitás
A robots.txt pontozása az AI Stabilitás pillérben - így értékeli az audit a crawlolhatóságot.
Tovább →Core Web Vitals
A weboldal teljesítmény alapjai: LCP, INP, CLS - a 25 pontos pillér részletei.
Tovább →AI Láthatóság
Hogyan látható a weboldalad az AI-alapú keresőkben? A 25 pontos pillér részletei.
Tovább →