Crawlolhatóság - Technikai alap

Robots.txt és Sitemap.xml: a crawlolhatóság technikai alapjai

A robots.txt és a sitemap.xml két olyan fájl, amelyet minden weboldal gyökerében el kell helyezni. Együtt határozzák meg, hogy a keresőrobotok - beleértve a Google-t, a Binget és az AI-alapú crawlereket - hogyan fedezik fel, indexelik és értelmezik az oldaladat. E két fájl hiánya vagy hibás konfigurációja láthatatlanná teheti a weboldaladat.

technikai SEO alapok

Miért fontosak a keresőrobotoknak?

Amikor egy keresőrobot - legyen az a Googlebot, a Bingbot vagy egy AI-alapú crawler, mint a GPTBot - először ellátogat a weboldaladra, az első dolga nem az, hogy elolvassa a főoldalad tartalmát. Ehelyett két fájlt keres a domain gyökerében: a robots.txt fájlt és a sitemap.xml fájlt. Ez a két fájl együtt alkotja a weboldal „kommunikációs protokollját" a keresőrobotok felé.

A robots.txt fájl a „belépési szabályzat": megmondja a robotoknak, mely területeket látogathatják meg, és melyeket kell elkerülniük. A sitemap.xml a „térkép": strukturált listát ad az összes fontos oldalról, azok frissítési gyakoriságáról és prioritásáról. A kettő együtt biztosítja, hogy a keresőrobot hatékonyan és a te szándékaid szerint járja be az oldaladat.

Miért számít ez ennyire? A keresőrobotoknak korlátozott a crawl budget-jük (bejárási keretük) minden egyes weboldalra. A Google nem tud és nem is akar minden egyes URL-t bejárni a világ összes weboldalán. Ha a robots.txt rosszul van konfigurálva, a robot értékes időt pazarol olyan oldalak bejárására, amelyek nem fontosak (pl. admin felületek, keresési eredmények oldalak), miközben a valóban fontos termékoldalak vagy blogposztok kimaradnak. Ha nincs sitemap.xml, a robot kizárólag a belső linkeket követve fedezi fel az oldalakat - ami azt jelenti, hogy az elárvult (orphan) oldalak soha nem kerülnek indexelésre.

Az AI keresők megjelenésével ez még fontosabbá vált. A ChatGPT, a Gemini és a Perplexity saját crawlerekkel rendelkeznek, amelyek szintén a robots.txt fájlból tudják meg, jogosultak-e az oldal bejárására. Ha nem állítod be helyesen ezeket a fájlokat, a weboldalad kimaradhat az AI-alapú keresők válaszaiból is - ami 2026-ban egyre nagyobb forgalmi veszteséget jelent.

Tipp: Az AI Web teszt audit AI Stabilitás pillérébe tartozik a robots.txt és sitemap.xml ellenőrzése. Ha ezek a fájlok hiányoznak vagy hibásak, az közvetlenül csökkenti az audit pontszámodat.

🔍 AI Web teszt — alkönyvtár-ellenőrzés fejlesztőknek:

Az AI Web teszt audit nem csak a domain gyökerében keresi a robots.txt és sitemap.xml fájlokat. Ha az auditált URL egy alkönyvtárban van (pl. https://dev.example.com/projekt-neve/), az audit először az alkönyvtárban keresi ezeket a fájlokat, majd a domain gyökerében. Ez a funkció fejlesztőcégeknek készült, akik az élesítés előtt alkönyvtárakban tesztelik ügyfeleik weboldalait.

Fontos: Az éles (production) környezetben a robots.txt fájlnak mindig a domain gyökerében kell lennie az RFC 9309 szabvány szerint (pl. https://peldaoldal.hu/robots.txt). Az alkönyvtárban elhelyezett robots.txt fájlokat a valódi keresőrobotok (Googlebot, Bingbot, stb.) nem veszik figyelembe. Ez kizárólag az audit pontozási funkciója a fejlesztési fázis támogatására.

Robots.txt - a keresők „belépési szabályzata"

A robots.txt egy egyszerű szöveges fájl, amelyet a weboldal gyökerében kell elhelyezni: https://peldaoldal.hu/robots.txt. A fájl a Robots Exclusion Protocol (REP) szabványt követi, amelyet 1994-ben vezettek be, és azóta az összes nagy keresőmotor tiszteletben tartja. Fontos megérteni: a robots.txt egy kérés, nem egy parancs - a jóindulatú robotok betartják, de egy rosszindulatú scraper figyelmen kívül hagyhatja.

Alapvető szintaxis

A robots.txt fájl sorai az alábbi direktívákból állnak:

User-agent: Meghatározza, melyik robotra vonatkozik az utána következő szabály. A * (csillag) az összes robotot jelenti.
Disallow: Tiltja a megadott elérési út bejárását. Például Disallow: /admin/ tiltja az admin könyvtár bejárását.
Allow: Kifejezetten engedélyezi egy elérési út bejárását. Akkor hasznos, amikor egy tiltott könyvtáron belül van engedélyezett rész.
Sitemap: Megadja a sitemap.xml fájl teljes URL-jét. Több sitemap is megadható.
Crawl-delay: Egyes keresők (pl. Bing) támogatják - másodpercben megadva lassítja a bejárási sebességet. A Google ezt nem veszi figyelembe.

Alapértelmezett robots.txt - minden engedélyezve

A legegyszerűbb robots.txt, amely minden robotnak mindent engedélyez:

User-agent: *
Allow: /

Sitemap: https://peldaoldal.hu/sitemap.xml

Tipikus éles konfiguráció

Egy átlagos weboldal robots.txt fájlja jellemzően így néz ki:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search?
Disallow: /user/
Disallow: /*?sessionid=
Disallow: /*?utm_

Sitemap: https://peldaoldal.hu/sitemap.xml
Sitemap: https://peldaoldal.hu/sitemap-images.xml

Tipp: A Disallow: /search? szabály megakadályozza, hogy a keresőrobotok bejárják a belső kereső eredményoldalait. Ezek az oldalak általában alacsony minőségű, duplikált tartalmakat generálnak, amelyek feleslegesen fogyasztják a crawl budget-et.

Wildcard (helyettesítő karakter) használata

A Google és a Bing támogatja a * (bármilyen karaktersorozat) és a $ (URL vége) helyettesítő karaktereket:

# Minden .pdf fájl tiltása
User-agent: *
Disallow: /*.pdf$

# Minden URL tiltása, amely tartalmaz "?sort=" paramétert
User-agent: *
Disallow: /*?sort=

A robots.txt tesztelése

A Google Search Console (GSC) beépített robots.txt tesztelő eszközzel rendelkezik. Emellett használhatod a parancssorot is:

# robots.txt letöltése és megtekintése
curl -s https://peldaoldal.hu/robots.txt

# Ellenőrzés: a válasz HTTP 200-as legyen
curl -sI https://peldaoldal.hu/robots.txt | head -1

Figyelmeztetés: Ha a robots.txt fájl nem elérhető (HTTP 404 vagy 5xx), a keresőrobotok úgy kezelik, mintha nem lenne tiltás - tehát mindent bejárnak. Ez nem feltétlenül baj, de ha szándékosan akartál valamit tiltani, az nem fog érvényesülni. Ha viszont HTTP 5xx hibát ad, a Google ideiglenesen leállíthatja az oldal bejárását.

Sitemap.xml - a weboldal térképe

A sitemap.xml egy XML formátumú fájl, amely felsorolja a weboldal összes fontos URL-jét, kiegészítve metaadatokkal: mikor frissült utoljára, milyen gyakran változik, és mekkora a prioritása. Ez a fájl a keresőrobotok számára a leghatékonyabb módja annak, hogy felfedezzék az összes releváns oldalt - különösen azokat, amelyekre nem mutat belső link.

XML formátum és kötelező elemek

Egy sitemap.xml fájl alapstruktúrája:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://peldaoldal.hu/</loc>
    <lastmod>2026-03-09</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://peldaoldal.hu/szolgaltatasok/</loc>
    <lastmod>2026-02-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://peldaoldal.hu/blog/seo-tippek</loc>
    <lastmod>2026-03-01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.7</priority>
  </url>
</urlset>

A sitemap elemek magyarázata

<loc> (kötelező): Az oldal teljes, abszolút URL-je. Mindig https:// protokollal kell kezdődnie, és meg kell egyeznie a canonical URL-lel.
<lastmod> (ajánlott): Az oldal utolsó módosításának dátuma YYYY-MM-DD formátumban. A Google ezt a dátumot használja annak eldöntésére, hogy érdemes-e újra bejárni az oldalt. Fontos: csak akkor frissítsd, ha a tartalom ténylegesen változott!
<changefreq> (opcionális): Milyen gyakran változik a tartalom. Lehetséges értékek: always, hourly, daily, weekly, monthly, yearly, never. A Google hivatalosan nem veszi figyelembe, de más keresők igen.
<priority> (opcionális): Az oldal relatív fontossága a saját oldaladon belül, 0.0-tól 1.0-ig. Nem befolyásolja a rangsorolást más oldalakhoz képest - kizárólag a saját URL-jeid közötti prioritást jelzi a keresőrobotnak.

Sitemap index nagy weboldalakhoz

Egy sitemap.xml fájl maximum 50 000 URL-t tartalmazhat, és nem lehet nagyobb 50 MB-nál (tömörítés nélkül). Ha a weboldalad ennél több URL-t tartalmaz, sitemap index fájlt kell használnod:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://peldaoldal.hu/sitemap-pages.xml</loc>
    <lastmod>2026-03-09</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://peldaoldal.hu/sitemap-blog.xml</loc>
    <lastmod>2026-03-08</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://peldaoldal.hu/sitemap-products.xml</loc>
    <lastmod>2026-03-09</lastmod>
  </sitemap>
</sitemapindex>

Dinamikus sitemap generálás

Statikus weboldalak esetén manuálisan is karbantarthatod a sitemap-et, de CMS-ek és webshopok esetén automatikus generálás az egyetlen fenntartható megoldás:

WordPress: A Yoast SEO vagy Rank Math bővítmény automatikusan generálja és frissíti a sitemap-et.
Shopify: A /sitemap.xml automatikusan generálódik a termékekből, kollekcióból és blogposztokból.
Egyedi fejlesztés (PHP/Node.js): Írj egy szkriptet, amely az adatbázisból lekérdezi az aktív oldalakat, és XML formátumban generálja a sitemap-et. Állíts be cron job-ot a napi frissítéshez.

Tipp: A sitemap.xml fájlt gzip tömörítéssel is kiszolgálhatod (sitemap.xml.gz). Ez különösen nagy sitemapek esetén hasznos, és a keresőmotorok mindegyike támogatja.

Gyakori hibák és megoldásaik

Az alábbiakban összegyűjtöttük a robots.txt és sitemap.xml konfigurálása során leggyakrabban elkövetett hibákat, valamint azok megoldásait:

1. CSS és JavaScript fájlok tiltása

Hiba: A robots.txt-ben tiltva vannak a CSS és JS fájlok:

User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /assets/

Probléma: A Google a rendereléshez szükséges CSS-t és JavaScript-et is le akarja tölteni, hogy úgy lássa az oldalt, ahogy a felhasználók. Ha ezeket tiltod, a Googlebot nem tudja renderelni az oldalt, és „mobile usability" hibákat fog jelezni a Search Console-ban.

Megoldás: Soha ne tiltsd a CSS, JS és képfájlok elérését. Ha biztonsági okokból aggódsz, használj más védelmi mechanizmusokat (pl. autentikáció), ne a robots.txt-et.

2. Képek tiltása a keresőrobotok elől

Hiba: Az összes kép könyvtár tiltva van:

User-agent: *
Disallow: /images/
Disallow: /uploads/

Probléma: A képek nem jelennek meg a Google Képek keresőben, ami jelentős forgalomveszteséget okozhat, különösen e-kereskedelmi és portfólió weboldalaknál. Emellett az AI keresők sem tudják értelmezni a vizuális kontextust.

Megoldás: Engedélyezd a képek bejárását. Ha bizonyos képeket (pl. admin területen lévő screenshotokat) nem szeretnél indexeltetni, használj noindex meta tag-et vagy X-Robots-Tag HTTP fejlécet azoknál a specifikus képeknél.

3. Hiányzó sitemap hivatkozás a robots.txt-ben

Hiba: A robots.txt nem tartalmaz Sitemap: direktívát.

Probléma: Bár a Google Search Console-ban külön is be lehet nyújtani a sitemap-et, a robots.txt-ben lévő hivatkozás biztosítja, hogy minden keresőrobot - beleértve azokat is, amelyeknél nincs GSC fiókod - automatikusan megtalálja a sitemap-et.

Megoldás: Mindig add hozzá a Sitemap: https://domain.hu/sitemap.xml sort a robots.txt végéhez. Ha több sitemap-ed van, mindegyiket sorold fel.

4. Helytelen URL formátumok a sitemap-ben

Hiba: A sitemap relatív URL-eket tartalmaz, vagy a protokoll/domain nem egyezik a canonical URL-lel:

<!-- HIBÁS: relatív URL -->
<loc>/szolgaltatasok/</loc>

<!-- HIBÁS: http a https helyett -->
<loc>http://peldaoldal.hu/szolgaltatasok/</loc>

<!-- HIBÁS: www nélkül, miközben a canonical www-vel van -->
<loc>https://peldaoldal.hu/szolgaltatasok/</loc>

Megoldás: Minden <loc> elemben abszolút URL-t használj, pontosan ugyanazzal a protokollal és domain formátummal, mint a canonical URL-ekben.

5. Túl nagy sitemap fájl

Hiba: Egyetlen sitemap.xml fájl 50 000 URL felett vagy 50 MB felett van. Megoldás: Használj sitemap index fájlt, és osszd fel a URL-eket logikus csoportokba (oldalak, blogposztok, termékek). Minden al-sitemap legyen a limiten belül.

6. Fontos oldalak letiltása a robots.txt-ben

Hiba: Egy túl agresszív Disallow szabály véletlenül fontos oldalakat is tilt. Például a Disallow: /szolg nemcsak a /szolgaltatasok-admin/ oldalt tiltja, hanem a /szolgaltatasok/ publikus oldalt is. Megoldás: Legyél specifikus a tiltásoknál. Használj pontos elérési utakat, és teszteld a robots.txt-et a GSC tesztelővel, mielőtt élesíted.

AI keresők és a crawlolás

2024-2026 között az AI-alapú keresők (ChatGPT, Gemini, Perplexity) elterjedése fundamentálisan megváltoztatta a crawlolás dinamikáját. Ezek az eszközök saját crawlerekkel rendelkeznek, amelyek - a hagyományos keresőmotorokhoz hasonlóan - tiszteletben tartják a robots.txt szabályokat. Fontos ismerni ezeket a crawlereket és tudatosan kezelni az engedélyeiket.

A legfontosabb AI crawler User-agent nevek

GPTBot - Az OpenAI (ChatGPT, ChatGPT Search) crawlere. Ha engedélyezed, a weboldalad tartalma megjelenhet a ChatGPT válaszaiban és a ChatGPT Search eredményeiben.
OAI-SearchBot - Az OpenAI keresés-specifikus crawlere, amely kifejezetten a ChatGPT Search funkcióhoz gyűjt adatokat.
Google-Extended - A Google AI (Gemini) crawlere. A hagyományos Googlebot-tól független: tilthatod a Google-Extended-et anélkül, hogy a normál Google keresési indexelést befolyásolnád.
PerplexityBot - A Perplexity AI crawlere. A Perplexity közvetlenül idézi a forrásokat a válaszaiban, ami közvetlen forgalmat hozhat.
ClaudeBot - Az Anthropic (Claude) crawlere.
Bytespider - A ByteDance (TikTok) crawlere, amelyet AI modelljeik tanítására is használnak.
CCBot - A Common Crawl adatbázis crawlere, amelyet számos AI modell tanításához használnak.

AI crawlerek szelektív engedélyezése/tiltása

Ha szeretnéd, hogy a weboldalad megjelenjen az AI keresők válaszaiban (ami 2026-ban egyre fontosabb forgalmi forrás), de bizonyos AI szolgáltatókat ki szeretnél zárni:

# Minden hagyományos kereső engedélyezve
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

# GPTBot (ChatGPT) engedélyezve
User-agent: GPTBot
Allow: /

# Google Gemini AI engedélyezve
User-agent: Google-Extended
Allow: /

# Perplexity engedélyezve
User-agent: PerplexityBot
Allow: /

# ByteDance/TikTok AI tiltva
User-agent: Bytespider
Disallow: /

# Common Crawl tiltva (széles körű adatgyűjtés)
User-agent: CCBot
Disallow: /

Sitemap: https://peldaoldal.hu/sitemap.xml

Tipp: Ha teljesen tiltod az AI crawlereket, az oldal tartalma nem jelenik meg a ChatGPT, Gemini vagy Perplexity válaszaiban. 2026-ban az AI keresők az összes webes forgalom becslések szerint 15-25%-áért felelősek - ennek a forgalomnak az elvesztése jelentős üzleti hatással járhat.

AI keresők és a sitemap kapcsolata

Az AI crawlerek is felhasználják a sitemap.xml fájlt az oldalak felfedezéséhez. Különösen fontos, hogy a sitemap <lastmod> dátumai pontosak legyenek, mert az AI crawlerek jellemzően a friss tartalmakat részesítik előnyben. Ha egy blogposzt lastmod értéke naprakész, nagyobb eséllyel kerül be az AI válaszokba, mint egy évekkel ezelőtti, soha nem frissített oldal.

Figyelmeztetés: Ne hamisítsd a lastmod dátumot! Ha minden oldalon a mai dátumot írod be, a Google és az AI crawlerek is észreveszik, és a lastmod értéket a jövőben figyelmen kívül hagyják az egész domainen. Csak akkor frissítsd, ha a tartalom ténylegesen változott.

Ellenőrző lista

Az alábbi ellenőrző listával gyorsan ellenőrizheted, hogy a robots.txt és sitemap.xml fájljaid helyesen vannak-e konfigurálva:

Robots.txt ellenőrző lista

A robots.txt elérhető a https://domain.hu/robots.txt címen (HTTP 200 válasz)
A fájl UTF-8 kódolású, egyszerű szöveges formátumú
Tartalmaz User-agent: * szabályt az általános keresők számára
A CSS, JS és képfájlok nincsenek tiltva (/css/, /js/, /images/ engedélyezve)
Az admin, API és belső keresési URL-ek tiltva vannak
Tartalmaz legalább egy Sitemap: direktívát a sitemap.xml teljes URL-jével
Az AI crawlerek (GPTBot, Google-Extended, PerplexityBot) tudatosan vannak kezelve - engedélyezve vagy tiltva
A fájl tesztelve van a Google Search Console robots.txt tesztelőjével
Nincs benne véletlenül a teljes oldalt tiltó Disallow: / szabály a User-agent: * alatt

Sitemap.xml ellenőrző lista

A sitemap.xml elérhető a https://domain.hu/sitemap.xml címen (HTTP 200 válasz)
A fájl érvényes XML formátumú (nincs szintaktikai hiba)
Minden <loc> elem abszolút URL-t tartalmaz (https://)
Az URL-ek megegyeznek a canonical URL-ekkel (protokoll, www/nem-www, záró perjel)
A <lastmod> dátumok pontosak és aktuálisak
Nem tartalmaz 404-es, 301-es átirányított vagy noindex oldalakat
A sitemap be van nyújtva a Google Search Console-ban
A sitemap be van nyújtva a Bing Webmaster Tools-ban
A sitemap hivatkozva van a robots.txt fájlban
50 000 URL vagy 50 MB alatti méretű (ha felette van, sitemap index használata)
Dinamikus generálás esetén a cron job rendszeresen fut és frissíti a fájlt

Gyors terminál ellenőrzés

Az alábbi parancsokkal gyorsan ellenőrizheted a fájlok elérhetőségét:

# Robots.txt ellenőrzés
curl -sI https://peldaoldal.hu/robots.txt | head -3

# Sitemap.xml ellenőrzés
curl -sI https://peldaoldal.hu/sitemap.xml | head -3

# Sitemap URL-ek száma
curl -s https://peldaoldal.hu/sitemap.xml | grep -c "<loc>"

# Robots.txt tartalmának megtekintése
curl -s https://peldaoldal.hu/robots.txt

Hasznos külső források

Az alábbi hivatalos források részletes technikai útmutatást nyújtanak a robots.txt és sitemap.xml konfigurálásához:

Google: Robots.txt bevezetés - A Google hivatalos robots.txt dokumentációja
Google: Sitemaps áttekintés - A Google hivatalos sitemap útmutatója
sitemaps.org - A sitemap protokoll hivatalos specifikációja
OpenAI: GPTBot dokumentáció - A GPTBot crawler specifikációja
Google: Crawlerek áttekintése - Az összes Google crawler (beleértve a Google-Extended-et) listája
Google Search Console - Sitemap benyújtás és robots.txt tesztelés

Szeretnéd ellenőrizni, hogy a weboldalad robots.txt és sitemap.xml fájljai helyesen vannak-e beállítva?

Ingyenes Audit Teljes Optimalizáció

Vagy töltsd le az Optimalizálási Sablon HTML-t — az összes szükséges meta tag, schema és struktúra egy fájlban.

Robots.txt és Sitemap.xml: a crawlolhatóság technikai alapjai

Miért fontosak a keresőrobotoknak?

Robots.txt - a keresők „belépési szabályzata"

Alapvető szintaxis

Alapértelmezett robots.txt - minden engedélyezve

Tipikus éles konfiguráció

Wildcard (helyettesítő karakter) használata

A robots.txt tesztelése

Sitemap.xml - a weboldal térképe

XML formátum és kötelező elemek

A sitemap elemek magyarázata

Sitemap index nagy weboldalakhoz

Dinamikus sitemap generálás

Gyakori hibák és megoldásaik

1. CSS és JavaScript fájlok tiltása

2. Képek tiltása a keresőrobotok elől

3. Hiányzó sitemap hivatkozás a robots.txt-ben

4. Helytelen URL formátumok a sitemap-ben

5. Túl nagy sitemap fájl

6. Fontos oldalak letiltása a robots.txt-ben

AI keresők és a crawlolás

A legfontosabb AI crawler User-agent nevek

AI crawlerek szelektív engedélyezése/tiltása

AI keresők és a sitemap kapcsolata

Ellenőrző lista

Gyors terminál ellenőrzés

Hasznos külső források

További cikkek a Tudástárban

AI Stabilitás

Core Web Vitals

AI Láthatóság

Robots.txt és Sitemap.xml: a crawlolhatóság technikai alapjai

Miért fontosak a keresőrobotoknak?

Robots.txt - a keresők „belépési szabályzata"

Alapvető szintaxis

Alapértelmezett robots.txt - minden engedélyezve

Tipikus éles konfiguráció

Wildcard (helyettesítő karakter) használata

A robots.txt tesztelése

Sitemap.xml - a weboldal térképe

XML formátum és kötelező elemek

A sitemap elemek magyarázata

Sitemap index nagy weboldalakhoz

Dinamikus sitemap generálás

Gyakori hibák és megoldásaik

1. CSS és JavaScript fájlok tiltása

2. Képek tiltása a keresőrobotok elől

3. Hiányzó sitemap hivatkozás a robots.txt-ben

4. Helytelen URL formátumok a sitemap-ben

5. Túl nagy sitemap fájl

6. Fontos oldalak letiltása a robots.txt-ben

AI keresők és a crawlolás

A legfontosabb AI crawler User-agent nevek

AI crawlerek szelektív engedélyezése/tiltása

AI keresők és a sitemap kapcsolata

Ellenőrző lista

Gyors terminál ellenőrzés

Hasznos külső források

További cikkek a Tudástárban

AI Stabilitás

Core Web Vitals

AI Láthatóság

Kapcsolódó cikkek