A generatív keresők új világa
A hagyományos keresőmotorok -- a Google, a Bing -- egy linkes találati listát adtak. Te kattintottál, az oldal betöltődött, ott olvastad el a választ. Ez a modell húsz évig működött. Most viszont egyre többen kapják meg a választ közvetlenül egy AI-tól: a ChatGPT keresője, a Google Gemini vagy a Perplexity felolvassa neked a lényeget, és legfeljebb a forrást jelöli meg lábjegyzetben.
Mit jelent ez a weboldalak számára? Ha az AI kereső nem fér hozzá a tartalmadhoz, nem tudja felhasználni a válaszgeneráláshoz. Nem jelenik meg a neve a forrásai közt. Nem kap linket. Gyakorlatilag kiesik a játékból.
Két technikai eszköz határozza meg, hogy az AI keresők hogyan látják a weboldaladat: az llms.txt fájl és a robots.txt AI crawler szabályai. Mindkettő egyszerűen konfigurálható, mégis a legtöbb weboldal egyik sincs beállítva.
Mi az az llms.txt?
Az llms.txt egy új webes szabvány, amely a robots.txt mintáját követi, de kifejezetten a nagy nyelvi modellek (LLM-ek) számára készült. A domain gyökerében helyezed el -- tehát a https://example.com/llms.txt címen --, és strukturált szöveges leírást tartalmaz arról, hogy mi a weboldalad, mit csinál, és milyen tartalmakat érdemes ismerni rajta.
Míg a robots.txt azt szabályozza, hová mehet a bot, az llms.txt azt mondja el, mit érdemes tudni a weboldalról. Az LLM-ek ezt a fájlt felhasználják arra, hogy kontextust kapjanak egy domain tartalmáról, mielőtt az egyes aloldalakat elkezdenék feldolgozni.
A szabvány részleteit az llmstxt.org oldalon találod. Az alapelv egyszerű: adj az AI-nak egy emberi nyelven olvasható, de strukturált összefoglalót a weboldaladról.
Gyakorlati példa: llms.txt egy magyar webáruházhoz
# Példa Webáruház
> Magyar kézműves termékek webáruháza 2015 óta.
## Fő termékkategóriák
- Kézműves szappanok és kozmetikumok
- Természetes illatgyertyák
- Ajándékcsomagok
## Kapcsolat
- Email: info@pelda.hu
- Telefon: +36 1 234 5678
## Fontos oldalak
- [Rólunk](/rolunk)
- [ÁSZF](/aszf)
- [Szállítási információk](/szallitas)
A fájl Markdown-jellegű formátumot követ: # a weboldal neve, > az egysoros leírás, ## a szekciók, - a felsorolás, [szöveg](link) a hivatkozások. Nincsenek benne bonyolult sémák vagy XML-tagek -- egyszerű, olvasható szöveg.
Tipp
Az llms.txt létrehozása 5 perc munka, és azonnal 3 pontot ér a GEO pillérben.
AI crawlerek: kik és mik?
Az AI crawlerek automatizált botok, amelyek a weboldalakat járják be az AI modellek számára. Ugyanúgy működnek, mint a Googlebot, de nem keresési indexet építenek, hanem tanítóadatot gyűjtenek vagy valós idejű választ generálnak a tartalmadból. Az alábbi botok a leggyakoribbak:
- GPTBot (OpenAI) -- A ChatGPT és a GPT-alapú termékek crawlere. Amikor a ChatGPT kereső válaszol, az általa begyűjtött tartalmakból dolgozik.
- ClaudeBot (Anthropic) -- A Claude AI rendszerek crawlere, amely a Claude válaszainak forrásanyagát biztosítja.
- Google-Extended -- A Google saját AI crawlere, amely a Gemini és egyéb Google AI szolgáltatások számára gyűjt adatot. A hagyományos Googlebot-tól különálló.
- PerplexityBot -- A Perplexity AI keresőmotor crawlere, amely valós idejű webes kereséshez használja az adatokat.
- Bytespider (ByteDance) -- A TikTok anyavállalatának AI crawlere, a ByteDance mesterséges intelligencia rendszereihez gyűjt adatokat.
- anthropic-ai -- Az Anthropic kutatási crawlere, amely a Claude modellek tréningadatának frissítéséhez járja be a webet.
- CCBot (Common Crawl) -- A Common Crawl nonprofit szervezet crawlere. Az általa gyűjtött nyílt adatkészletet sok AI modell felhasználja tréninghez.
Az AI Web teszt audit mind a 7 bot hozzáférését ellenőrzi a robots.txt alapján.
A robots.txt és az AI crawlerek
A robots.txt fájl szabályozza, hogy melyik bot mit érhet el a weboldaladon. Alapértelmezés szerint -- ha nincs robots.txt, vagy nincs benne tiltás -- minden bot szabadon bejárhat mindent. A probléma ott kezdődik, amikor a tiltás túl általános vagy szándék nélkül kerül bele a fájlba.
AI botok engedélyezése (ajánlott)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Explicit Allow: / direktívával egyértelművé teszed, hogy az adott bot bejárhatja az oldaladat. Ha nincs tiltás, ez nem kötelező, de a félreérthetőségek elkerülésére ajánlott.
Adott botok blokkolása (GEO pontlevonással jár)
User-agent: Bytespider
Disallow: /
Ez a szabály a Bytespider crawlert tiltja ki az egész oldalról. Az AI Web teszt ezt észleli és pontlevonást ad érte a GEO pillérben.
Az audit pontozása a következő: ha 5 vagy több AI bot engedélyezett, +3 pont. Ha 3 vagy több, +2 pont. Ha legalább 1, +1 pont. Ha egyetlen AI bot sem férhet hozzá, 0 pont.
Figyelem
Ha a tárhelyszolgáltatód alapértelmezett robots.txt-je tartalmaz AI bot tiltásokat, kérd a módosítást, vagy hozz létre saját robots.txt fájlt.
Gyakori hiba a User-agent: * / Disallow: / kombináció, amely minden botot tilt -- beleértve az AI crawlereket is. Ez teljes láthatatlanságot eredményez mind a hagyományos, mind az AI keresőkben.
Miért ne blokkolj AI crawlereket?
A kérdés jogos: „Miért engedjem, hogy az AI-k felhasználják a tartalmaimat?" A válasz nem erkölcsi, hanem gyakorlati. Az AI keresők forgalmat hoznak. Ha nem vagy benne a tréningadatban, nem jelensz meg az AI válaszokban -- és a felhasználók egyre ritkábban kattintanak tovább a hagyományos találati listákon.
A Perplexity például forrásként jelöli meg a weboldalakat, és kattintható linket ad. A ChatGPT keresőfunkciója szintén hivatkozásokkal dolgozik. Ha tiltod ezeket a botokat, a versenytársad tartalma jelenik meg helyetted.
Van persze kivétel. Ha prémium tartalmad van fizető fal mögött, stratégiai döntés lehet bizonyos botokat tiltani, miközben másokat engedsz. Egy jogi adatbázis vagy kutatási folyóirat például blokkolhatja a CCBot-ot (tanítóadat), de engedélyezheti a PerplexityBot-ot (valós idejű kereső, amely linkel).
A legtöbb vállalkozás számára azonban a nyitottság a jobb stratégia. Az AI keresők nem veszik el a tartalmad értékét -- éppen ellenkezőleg, olyan közönséghez juttatják el, amely egyébként sosem találna rád.
Hogyan ellenőrzi az AI Web teszt?
Az AI Web teszt audit során a GEO Felkészültség pillér két fő területet vizsgál a crawlerek és az llms.txt kapcsán:
- robots.txt elemzés: Az audit letölti a weboldal robots.txt fájlját, és egyesével végigmegy a 7 AI bot
User-agentdirektíváin. Ellenőrzi, hogy van-eDisallow: /szabály az adott botra. Kezeli aUser-agent: *wildcard tiltást is -- ha ez aktív és nincs bot-specifikus felülírás, az összes AI bot blokkoltnak minősül. - llms.txt ellenőrzés: Az audit megpróbálja letölteni az
/llms.txtfájlt a domain gyökeréből. Ha megtalálja és a tartalom eléri a minimális hosszúságot, +3 GEO pontot ad. Ha a fájl nem létezik vagy üres, 0 pont.
Az eredmények a GEO Felkészültség pillér pontszámában és az egyes botokhoz tartozó badge-ekben jelennek meg. Zöld badge = engedélyezett, piros badge = blokkolt.
Tipp
Az AI Web teszt audit az összes 7 bot állapotát egyszerre ellenőrzi. Egyetlen audit futtatás elég a teljes kép megértéséhez.
Gyakorlati teendők
Az alábbi 4 lépéssel percek alatt javíthatod a weboldalad GEO felkészültségét:
- Hozd létre az llms.txt fájlt: Nyiss egy szövegszerkesztőt, írd meg a weboldalad strukturált leírását a fent bemutatott formátumban, és töltsd fel a domain gyökerébe. Ennyi az egész. Nem kell hozzá plugin, nem kell hozzá fejlesztő.
-
Nézd át a robots.txt fájlt: Keresd meg a robots.txt fájlodat (általában a
https://tedomained.hu/robots.txtcímen érhető el). Ellenőrizd, hogy van-e benne AI crawler tiltás:GPTBot,ClaudeBot,Google-Extended,PerplexityBot,Bytespider,anthropic-aivagyCCBot. Ha találszDisallow: /szabályt valamelyiknél, mérlegeld a törlését. - Távolítsd el a felesleges tiltásokat: Ha a tárhelyszolgáltatód előre beállított robots.txt-je tartalmaz AI bot tiltásokat, írd felül saját szabályokkal. Ha nem vagy biztos a hatásban, kezdd a PerplexityBot és a GPTBot engedélyezésével -- ez a két bot hozza a legtöbb látható forgalmat AI keresőkből.
- Futtasd le az AI Web teszt auditot: Az audit azonnal megmutatja a GEO pillér pontszámodat, az egyes botok hozzáférési állapotát és az llms.txt meglétét. Ha mindent jól csináltál, a GEO pillérben 6 extra pontot szerezhetsz csak ezzel a két fájllal.
Ellenőrizd a weboldaladat!
Futtasd le az ingyenes AI Web teszt auditot, és nézd meg, hány AI bot fér hozzá a weboldaladhoz. Az eredmény másodpercek alatt megjelenik.