Vložte text, rozsekejte ho na kousky, podívejte se na jejich vektory a zkuste, jak dobře RAG najde odpověď na vaši otázku. Embedding model běží přímo ve vašem prohlížeči, žádná data se nikam neodesílají. Doprovodný nástroj k druhému dílu seriálu o RAG.
Při prvním otevření se musí stáhnout embedding model (cca 110 MB). Stahuje se jednou a pak je v cache prohlížeče. Na pomalém připojení může trvat 30–60 sekund. Bez něj to nefunguje.
KROK 1 · TEXT KE ZPRACOVÁNÍ
Vložte text
Může to být cokoli, smlouva, FAQ, manuál, článek. Pro lepší demonstraci doporučuji aspoň 5–10 vět na různá témata.
Rozsekat podle:
KROK 2 · VEKTORIZACE
Spočítat vektory chunků
Každý chunk se převede embedding modelem na vektor čísel. Zobrazujeme zkrácených 256 dimenzí v mřížce 16×16, barva odpovídá hodnotě (zelená = vyšší, šedá = blízko nuly, červená = nižší).
KROK 3 · OTÁZKA A HLEDÁNÍ
Položte otázku
Otázka projde stejným embedding modelem. Pak se spočítá kosinová podobnost mezi vektorem otázky a každým chunkem. Chunky se seřadí od nejpodobnějšího.
KROK 4 · CO JDE DO LLM
Sestavený prompt pro LLM
Tohle by RAG poslal jazykovému modelu (Claude, GPT, Gemini), který z toho sestaví odpověď. Tady jen ukazujeme, jak ten prompt vypadá, samotné volání LLM tady neděláme.
Reálné embedding modely používají 1536 a více dimenzí, my pro názornost ukazujeme zkrácených 256. Princip je stejný, podobnost se počítá přes vzájemný vztah všech čísel, ne jednotlivé hodnoty.