Chat med dokument
Nästa steg i informationsbehandling
Istället för att förlita sig på offentliga dataset och allmän kunskap genererar "Chat med Dokument" kontextspecifika svar och analyser baserade på dina betrodda interna källor. Ladda upp dina dokument och använd dessa dokument som grund för att svara på frågor i chatten!
Lösning av databegränsningar
Om du ställer frågor till en språkmodell är du beroende av det dataset modellen är tränad på. Detta är generellt information som har hämtats från internet. Icke-offentliga källor finns troligen inte i detta dataset. Genom att använda dina dokument som källa för chatten kan du vara säker på att modellen har den information du behöver för att besvara dina frågor.
Möjligheter med dina dokument
Du kan ställa frågor om dina dokument, som att nämna huvudpunkterna i ett dokument eller sammanfatta dokumentet. Du kan också låta språkmodellen utföra specifika analyser med hjälp av din egen dataset.
Nackdelar med dokumentbaserad chat
Att ladda upp dokument och bearbeta dem är extra steg som du inte behöver om du trots allt kan få ett bra svar utan kontext av specifik information. Det tar också längre tid att generera ett svar eftersom den nödvändiga informationen från dokumentet först måste hämtas innan begäran till språkmodellen skickas.
Bakom kulisserna när man chattrar med dokument
Texten från de dokument du laddar upp extraheras från dokumentet och delas upp i bitar. Dessa bitar har ett fast antal tecken (1024 tecken) och vi har också inställt ett överlapp (128 tecken) mellan bitarna. Varje textstycke lagras som en vektor i en vektor-databas. Vid varje fråga görs ett urval från denna data baserat på likhet med den fråga som ställs.
Urvalsprocessen av dokumentfragment
Textstyckena är redan omvandlade till vektorer. Vektorer har flera dimensioner som anger hur “lika” denna text är med annan text. Tänk på RGB-färgmodellen. En färg med liknande RGB-värde är också en lik färg men lite annorlunda. Vektor-databasen gör det möjligt för oss att hämta bitarna av text i ordnade och filtrerade ordningsföljder baserat på frågan som ställs. Vi väljer upp till 100 textstycken på 1024 tecken att skicka med frågan.