Перейти до основного змісту

Чат з документами

Наступний крок у обробці інформації

Замість того, щоб поклакатись на публічні набори даних та загальні знання, «Чат з документами» генерує контекстуально специфічні відповіді та аналізи на основі ваших надійних внутрішніх джерел. Завантажуйте свої документи та використовуйте їх як основу для відповідання на запитання у чаті!

Розв’язання обмежень даних

Якщо ви ставите запитання мовній моделі, ви залежить від набору даних, на якому тренована модель. Зазвичай це інформація з Інтернету. Непублічні джерела, швидше за все, відсутні у цьому наборі даних. Використовуючи ваші документи як джерело для чату, ви гарантуєте, що модель має ту інформацію, яка потрібна для відповіді на ваші запитання.

Можливості з вашими документами

Ви можете ставити запитання щодо ваших документів, наприклад викладити основні пункти документа або підсумувати документ. Також ви можете доручити моделі виконати конкретні аналізи з використанням вашого власного набору даних.

Недоліки чатування за документами

Завантаження документів та їх обробка — це додаткові кроки, які не потрібні, якщо ви можете отримати в цілому відповіді без контексту конкретної інформації. Також відповідь може генеруватися довше, оскільки спочатку потрібно витягти необхідну інформацію з документа, перш ніж запит буде надісланий мовній моделі.

За лаштунками чатування з документами

Текст з завантажених вами документів вилучається з документа та розбивається на фрагменти. Ці фрагменти мають фіксовану кількість символів (1024 символи) і також встановлено перекриття (128 символів) між фрагментами. Кожна «шматок» тексту зберігається як вектор у векторній базі даних. Під час кожного запиту з цих даних відбирається відповідність за подібністю до запиту.

Процес відбору фрагментів документів

Фрагменти вже перетворені у вектори. Вектори мають кілька вимірів, що відповідають тому, наскільки «похожий» цей текст на інші тексти. Подібно до системи RGB. Колір з подібним RGB-значенням також є подібним кольором, але трошки відрізняється. Векторна база даних дозволяє витягувати фрагменти тексту у відфільтрованому та ранжованому порядку за запитом. Ми обираємо максимум 100 фрагментів тексту довжиною 1024 символи для надіслання з запитом.

Підходящі моделі для документно-орієнтованого чатування

Ми відбирали моделі з великим контекстним вікном, щоб було можливо чатувати з документами. Ми хочемо мати можливість надіслати до 100 фрагментів тексту довжиною 1024 символи. Це понад 100 000 символів. Використовуйте переважно високоякісні мовні моделі з центрального каталогу моделей.

Підходящі моделі

Підходящі моделі — це моделі з достатнім контекстним простором та гарним аналізом документів, такі як високоякісні моделі від OpenAI, Claude, Google або Європейський AI.

Вибір одного або кількох документів

Ви можете увімкнути режим файлів, клікнувши на скріпку праворуч від панелі запитів. Можете обрати до 10 файлів для чатування.

Підходящі мовні моделі

Коли ви починаєте чатувати з документами, перевіряється, чи підходить мовна модель для чатування з документами. Якщо ні — автоматично обирається відповідна модель із актуального каталогу.

Ви чатуєте із цими документами, доки режим файлів увімкнено.

Обробка за кожним файлом

Крім чатування з документами, AI-Corporate також надає можливість застосувати окремий запит до кожного документа та отримати індивідуальні відповіді. Ця функція називається Обробка за кожним файлом.

Обробка за кожним файлом

Ця функція може використовуватися у поєднанні з «Чат з файлами».

Можливий сценарій

Практичний приклад використання «Обробка за кожним файлом»:

  1. Ви завантажуєте референтний документ (наприклад шаблон контракту) і вмикаєте його в Чат із файлами
  2. Ви завантажуєте кілька документів, які потрібно проаналізувати, і вмикаєте їх у Обробку за кожним файлом
  3. Формулюєте запит, що застосовується до всіх файлів індивідуально

Так ви можете, наприклад, автоматично проаналізувати всі контракти за зразком-референсом.

Максимальна кількість файлів

Є обмеження — 30 файлів для функции «Обробка за кожним файлом».

Підтримувані типи файлів

AI-Corporate підтримує різні типи файлів для чатування з документами:

  • PDF файли з розширенням .pdf
  • Word файли з розширенням .docx
  • CSV файли з розширенням .csv
  • JSON файли з розширенням .json
  • Текстові файли з розширенням .txt
  • Аудіо та відео файли з розширеннями 'mp3', 'mp4', 'mpeg', 'mpga', 'm4a', 'wav' або 'webm'

Чат з аудіо- або відеофайлами

AI-School спочатку транскрибує аудіо- та відеофайли налаштованим постачальником транскрипції. У розмовах результат може містити часові блоки та мітки спікерів. Потім відповідна текстова модель може виправити пунктуацію, правопис, мітки спікерів і фахові терміни. Довгі файли можуть оброблятися інакше через обмеження постачальника та моделі.

WhatsApp