Tạo kiến thức và tải tài liệu

Tạo kiến thức

Chọn Kiến thức trong thanh điều hướng chính của Thổ Thần. Trên trang này, bạn có thể thấy các cơ sở kiến thức hiện có của mình. Chọn Tạo kiến thức để tạo mới kiến thức:

  • Nếu bạn đã chuẩn bị các tệp, bạn có thể bắt đầu bằng cách tải chúng lên;

  • Nếu bạn chưa chuẩn bị bất kỳ tài liệu nào, trước tiên bạn có thể tạo một cơ sở kiến thức trống

Nếu bạn chọn sử dụng nguồn dữ liệu ngoài khi tạo cơ sở tri thức, thì không thể thay đổi loại cơ sở tri thức. Điều này nhằm tránh những khó khăn trong việc quản lý cơ sở tri thức do có nhiều nguồn dữ liệu trong một cơ sở tri thức. Nếu bạn cần sử dụng nhiều nguồn dữ liệu, bạn nên tạo nhiều cơ sở tri thức.

Tải tài liệu

Các bước để tải tài liệu lên Kiến thức:

B1. Chọn tài liệu bạn cần tải lên từ các tệp của bạn;

B2. Phân đoạn và làm sạch tài liệu, và xem trước hiệu ứng;

B3. Chọn và cấu hình Index Mode và Retreival Settings;

B4. Chờ cho các đoạn được nhúng;

B5. Tải lên hoàn tất, bây giờ bạn có thể sử dụng nó trong các ứng dụng của bạn🎉

Nếu bạn là người mới có thể chọn theo các mục đã được chọn mặc định sẵn, để dễ dàng thao tác.

Các giới hạn tải lên tài liệu:

  • Giới hạn kích thước tải lên cho một tài liệu là 15MB;

  • Số lượng tệp tối đa cho một lần tải lên hàng loạt là 20;

Lưu ý

Tuy nhiên bạn cũng có thể tự thay đổi 1 vài cài đặt sau để đạt được độ chính xác theo mong muốn.

Trong chế độ lập chỉ mục chất lượng cao, Thổ Thần cung cấp ba tùy chọn truy xuất:

  • Tìm kiếm vectơ : tạo nhúng truy vấn và tìm kiếm đoạn văn bản giống với biểu diễn vectơ của nó nhất.

  • Tìm kiếm toàn văn: lập chỉ mục tất cả các cụm từ trong tài liệu, cho phép người dùng tìm kiếm bất kỳ cụm từ nào và truy xuất đoạn văn bản có liên quan chứa các cụm từ đó.

  • Hybrid Search: thực hiện tìm kiếm toàn văn và tìm kiếm vector đồng thời, xếp hạng lại để chọn kết quả phù hợp nhất cho truy vấn của người dùng. Cấu hình của API mô hình Rerank là cần thiết.

Cài đặt
Mục đích

Mô hình sắp xếp lại

Sắp xếp lại tài liệu dựa trên ngữ cảnh câu hỏi của người dùng từ đó cải thiện xếp hạng của các vector (đoạn văn) phù hợp.

Top K

Số lượng vector phù hợp nhất sẽ được lấy. Top K càng thấp thì càng lấy ít vector có điểm cao nhất. Ví dụ: Số vector tìm ra để đáp ứng câu hỏi của người dùng là 10. Nhưng set top K là 3 thì chỉ lấy top 3 vector có độ phù hợp cao nhất để trả lời

Ngưỡng điểm

Kết hợp với top K để giới hạn thêm vector được sử dụng. Ngưỡng điểm càng cao thì mức độ nội dung liên quan càng cao. Ví dụ: Top K = 3, ngưỡng điểm = 0.5 Những vector thỏa mãn cả 2 tiêu chí trên mới có thể được lấy để trả lời. Tuy nhiên không nên để ngưỡng điểm tối đa, nên để max là 0.8

Phân đoạn theo định dạng Câu hỏi & Trả lời

Chức năng chế độ phân đoạn Q & A sử dụng chế độ đối sánh "Q to Q" (câu hỏi đến câu hỏi). Sau khi tài liệu được phân đoạn, mỗi phân đoạn tạo ra một cặp đối sánh Q & A thông qua tóm tắt. Khi người dùng đặt câu hỏi, hệ thống sẽ tìm câu hỏi tương tự nhất và trả về phân đoạn tương ứng làm câu trả lời. Phương pháp này chính xác hơn vì nó khớp trực tiếp với câu hỏi của người dùng, thu thập chính xác thông tin mà người dùng thực sự cần.

Tài liệu được cho ra khi mà chọn phân đoạn theo định dạng Câu hỏi & Trả lời

Last updated