Tạo kiến thức và tải tài liệu
Tạo kiến thức
Chọn Kiến thức trong thanh điều hướng chính của Thổ Thần. Trên trang này, bạn có thể thấy các cơ sở kiến thức hiện có của mình. Chọn Tạo kiến thức để tạo mới kiến thức:

Nếu bạn đã chuẩn bị các tệp, bạn có thể bắt đầu bằng cách tải chúng lên;
Nếu bạn chưa chuẩn bị bất kỳ tài liệu nào, trước tiên bạn có thể tạo một cơ sở kiến thức trống

Tải tài liệu
Các bước để tải tài liệu lên Kiến thức:
B1. Chọn tài liệu bạn cần tải lên từ các tệp của bạn;
B2. Phân đoạn và làm sạch tài liệu, và xem trước hiệu ứng;
B3. Chọn và cấu hình Index Mode và Retreival Settings;
B4. Chờ cho các đoạn được nhúng;
B5. Tải lên hoàn tất, bây giờ bạn có thể sử dụng nó trong các ứng dụng của bạn🎉
Các giới hạn tải lên tài liệu:
Giới hạn kích thước tải lên cho một tài liệu là 15MB;
Số lượng tệp tối đa cho một lần tải lên hàng loạt là 20;
Lưu ý
Tuy nhiên bạn cũng có thể tự thay đổi 1 vài cài đặt sau để đạt được độ chính xác theo mong muốn.

Trong chế độ lập chỉ mục chất lượng cao, Thổ Thần cung cấp ba tùy chọn truy xuất:
Tìm kiếm vectơ : tạo nhúng truy vấn và tìm kiếm đoạn văn bản giống với biểu diễn vectơ của nó nhất.
Tìm kiếm toàn văn: lập chỉ mục tất cả các cụm từ trong tài liệu, cho phép người dùng tìm kiếm bất kỳ cụm từ nào và truy xuất đoạn văn bản có liên quan chứa các cụm từ đó.
Hybrid Search: thực hiện tìm kiếm toàn văn và tìm kiếm vector đồng thời, xếp hạng lại để chọn kết quả phù hợp nhất cho truy vấn của người dùng. Cấu hình của API mô hình Rerank là cần thiết.
Mô hình sắp xếp lại
Sắp xếp lại tài liệu dựa trên ngữ cảnh câu hỏi của người dùng từ đó cải thiện xếp hạng của các vector (đoạn văn) phù hợp.
Top K
Số lượng vector phù hợp nhất sẽ được lấy. Top K càng thấp thì càng lấy ít vector có điểm cao nhất. Ví dụ: Số vector tìm ra để đáp ứng câu hỏi của người dùng là 10. Nhưng set top K là 3 thì chỉ lấy top 3 vector có độ phù hợp cao nhất để trả lời
Ngưỡng điểm
Kết hợp với top K để giới hạn thêm vector được sử dụng. Ngưỡng điểm càng cao thì mức độ nội dung liên quan càng cao. Ví dụ: Top K = 3, ngưỡng điểm = 0.5 Những vector thỏa mãn cả 2 tiêu chí trên mới có thể được lấy để trả lời. Tuy nhiên không nên để ngưỡng điểm tối đa, nên để max là 0.8
Phân đoạn theo định dạng Câu hỏi & Trả lời
Chức năng chế độ phân đoạn Q & A sử dụng chế độ đối sánh "Q to Q" (câu hỏi đến câu hỏi). Sau khi tài liệu được phân đoạn, mỗi phân đoạn tạo ra một cặp đối sánh Q & A thông qua tóm tắt. Khi người dùng đặt câu hỏi, hệ thống sẽ tìm câu hỏi tương tự nhất và trả về phân đoạn tương ứng làm câu trả lời. Phương pháp này chính xác hơn vì nó khớp trực tiếp với câu hỏi của người dùng, thu thập chính xác thông tin mà người dùng thực sự cần.

Last updated