Skip to content

Commit 1fe22b1

Browse files
committed
encodings đoc file .txt tiếng việt + Update comment code, giải thích code + TRIỂN KHAI THỬ: Chunk theo các điều luật, token 800 ovelap 400 và ngắt tại dấu câu, nhét cả Header các điều luật vào từng phần
# Thử các encoding khác nhau và sử dụng encoding đầu tiên thành công encodings_to_try = ['utf-8', 'utf-16', 'utf-16le', 'utf-16be', 'cp1258', 'windows-1258'] successful_encoding = None ======== 1. Update kiểu chunking tối ưu 1. Ngắt theo các tiêu đề "Điều" 2. Trong mỗi Điều 1, Điều 2, ... hoặc Điều N sử dụng chunk_size = 800, chunk_overlap=400 và ngắt tại vị trí xuống dòng (trong Điều đó) 3. Sử dụng thanh tiêu đề của Điều để đặt vào từng phần chunk của điều luật đó ============================ In 5 chunk đầu tiên Chunk 1: QUỐC HỘI ------- CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc --------- Luật số: 23/2008/QH12 Hà Nội, ngày 13 tháng 11 năm 2008 LUẬT GIAO THÔNG ĐƯỜNG BỘ Căn cứ Hiến pháp nước Cộng hòa xã hội chủ nghĩa Việt Nam năm 1992 đã được sửa đổi, bổ sung một số điều theo Nghị quyết số 51/2001/QH10; Quốc hội ban hành Luật giao thông đường bộ. CHƯƠNG I NHỮNG QUY ĐỊNH CHUNG Metadata: {'source': 'D:/Trung/luat2008_test.txt'} -------------------------------------------------------------------------------- ============================ In 5 chunk đầu tiên Chunk 2: Điều 1. Phạm vi điều chỉnh Luật này quy định về quy tắc giao thông đường bộ; kết cấu hạ tầng giao thông đường bộ; phương tiện và người tham gia giao thông đường bộ; vận tải đường bộ và quản lý nhà nước về giao thông đường bộ. Metadata: {'source': 'D:/Trung/luat2008_test.txt'} -------------------------------------------------------------------------------- ============================ In 5 chunk đầu tiên Chunk 3: Điều 2. Đối tượng áp dụng Luật này áp dụng đối với tổ chức, cá nhân liên quan đến giao thông đường bộ trên lãnh thổ nước Cộng hòa xã hội chủ nghĩa Việt Nam. Metadata: {'source': 'D:/Trung/luat2008_test.txt'} -------------------------------------------------------------------------------- ============================ In 5 chunk đầu tiên Chunk 4: Điều 3. Giải thích từ ngữ Trong Luật này, các từ ngữ dưới đây được hiểu như sau: 1. Đường bộ gồm đường, cầu đường bộ, hầm đường bộ, bến phà đường bộ. 2. Công trình đường bộ gồm đường bộ, nơi dừng xe, đỗ xe trên đường bộ, đèn tín hiệu, biển báo hiệu, vạch kẻ đường, cọc tiêu, rào chắn, đảo giao thông, dải phân cách, cột cây số, tường, kè, hệ thống thoát nước, trạm kiểm tra tải trọng xe, trạm thu phí và các công trình, thiết bị phụ trợ đường bộ khác. 3. Kết cấu hạ tầng giao thông đường bộ gồm công trình đường bộ, bến xe, bãi đỗ xe, trạm dừng nghỉ và các công trình phụ trợ khác trên đường bộ phục vụ giao thông và hành lang an toàn đường bộ. 4. Đất của đường bộ là phần đất trên đó công trình đường bộ được xây dựng và phần đất dọc hai bên đường bộ để quản lý, bảo trì, bảo vệ công trình đường bộ. Metadata: {'source': 'D:/Trung/luat2008_test.txt'} -------------------------------------------------------------------------------- ============================ In 5 chunk đầu tiên Chunk 5: Điều 3. Giải thích từ ngữ à các công trình, thiết bị phụ trợ đường bộ khác. 3. Kết cấu hạ tầng giao thông đường bộ gồm công trình đường bộ, bến xe, bãi đỗ xe, trạm dừng nghỉ và các công trình phụ trợ khác trên đường bộ phục vụ giao thông và hành lang an toàn đường bộ. 4. Đất của đường bộ là phần đất trên đó công trình đường bộ được xây dựng và phần đất dọc hai bên đường bộ để quản lý, bảo trì, bảo vệ công trình đường bộ. 5. Hành lang an toàn đường bộ là dải đất dọc hai bên đất của đường bộ, tính từ mép ngoài đất của đường bộ ra hai bên để bảo đảm an toàn giao thông đường bộ. 6. Phần đường xe chạy là phần của đường bộ được sử dụng cho phương tiện giao thông qua lại. 7. Làn đường là một phần của phần đường xe chạy được chia theo chiều dọc của đường, có bề rộng đủ cho xe chạy an toàn. Metadata: {'source': 'D:/Trung/luat2008_test.txt'} -------------------------------------------------------------------------------- ============================
1 parent 1c0cb59 commit 1fe22b1

File tree

6 files changed

+8187
-1
lines changed

6 files changed

+8187
-1
lines changed

.gitignore

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
*.xml

.idea/.gitignore

Lines changed: 8 additions & 0 deletions
Some generated files are not rendered by default. Learn more about customizing how changed files appear on GitHub.

.idea/chatbot_vietcunaModel_QdantDB_Legal2008Text_ngrokTunneling.iml

Lines changed: 8 additions & 0 deletions
Some generated files are not rendered by default. Learn more about customizing how changed files appear on GitHub.

dataset/luat2008.txt

185 KB
Binary file not shown.

vector_database/VECTOR_DATABASE_CREATE.ipynb

Lines changed: 4085 additions & 1 deletion
Large diffs are not rendered by default.

0 commit comments

Comments
 (0)