Thứ 5, 21/11/2024, 20:12[GMT+7]

Giải pháp AI Việt giúp nhận diện bảng biểu dưới hai giây

Thứ 3, 29/10/2024 | 09:34:01
2,011 lượt xem
Giải pháp đưa bảng biểu từ ảnh vào file Excel của kỹ sư Việt có thể nhận diện với tốc độ 40 khung hình/giây, khác biệt 2% so với dữ liệu gốc.

Nguyễn Nam Quân, đại diện Viettel AI, chia sẻ về giải pháp mới tại ECAI 2024.

Tại hội nghị chuyên về trí tuệ nhân tạo ECAI 2024 cuối tuần qua ở Tây Ban Nha, Viettel AI trình diễn giải pháp nhận diện, trích xuất thông tin từ bảng biểu "có tốc độ nhanh gấp bốn lần" so với những giải pháp hiện có, cho phép xuất cấu trúc và dữ liệu bảng biểu từ ảnh trong thời gian thực.

Việc dùng công nghệ để tự động nhận diện và trích xuất văn bản từ hình ảnh vốn không mới, nhờ các công nghệ như OCR và AI. Tuy nhiên trong nhiều năm, thách thức của các giải pháp là chưa thể xử lý nhanh hình ảnh chứa bảng biểu, do sự đa dạng trong cấu trúc bảng, như có bảng không chứa viền, có nhiều ô trống, các ô kích thước khác nhau.

"Trong khi chữ viết đã được xử lý khá hiệu quả, việc trích xuất chính xác thông tin từ bảng biểu trong tài liệu đến nay vẫn là bài toán khó", đại diện Viettel AI đánh giá. "Tự động hóa quá trình này giúp giảm bớt công việc nhập liệu thủ công, tăng độ chính xác và tốc độ xử lý văn bản".

Nhóm cho biết đã nghiên cứu để giảm quá trình xử lý xuống một giai đoạn thay vì nhiều giai đoạn như cách truyền thống, từ đó giúp xử lý loại bảng nhiều hàng, cột nhanh hơn. Ngoài ra, giải pháp cũng làm giảm độ phức tạp của quy trình xử lý, giúp tiết kiệm bộ nhớ và quy trình huấn luyện mô hình AI. Theo công bố tại ECAI, giải pháp của các kỹ sư Việt Nam cho khả năng trích xuất đạt 40 khung hình/giây trong một số trường hợp, dữ liệu nhận về có độ khác biệt khoảng 2% so với dữ liệu chuẩn.

Theo các chuyên gia, tính hiệu quả của công nghệ sẽ cần được đánh giá thêm trong quá trình sử dụng thực tế. Trong thử nghiệm với hình ảnh chứa hai bảng biểu, giải pháp có thể xuất dữ liệu cùng cấu trúc bảng lập tức, với cấu trúc bảng và số liệu chuẩn. Tuy nhiên, vẫn còn một số điểm cần cải thiện, như dấu ">=" trong cách viết thông thường chưa được tái hiện chính xác.

Đại diện nhóm nghiên cứu cho biết công nghệ cũng đã được tích hợp vào giải pháp xử lý hồ sơ thông minh Viettel IDP, cho khả năng tự động bóc tách thông tin dạng ảnh với tốc độ dưới 2 giây mỗi trang tài liệu, nhanh hơn 60-80 lần so với nhập liệu thủ công, độ chính xác 90%, giúp người dùng tiết kiệm 80% thời gian phê duyệt hồ sơ.

"Công nghệ được công bố tại Hội nghị ECAI 2024 là bước đầu trong quá trình tăng tốc độ xử lý của giải pháp, hướng đến mục tiêu xử lý thông tin không chỉ dưới hai giây mà là tức thì", đại diện nhóm cho biết.

Theo vnexpress.net