Thành viên:Plantaest/Lexis

TermBox là công cụ từ điển dùng để hỗ trợ quá trình biên dịch bài viết tại Wikipedia.
Ngày 8 tháng 10 năm 2025, dự án TermBox được đổi tên thành Lexis vì gặp vấn đề trùng tên với một thành phần của Wikidata.
Bối cảnh
Trong quá trình biên dịch các bài viết tại Wikipedia, một nhu cầu thường thấy là việc tra từ điển để biết được cách dịch các từ của văn bản gốc, nhất là các từ thuộc nhóm thuật ngữ chuyên ngành. Công việc này thường diễn ra thông qua việc truy cập các từ điển ngoài, bao gồm từ điển trực tuyến và từ điển giấy. Do vậy, nếu có một công cụ hỗ trợ tra từ điển được tích hợp vào các công cụ biên tập ngay tại Wikipedia thì sẽ tiện lợi hơn cho biên tập viên.
Bên cạnh đó, một nhu cầu khác có liên quan đến việc tra từ điển là sự thống nhất việc sử dụng cách dịch các thuật ngữ. Điều này là cần thiết nếu như các thành viên của một dự án chuyên môn nào đó trên Wikipedia như sinh học, âm nhạc... có mong muốn thống nhất cách dịch của một số thuật ngữ nhất định, nếu như thuật ngữ đó có nhiều cách dịch khác nhau ở những lĩnh vực khác nhau, nhằm tạo ra sự đồng bộ và chính xác về mặt dịch thuật trong một lĩnh vực chuyên môn riêng biệt, điều này có lợi cho việc kế thừa. Lúc này, các thành viên của dự án có thể cần làm ra một từ điển để đặt ra những cách dịch hợp lý cho lĩnh vực của nhóm mình. Đây được coi là dạng từ điển tự xuất bản, chia sẻ chung cho một hội nhóm, cộng đồng cùng đóng góp, dựa trên các nguồn từ điển gốc, sách vở, tài liệu, hoặc tranh luận.
Việc người dùng đóng góp xây dựng từ điển có khả năng cũng sẽ giúp phát triển bộ dữ liệu từ điển học (lexicographical data) ở Wikidata cho tiếng Việt, vốn đang rất thiếu và cần bổ sung thêm. Đây là một vấn đề mà Mxn đã nêu ở Wiktionary tiếng Việt năm 2022. Việc xây dựng dữ liệu từ vị (lexeme) ở Wikidata cho tiếng Việt sẽ giúp phát triển các kỹ thuật tốt hơn để vận hành Wiktionary sau này, và có thể bao gồm cả Wikisource ở việc tạo các tham khảo chéo trong các cuốn từ điển cổ.
Để thỏa mãn những yêu cầu trên, tôi đã cùng với một số thành viên là Mongrangvebet, Lcsnes, Pminh141 thảo luận về việc xây dựng dự án TermBox vào tháng 10 năm 2024 tại Thảo luận Thành viên:Plantaest/TermBox.
Mô tả
TermBox gần giống các công cụ termbase khác hiện nay của những phần mềm CAT (computer-assisted translation – dịch thuật với sự hỗ trợ của máy tính). Nghĩa là nó chỉ đóng vai trò lưu trữ thông tin mà người dùng cung cấp (từ điển, mục từ) để phục vụ nhu cầu cho riêng người dùng, hoặc một nhóm, cộng đồng (tái sử dụng lại từ điển mà người đó làm ra, hoặc thậm chí là đóng góp chung một từ điển tự xuất bản). Việc người dùng TermBox tạo ra từ điển cho riêng mình có thể gián tiếp đóng góp cho dự án Lexicographical data của Wikidata.
Cách sử dụng TermBox trong quá trình biên dịch bài viết tại Wikipedia có thể hình dung như sau:
- Khi khởi động phần mềm CAT-like (tương tự CAT) như Content Translation (Dịch nội dung), thì TermBox cũng được khởi động theo sau đó.
- Giao diện CAT-like thường có 2 cột đặc trưng: văn bản ngôn ngữ nguồn (1) và văn bản ngôn ngữ đích (2).
- Người dùng thường dịch theo từng đoạn, như ở Content Translation, việc dịch một đoạn được kích hoạt khi nhấn [+ Thêm bản dịch].
- Như vậy, khi nhấn [+ Thêm bản dịch], TermBox sẽ quét nội dung ở đoạn cột (1), trích xuất các từ, cụm từ, và tìm kiếm trong kho dữ liệu. Nếu có tìm được một hay nhiều cách dịch, thì TermBox sẽ hiển thị trong một hộp nổi trên giao diện CAT-like.
- Ví dụ: TermBox quét đoạn cột (1), thấy có từ chloroplast, dò trong database, thấy có ánh xạ "chloroplast (en) > lục lạp (vi)", thì hiển thị ánh xạ này trên giao diện.
- Một lần quét có thể cho ra nhiều ánh xạ trong hộp, mỗi ánh xạ được đánh số thứ tự, để khi người dùng bắt đầu sửa đoạn cột (2), thì có thể thông qua một số cú pháp để nhận được kết quả ánh xạ.
- Ví dụ: Ánh xạ "chloroplast (en) > lục lạp (vi)" được đánh số 1, thì khi ở đoạn cột (2), người dùng gõ @1 chẳng hạn và nhấn phím Space hoặc Enter, TermBox sẽ thay bằng "lục lạp".
- Người dùng cũng có thể bấm vào kết quả trên hộp của TermBox để sao chép cách dịch.
Như vậy, quá trình dịch sẽ được TermBox hỗ trợ về mặt gợi ý cách dịch các thuật ngữ, và có cơ chế để người dịch có thể dùng nhanh kết quả mà TermBox gợi ý.
Ngoài Content Translation, thì có thể tích hợp TermBox với các phần mềm biên tập khác ở Wikipedia như trình soạn thảo trực quan (VisualEditor), trình sửa mã nguồn (SourceEditor).
Thành phần
Có thể chia dự án TermBox thành 2 phần:
- TermBox Core: Tập trung vào các chức năng quan trọng của một termbase, cho phép tạo từ điển tự xuất bản cho cá nhân hoặc cộng đồng, liên kết với Wikidata để hỗ trợ đóng góp danh mục Lexeme. Vì không liên hệ tới vấn đề bản quyền, cào dữ liệu nên có thể cho phép triển khai trên nhiều wiki nếu các cộng đồng wiki đó có nhu cầu.
- TermBox Extensions: Mở rộng TermBox để sử dụng các nguồn tài nguyên bên ngoài, có thể dính líu đến vấn đề bản quyền, vì vậy cần phải được xử lý một cách hợp lý.
- Collections: Người dùng TermBox có thể dùng extension này để nhập các từ điển đã có trước đó (có bản quyền hoặc không), tạo nên một định dạng có cấu trúc gọi là bộ sưu tập (collection) để TermBox có thể tìm kiếm được. Collection thường là các xuất bản in, nhưng cũng có thể là dữ liệu cào từ Internet. Ví dụ: Tài liệu "Thuật ngữ sinh học Anh – Việt (Mai Đình Yên et al., 2006)" có thể được nhập vào TermBox thông qua extension Collections, và tạo nên một collection trong kho dữ liệu của TermBox. Như vậy, Collections có 2 vai trò: (1) Giúp nhập từ điển đã có vào kho dữ liệu chung, (2) Như là một thư viện để người dùng được lựa chọn collection cho cấu hình TermBox của mình.
- Extractors: Extension này gồm một tập hợp các phần mềm nhỏ gọi là extractor (bộ trích xuất), có chức năng cào dữ liệu theo nhu cầu. Về lâu dài, khuyến khích người dùng đóng góp cho Lexeme của Wikidata thì tốt hơn. Tuy nhiên, một số extractor như Wiktionary sẽ không bị ảnh hưởng bởi vấn đề bản quyền.
Trong đề xuất xin tài trợ, có thể chỉ ưu tiên nghiên cứu và phát triển TermBox Core trước tiên.
So sánh với Terminology
TermBox có thể tương đồng với công cụ Terminology của Translatewiki: translatewiki:Project:Terminology gadget. Tuy nhiên, Terminology bị giới hạn dùng ở Translate Extension (hay dùng để dịch mấy tin bên Meta), chứ không có trên Content Translation. Ngoài ra, nó không thể kết nối các tài nguyên ngoài được, hay hỗ trợ đóng góp cho dữ liệu Lexeme của Wikidata. Nhìn chung, phạm vi của dự án TermBox lớn hơn so với Terminology.