Bước tới nội dung

Wikipedia:Mô hình ngôn ngữ lớn

Bách khoa toàn thư mở Wikipedia
Mô hình ngôn ngữ lớn vẫn còn những hạn chế về độ tin cậy, mức độ hiểu biết và phạm vi bao quát thông tin, vì vậy cần có sự giám sát của con người.

Michael Osborne, Giáo sư máy học của Đại học Oxford[1]

Những nội dung do AI tạo sinh không thể đưa vào bài viết Wikipedia được nếu như không thể kiểm chứng.

Mặc dù mô hình ngôn ngữ lớn (thường hay gọi chung với trí tuệ nhân tạo là AI) mang lại nhiều lợi ích, nhưng những văn bản do máy móc tạo ra, dù đã và đang ngày càng phát triển để giống cách viết của con người, vẫn có thể chứa sai sót, khuyết điểm, hay thậm chí là nội dung vô nghĩa.

Nếu nhập lệnh như "viết một bài viết Wikipedia" và gửi cho các mô hình AI chatbot như ChatGPT, DeepSeek hay Gemini, rất có khả năng nội dung trả về sẽ chứa thông tin bịa đặt, thậm chí kèm theo nguồn tham khảo giả mạo. Văn bản do AI tạo ra cũng có thể thiếu tính trung lập, bôi nhọ người đang sống hoặc thậm chí là vi phạm bản quyền. Do vậy, mọi thành viên Wikipedia cần phải kiểm chứng toàn bộ nội dung do AI tạo sinh trước khi sử dụng trong bài viết, bao gồm cả nguồn tham khảo nếu cũng được AI tạo ra (một phần hay toàn bộ).

Nếu bạn chưa thực sự hiểu rõ về những rủi ro và hạn chế của AI thì tốt nhất đừng nên sử dụng AI để hỗ trợ biên tập. AI cũng không thể được sử dụng trong các tác vụ mà bạn không thật sự hiểu rõ. Mọi nội dung do AI tạo ra đều cần được kiểm tra kỹ lưỡng để đảm bảo tuân thủ đầy đủ các quy định hiện có. Dù bất kỳ lý do nào, bạn phải tránh đăng lên Wikipedia những nội dung gốc do AI tạo. Ngay cả khi đã qua sửa đổi, các nguồn nội dung không phải do AI tạo ra vẫn luôn được ưu tiên hàng đầu. Giống như mọi sửa đổi khác, bạn phải hoàn toàn chịu trách nhiệm với những sửa đổi có sự can thiệp của AI.

Wikipedia không phải là nơi thử nghiệm công cộng. Bạn không nên dùng AI để trả lời bình luận trên trang thảo luận hoặc để viết tóm lược sửa đổi không minh bạch. Nếu sử dụng AI để tạo hoặc sửa đổi nội dung thì bạn cần ghi rõ trong phần tóm lược sửa đổi, ngay cả khi điều khoản sử dụng của Wikipedia không bắt buộc.

Rủi ro và quy định liên quan

Nghiên cứu chưa công bố và "ảo giác"

Bài viết Wikipedia không được chứa nghiên cứu chưa công bố. Tại Wikipedia, nghiên cứu chưa công bố là những nội dung – chẳng hạn như sự kiện, luận cứ và suy đoán – mà không có nguồn uy tín, đã xuất bản nào tồn tại. Nghiên cứu chưa công bố bao gồm bất cứ sự phân tích hoặc tổng hợp nào từ nội dung đã xuất bản nhằm đi đến hoặc hàm ý một luận điểm không được nêu trong nguồn. Để chứng minh rằng bạn không đăng nghiên cứu chưa được công bố, bạn cần phải trích dẫn các nguồn đáng tin cậy chứa đựng thông tin liên quan trực tiếp đến chủ đề của bài viết và hỗ trợ trực tiếp cho thông tin đang được chuyển tải.

Nói đơn giản dễ hiểu, các mô hình ngôn ngữ lớn (AI) thực chất là những chương trình được thiết kế theo một nguyên tắc chung: Chúng tạo ra văn bản bằng cách dự đoán từ hoặc cụm từ tiếp theo dựa trên những từ đã xuất hiện trước đó. Để làm được điều này, AI cần phải học qua những mẫu câu từ kho dữ liệu huấn luyện khổng lồ được thu thập từ khắp nơi trên internet hay nơi khác bao gồm: tác phẩm hư cấu, bài đăng diễn đàn, mạng xã hội, thậm chí là những thông tin nhảm nhí, chất lượng kém và nội dung được viết ra chỉ để tối ưu hóa công cụ tìm kiếm (SEO), vân vân. Chính vì nguồn dữ liệu đa dạng và không phải lúc nào cũng đáng tin cậy, AI đôi khi có thể "đúc kết thông tin" bằng những nội dung không hề có trong bất kỳ tài liệu uy tín nào, nhưng lại thể hiện với người dùng như thể đó là tri thức được kiểm chứng. AI thậm chí còn tuân theo những mệnh lệnh cực kỳ vô lý của người dùng như "Sau đây là bài viết Wikipedia về tác dụng của nhai đá". Đến cuối cùng khi rơi vào những tình huống không có dữ liệu tham chiếu phù hợp, AI sẽ tự "sáng tạo" ra cái mới và đây là "chức năng" không thể tránh khỏi của mô hình ngôn ngữ lớn – còn được gọi là hiện tượng "ảo giác". Có thể hiểu nôm na, sử dụng AI để viết bài Wikipedia chẳng khác gì đăng một nghiên cứu chưa qua công bố, hay tệ hơn là bịa đặt trắng trợn.

Tóm lại, "ảo giác" và thiên kiến trong kết quả đầu ra của AI tạo sinh xuất phát từ bản chất dữ liệu đào tạo, trọng tâm thiết kế của công cụ vào việc tạo nội dung dựa trên mẫu dữ liệu và những hạn chế vốn có của công nghệ AI...

MIT Sloan School of Management[2]

Chưa dừng lại ở đó, AI thường ra vẻ tự tin và đưa ra những thông tin cám dỗ người dùng đọc vào thấy có vẻ chính xác và hợp lý. Chính vì vậy, sau khi nhận được một kết quả trông có vẻ hữu ích, người dùng rất dễ bỏ qua các sai sót tiềm ẩn. Một người dùng phổ thông sau khi kiểm tra ngẫu nhiên và "không thấy vấn đề gì" thì thường tin tưởng rằng công cụ này hoàn toàn đáng tin cậy, rồi chấp nhận kết quả như nó vốn có. Tuy nhiên, điều đó không có nghĩa là nội dung không chứa sai lệch. Ngay cả 90% nội dung là ổn và chỉ 10% thông tin sai vẫn là một vấn đề nghiêm trọng đối với những bách khoa toàn thư như Wikipedia. Mức độ đáng tin cậy của AI càng giảm khi vướng phải các câu hỏi phức tạp, các lĩnh vực khó, hoặc khi phải trả lời những yêu cầu từ người dùng vượt ngoài khả năng của nó (ví dụ như những yêu cầu người dùng đòi hỏi AI phải sở hữu kiến thức chuyên sâu hoặc khả năng phân tích chuyên môn). Sau đây là ví dụ điển hình đối với Gemini (phiên bản tính đến ngày 28 tháng 1 năm 2025):[3]

Người dùng nhập lệnh (bằng tiếng Anh): Greater-toothed pademelons, Thylogale gigadonti, can be seen in wildlife preserves in Queensland
Thực ra, "greater-toothed pademelon" là một loài sinh vật "tự chế".
Gemini trả lời (bằng tiếng Anh): Yes, greater-toothed pademelons are found in wildlife preserves in Queensland. They are shy and nocturnal, so it may be difficult to see them during the day. However, you may be able to see their tracks or hear them rustling in the bushes at night

Rõ ràng đây là một câu trả lời sai, bởi AI trong tình huống này đã mặc định coi loài sinh vật đó là có thật. Để dựng nên lời giải thích có vẻ hợp lý, AI đã tìm kiếm và trích thông tin khái quát về một loài chuột túi pademelon khác (phần gạch dưới) từ bài viết của Bảo tàng Úc. Qua đó, AI có thể đưa ra những tuyên bố với giọng điệu tự tin ngay cả khi thông tin đó không chính xác hoặc không thể kiểm chứng được.

Nội dung không có nguồn gốc và không thể kiểm chứng được

Wikipedia là bách khoa toàn thư tổng hợp kiến thức. Do đó, mọi nội dung trong bài đều phải dựa trên nguồn tham khảo đáng tin cậy, đã xuất bản. Người đọc có thể kiểm chứng và xác nhận không có hiện tượng bịa đặt, thêu dệt thông tin. Các trích dẫn và thông tin gây tranh cãi bắt buộc phải ghi nguồn cụ thể ngay bên cạnh.

AI không thực sự tuân thủ đầy đủ quy định của Wikipedia về tính kiểm chứng và nguồn đáng tin cậy. Trong nhiều trường hợp, AI sẽ bỏ qua thao tác trích dẫn nguồn gốc hay sử dụng nguồn kém uy tín theo tiêu chí của Wikipedia (thậm chí dùng chính Wikipedia làm nguồn tham khảo cho nội dung bách khoa). Nguy hại hơn, AI còn có thể bịa đặt chú thích từ tiêu đề, tác giả, ngày xuất bản, nhà xuất bản đến địa chỉ URL nguồn.

Đây là đặc điểm điển hình dễ nhận thấy ở hiện tượng "ảo giác" của mô hình ngôn ngữ học AI. Hệ quả là nội dung do AI tạo ra không chỉ là nghiên cứu chưa được công bố như đã nói ở trên mà còn vi phạm nguyên tắc thông tin kiểm chứng được: nhiều chi tiết bịa đặt, không thể tra cứu, và chính vì vậy sẽ không có nguồn tham khảo hợp lệ để xác minh.

Thiên kiến của thuật toán và nội dung không trung lập

Tất cả các bài viết và các nội dung bách khoa khác tại Wikipedia phải được viết từ một quan điểm trung lập, thể hiện các quan điểm quan trọng một cách công bằng, cân xứng, và không thiên vị.

AI có thể tạo ra nội dung tưởng như trung lập, nhưng bản chất vẫn do thuật toán chi phối nên không hoàn toàn trung lập trừ khi thành viên có kinh nghiệm về quy định liên quan xác minh. Đây là vấn đề đáng lo ngại khi yêu cầu AI cung cấp thông tin về tiểu sử người đang sống.

Vi phạm bản quyền

Bạn chỉ có thể nhập văn bản mà bạn tìm thấy ở nơi khác hoặc văn bản mà bạn đồng tác giả với người khác (bao gồm cả AI) nếu văn bản đó kèm các điều khoản tương thích với giấy phép CC BY-SA.
Ví dụ về vi phạm bản quyền của AI ở 2:00 (bằng tiếng Anh)
Các slide ví dụ về vi phạm bản quyền của AI (bằng tiếng Anh)

AI có thể tạo ra nội dung vi phạm bản quyền.[a] Các văn bản tạo sinh đôi khi chép nguyên văn từ các đoạn nội dung không tự do hoặc tạo ra tác phẩm phái sinh từ tài liệu có bản quyền. Ngoài ra, khi sử dụng AI để tóm tắt nội dung có bản quyền (như bài báo), phần tóm tắt có thể bám sát cấu trúc và ý tưởng đến mức diễn giải quá gần với tác phẩm gốc.

Tình trạng bản quyền của các AI được huấn luyện trên dữ liệu chứa nội dung có bản quyền hiện vẫn chưa rõ ràng, nên kết quả đầu ra của chúng có thể không phù hợp với các giấy phép như CC BY-SA hoặc GNU vốn áp dụng cho văn bản trên Wikipedia.

Sử dụng

Wikipedia phụ thuộc rất lớn vào cộng đồng tuần tra viên tình nguyện để kiểm tra xem nội dung mới có tuân thủ các quy định cốt lõi hay không. Quá trình này thường mất thời gian và công sức. Theo thỏa thuận không chính thức trên Wikipedia, các thành viên cần phải cố gắng hết sức đóng góp thật thiện chí để người khác đỡ phải tốn công "dọn dẹp". Cũng chính vì vậy, các thành viên cần đảm bảo những sửa đổi có sự can thiệp của AI sẽ mang lại lợi ích và giá trị cho bách khoa toàn thư và không làm tăng gánh nặng bảo trì cho các tuần tra viên khác.

Trước khi dùng AI để viết bài trên Wikipedia, bạn cần phải có năng lực

AI là công cụ hỗ trợ chứ không thể thay thế hoàn toàn việc giám sát của con người. Do đó, chúng ta cần phải đánh giá cẩn thận AI để đảm bảo việc sử dụng nó là phù hợp với mục đích cụ thể. Các thành viên Wikipedia sử dụng AI cần nhận thức rõ về những hạn chế của công nghệ này và nắm được phương hướng khắc phục những hạn chế kể trên, đảm bảo các sửa đổi tuân thủ đúng các quy định và hướng dẫn Wikipedia. Trước khi sử dụng AI, các thành viên nên có đủ kinh nghiệm thực hiện tác vụ cơ bản trên Wikipedia mà không cần sự hỗ trợ của công nghệ, hoặc ít nhất là một tác vụ phức tạp.[b]

Tuy nhiên, có một số thành viên mặc dù có năng lực tự thực hiện các sửa đổi nhưng lại liên tục thực hiện những sửa đổi gây hại khi dùng AI, dù đã nỗ lực hết mình. Những thành viên này có thể thiếu năng lực nhận biết những hạn chế của AI, hoặc là, biết nhưng không có năng lực khắc phục được để đảm bảo tuân thủ quy định. Trong trường hợp này, họ có thể phải nhận cảnh báo thành viên cấm sử dụng các công cụ AI và chỉ được phép thực hiện sửa đổi mà không cần hỗ trợ của AI. Đây là một hình thức cấm có giới hạn, có thể áp dụng cho một hoặc nhiều không gian tên nhất định.

Công bố việc sử dụng

Mỗi lần sử dụng kết quả tạo sinh từ AI trong một sửa đổi, bạn cần phải công bố thông tin về mô hình ngôn ngữ đã sử dụng, ví dụ như ChatGPT, Gemini, hoặc DeepSeek, cùng với phiên bản cụ thể của nó, và ghi rõ trong phần tóm lược sửa đổi. Quy định này áp dụng cho tất cả các không gian tên.

Viết bài

Việc sao chép trực tiếp kết quả đầu ra thô từ các mô hình ngôn ngữ lớn vào khung sửa đổi để tạo bài viết mới hoặc thêm văn bản vào các bài viết hiện có thường dẫn đến kết quả kém. Bạn có thể tận dụng AI để nhờ nó biên tập, tóm tắt hoặc cô đọng văn bản hiện có, hoặc để cung cấp ý tưởng cho các bài viết mới hoặc đang sửa đổi. Tuy nhiên, mọi thay đổi đối với bài viết đều phải tuân thủ đầy đủ các quy định và hướng dẫn. Các thành viên cần làm quen với việc xem xét nguồn dẫn của chủ thể, sau đó kiểm tra thật kỹ tính trung lậpkhả năng kiểm chứng nội dung với các nguồn dẫn đi kèm. Nếu chú thích là một phần của đầu ra từ AI thì thành viên phải đảm bảo rằng chú thích nguồn này là đáng tin cậy, phù hợp, liên quan đến chủ thể, không giả mạo, đồng thời kiểm tra nội dung bài viết phải khớp với các ý trong nguồn.

Khi sử dụng AI làm công cụ hỗ trợ soạn thảo, chẳng hạn như phác thảo ý tưởng, đề xuất cải tiến đoạn văn hoặc đánh giá văn bản, thành viên cần lưu ý rằng thông tin từ AI không phải lúc nào cũng đáng tin cậy. Nếu sử dụng AI để biên tập, tóm tắt hoặc diễn giải văn bản, thành viên cần phải cảnh giác vì AI có thể không nhận diện được lỗi ngữ pháp, diễn giải cú pháp mơ hồ hoặc không giữ nguyên thông tin chính xác. Bạn có thể yêu cầu AI sửa lại kết quả đầu ra của chính nó, như bổ sung thiếu sót hoặc loại bỏ giọng điệu không phù hợp (như quảng cáo). Tất nhiên, đây hoàn toàn không thể thay thế công việc sửa đổi thủ công. Kết quả từ AI có thể cần phải chỉnh sửa nhiều lần hoặc thậm chí là phải "đập đi xây lại từ đầu". Do đó, ta cần phải xem xét và đánh giá cẩn thận trước khi quyết định chấp nhận các thay đổi hoặc đề xuất từ phía AI.

Thảo luận với thành viên khác

Bạn không nên sử dụng AI để tạo ra câu trả lời thảo luận với thành viên khác. Thảo luận là yếu tố quan trọng trong quá trình đưa ra quyết định thống nhất và có tính đồng thuận tại cộng đồng Wiki Scholarship. Các thành viên đóng góp cho Wiki Scholarship luôn được kỳ vọng sẽ đưa ra những ý tưởng và quan điểm riêng của mình. Do vậy, những lời bình luận do AI tạo sinh không phản ánh đúng suy nghĩ của một người và tất nhiên sẽ không có giá trị trong các cuộc thảo luận. Các nội dung thảo luận rõ ràng do AI tạo ra hoặc tương tự có thể sẽ bị xóa bỏ hoặc ẩn đi bằng cú pháp bản mẫu {{Collapse AI top}}{{Collapse AI bottom}}. Nếu hành vi này tiếp tục lặp lại thì đây có thể bị xem là sửa đổi gây hại và thành viên có thể bị cấm hoặc cấm chỉ.

Tuy nhiên, quy định này không áp dụng đối với việc sử dụng AI để tinh chỉnh cách diễn đạt những ý tưởng mà một người đã có. Ví dụ, người nói tiếng Việt không phải là người bản xứ có thể sử dụng AI để kiểm tra ngữ pháp hoặc dịch những từ mà họ không quen thuộc. Tuy nhiên cần lưu ý rằng, AI có thể mắc lỗi hoặc làm sai lệch nội dung thảo luận. Nếu bạn muốn sửa câu cú thì lời khuyên là nên sử dụng chương trình soạn thảo văn bản có hệ thống gợi ý hoặc trình kiểm tra ngữ pháp chuyên dụng thay vì AI chatbot. Các thành viên có trình độ tiếng Việt hạn chế nên sử dụng công cụ dịch máy thay vì AI chatbot khi cần dịch thảo luận sang tiếng Việt.

Những cân nhắc quy định khác

Không nên sử dụng AI để thực hiện các sửa đổi tự động giống bot (WP:MEATBOT) nếu chưa được phê duyệt, hoặc bất kỳ hình thức sửa đổi nào gần giống bot. Việc dùng AI để thực hiện sửa đổi với tốc độ cao trong không gian bài viết có thể không đảm bảo chất lượng, vì khó có thể rà soát nội dung để đảm bảo tuân thủ tất cả các quy định hiện có.

Wikipedia không phải là nơi để thí nghiệm hoặc phát triển AI, chẳng hạn như chạy thử nghiệm chỉ với mục đích cải thiện công nghệ. Các sửa đổi trên Wikipedia bắt buộc phải hướng đến mục tiêu là xây dựng bách khoa toàn thư, không phải để thử nghiệm công nghệ. Tuy nhiên, việc này không có nghĩa là cấm thành viên thử nghiệm AI có trách nhiệm trong không gian thành viên, miễn là nhằm mục đích xây dựng Wikipedia.

Nguồn chứa nội dung do AI tạo sinh

Những nguồn nội dung cho AI tạo ra đều không phải là nguồn đáng tin cậy, trừ khi đầu ra các mô hình này được xuất bản trên những phương tiện truyền thông có lịch sử uy tín trong việc giám sát và xác minh dữ kiện.

Nhận biết văn bản do AI tạo sinh

Mặc dù không phải lúc nào cũng dễ dàng xác định liệu văn bản có phải do AI tạo ra hay không, nhưng đôi khi kết quả đầu ra của AI có thể mang những đặc điểm đặc trưng giúp người đọc phân biệt với nội dung do con người viết. Ví dụ, một thành viên để lại thảo luận dài dòng và tràn ngập chữ nghĩa trên trang thảo luận của bạn, sử dụng giọng điệu khách quan, chính tả và ngữ pháp rất chuẩn xác, nhưng lại chẳng có đánh dấu mã wikitext và cũng không có liên kết hay trích dẫn. Đây rất có thể là do AI tạo ra. Không nên chỉ dựa vào các công cụ phát hiện nội dung trí tuệ nhân tạo (như GPTZero) để xác định xem văn bản có phải do AI tạo ra hay không, vì những công cụ này có độ chính xác thấp và tỷ lệ lỗi cao.

Xử lý nội dung được cho là do AI tạo sinh

Nếu phát hiện nội dung có nguồn gốc từ AI không tuân thủ quy định cốt lõi của Wikipedia và quyết định không xóa ngay lập tức (có thể đọc vào và cảm thấy nội dung hợp lý), bạn nên sửa lại sao cho tuân thủ các quy định hoặc thông báo cho các thành viên khác về vấn đề này. Đầu tiên, cần kiểm tra xem phần nguồn tham khảo có thực sự tồn tại hay không. Sau đó, đối sánh tất cả tuyên bố đi kèm với các nguồn tham khảo trong bài. Những nội dung không tuân thủ các quy định cốt lõi là phải bị xóa. Đặc biệt, hãy rà soát thật kỹ những nội dung hay văn phong của AI mà bạn nghi ngờ là thông tin chưa công bố, tổng hợp nguồn để củng cố luận điểmkhông trung lập.

Để thông báo cho các thành viên khác, hãy đặt bản mẫu {{AI tạo sinh|date=tháng 4 năm 2026}} vào đầu bài viết (chỉ khi nào cảm thấy không thể giải quyết vấn đề nhanh chóng). Đối với các bài viết tiểu sử người đang sống, nội dung do AI tạo ra mà không tuân thủ quy định thì phải xóa ngay lập tức mà không cần thảo luận trước hay chờ đợi người khác xử lý.

Nếu toàn bộ nội dung trong bài viết bị phát hiện là do AI tạo ra thì bài viết có thể sẽ bị xóa hoàn toàn. Nếu toàn bộ bài viết hoàn toàn không chính xác hoặc dựa trên nguồn bịa đặt thì bạn có thể áp dụng quy định xóa nhanh theo WP:C3 (Hoàn toàn là phá hoại hoặc lừa bịp rõ ràng).

Trên các trang thảo luận, hãy sử dụng các mẫu {{Collapse AI top}}{{Collapse AI bottom}} để tránh cuộc thảo luận có chứa văn bản AI gây rối.

Các bản mẫu sau có thể dùng để cảnh báo thành viên trên trang thảo luận thành viên của họ:

Ghi chú

  1. Áp dụng cho cả trường hợp mô hình AI nằm trong phạm vi quyền hạn mà các tác phẩm do AI tạo ra không được cấp phép bản quyền, mặc dù xác suất rất thấp.
  2. Ví dụ, một người rất giỏi trong việc chống phá hoại nhưng chưa có kinh nghiệm biên tập bài viết thì không nên ngay lập tức sử dụng AI để viết bài. Thay vào đó, họ nên tự mình viết bài trước, sử dụng năng lực vốn có mà không cần sự trợ giúp của AI. Chỉ khi đã trải qua nhiều đợt đánh giá từ cộng đồng và đề cử thành công các bài viết chất lượng, họ mới chứng minh được khả năng của mình và có thể cân nhắc sử dụng AI để hỗ trợ.

Tham khảo

  1. Smith, Adam (ngày 25 tháng 1 năm 2023). "What Is ChatGPT? And Will It Steal Our Jobs?" [ChatGPT là gì? Và liệu nó có đánh cắp công ăn việc làm của chúng ta không?]. Context (bằng tiếng Anh). Thomson Reuters Foundation. Lưu trữ bản gốc ngày 30 tháng 1 năm 2023. Truy cập ngày 27 tháng 1 năm 2023.
  2. "When AI Gets It Wrong: Addressing AI Hallucinations and Bias" [Khi AI sai: Giải quyết ảo giác và thiên kiến của AI]. MIT Sloan Teaching & Learning Technologies (bằng tiếng Anh). Lưu trữ bản gốc ngày 2 tháng 10 năm 2023. Truy cập ngày 25 tháng 5 năm 2025.
  3. Nguồn từ en:Wikipedia:Village pump (idea lab)/Archive 64#c-Cremastra-20250128165800-Hooman_Mallahzadeh-20250128163700