Sau ba năm kể từ khi ChatGPT ra mắt, thái độ của các tòa soạn đối với AI đã thay đổi đáng kể. Theo khảo sát mới nhất của WAN-IFRA, 49% các tổ chức tin tức đã bắt đầu sử dụng AI, dù một nửa trong số đó vẫn lo ngại về những thách thức đạo đức.

Bài báo này sẽ tổng hợp ý kiến từ các chuyên gia truyền thông quốc tế để làm rõ cách ngành tin tức đang đối phó với những rủi ro từ AI, đặc biệt là sự thiên vị.

Hiểu về sự thiên vị của AI

Tiến sĩ Matthias Holweg từ Đại học Oxford nhấn mạnh rằng "thiên vị là tính năng, không phải lỗi" của các công cụ AI. Điều này có nghĩa là bất kỳ mô hình AI nào cũng sẽ phản ánh những định kiến có sẵn trong dữ liệu mà nó được đào tạo.

Dữ liệu đào tạo của ChatGPT chủ yếu đến từ internet, nơi mà "tiếng nói của người phương Tây, da trắng, nam giới, nói tiếng Anh chiếm ưu thế", dẫn đến sự thiên vị mặc định.

Có ba loại thiên vị chính:

  1. Thiên vị thống kê (Statistical Bias): Xảy ra do sai sót trong quá trình thu thập và xử lý dữ liệu. Ví dụ, một mô hình y tế được đào tạo chủ yếu trên dữ liệu của nam giới sẽ không thể nhận biết hoặc phản hồi chính xác các vấn đề sức khỏe của phụ nữ.
  2. Thiên vị nhận thức (Cognitive Bias): Hình thành từ các thành kiến của con người trong quá trình phát triển mô hình. Ví dụ, một hệ thống đề xuất tin tức được thiết kế bởi các biên tập viên có thiên hướng chính trị cụ thể có thể khuếch đại thiên vị.
  3. Thiên vị xã hội (Social Bias): Bắt nguồn từ bất bình đẳng xã hội và văn hóa trong dữ liệu đào tạo. Một công cụ tuyển dụng AI được huấn luyện bằng dữ liệu cũ có thể ưu tiên ứng viên nam giới cho các vị trí lãnh đạo, từ đó củng cố các định kiến giới tính lỗi thời.

Các vấn đề này không chỉ là lý thuyết. Các trường hợp thực tế đã chứng minh sự thiên vị của AI có thể gây ra những hậu quả nghiêm trọng, như việc phần mềm nhận dạng khuôn mặt nhận diện sai người da đen ở Detroit, hay một hệ thống AI ở Ấn Độ nhầm lẫn một người đàn ông lớn tuổi là đã chết, khiến ông mất quyền tiếp cận lương hưu.

Chúng ta đang nhìn nghiêng một người đàn ông đang nhìn chằm chằm vào bên trong một máy tính để bàn trong suốt, bên trong đó một ngọn lửa đang chiếu một con robot, chúng ta có thể thấy nó đang nhìn nghiêng vào máy tính, nhưng đối với người đàn ông, nó lại trông giống như một hình bóng người. Hình minh họa theo phong cách hội họa gốm Hy Lạp cổ đại, gợi nhớ đến câu chuyện ngụ ngôn về hang động của Plato.
Ảnh minh họa: Alfredo Casasola Vázquez

Khắc phục sự thiên vị: Thách thức phức tạp

Việc giải quyết sự thiên vị không hề đơn giản, ngay cả đối với các công ty công nghệ lớn. Google từng phải tạm ngừng tính năng tạo hình ảnh của mình sau khi nó tạo ra những hình ảnh thiếu chính xác về mặt lịch sử, như lính Quốc xã da đen, trong nỗ lực đa dạng hóa kết quả.

Một số nhà nghiên cứu đã đề xuất phương pháp "giám sát chủ động" (proactive oversight) để theo dõi và giảm thiểu thiên vị trong suốt quá trình phát triển AI.

Các tổ chức cũng đang nỗ lực khắc phục những hạn chế về dữ liệu. Bayerischer Rundfunk (Đức) đang phát triển một công cụ AI để phiên âm các phương ngữ địa phương sang tiếng Đức chuẩn. SVT (Thụy Điển) đã giảm 47% lỗi trong mô hình chuyển giọng nói thành văn bản của mình bằng cách bổ sung 50.000 giờ dữ liệu tiếng Thụy Điển từ các nguồn trong nước. Reuters thì đang thử nghiệm các phương pháp để giảm thiểu thiên vị giới tính trong các công cụ dịch thuật AI.

Rủi ro và giải pháp trong ngành báo chí

Florent Daudens từ Hugging Face cảnh báo rằng dữ liệu lỗi thời có thể làm gia tăng bất bình đẳng xã hội và củng cố các khuôn mẫu. Ông cũng chỉ ra rằng việc các mô hình này là "hộp đen" (black box) khiến việc giải thích các quyết định của chúng trở nên khó khăn.

Để giải quyết vấn đề này, Hugging Face đã phát triển các công cụ như Civics và Shades để đánh giá cách các mô hình ngôn ngữ xử lý các bối cảnh xã hội và phát hiện các khuôn mẫu có hại.

Một số tổ chức đã bổ nhiệm các phóng viên chuyên trách về trách nhiệm giải trình thuật toán, trong khi các tổ chức độc lập như Transformer cũng đang được thành lập để điều tra cách các hệ thống AI được xây dựng và phục vụ lợi ích của ai.

Tại Đại học Florida, công cụ 'Authentically' phân tích ngôn ngữ trong các bài báo để xác định sự thiên vị. Nó có thể giúp nhà báo nhận ra cách họ sử dụng từ ngữ có thể mang lại cảm xúc tiêu cực hoặc kích động, như trong việc đưa tin về các cuộc biểu tình.