Tìm hiểu hệ thống dịch thuật tiên tiến mới của Google

    459

    Nếu như nhiều năm trở về trước khi sử dụng ở Google dịch bạn sẽ không ít lần bắt gặp những tình huống dở khóc dở cười vì tính năng dịch thuật “word by word“, câu dịch đôi khi khá ngô nghê. Tuy nhiên, hiện nay chúng ta sẽ phải giật mình ngạc nhiên – đặc biệt là những người chưa sử dụng công cụ này trong một thời gian dài. Kể từ khi Google công bố một phiên bản hệ thống mới cho dịch ngôn ngữ hỗ trợ bằng máy, hệ thống Google Neural Machine Translation (GNMT), sử dụng mạng nơ ron nhân tạo thông minh để dịch toàn bộ câu thay vì dịch từ và cụm từ, đem lại sự cải thiện đáng kể cho các bản dịch. Công ty đã đưa hệ thống này làm việc trong Google Translate cho tám cặp ngôn ngữ vào tháng 11 và ngày nay mở rộng hỗ trợ thêm cho ba ngôn ngữ nữa là tiếng Nga, tiếng Hindi và tiếng Việt.

    Phiên bản cũ, được gọi là “cụm từ” dịch máy, đã làm việc trên mỗi câu riêng biệt, với một kết quả thường không chính xác. Ở Phiên bản mới, tuy vẫn sẽ gặp vấn đề về câu dịch không tự nhiên, lỗi về nghĩa tuy nhiên chúng đã thực sự là tương đối ít.
    Nhiều người đang nghĩ rằng công cụ dịch thuật sẽ thay thế được các công ty dịch thuật trong tương lai. Tuy nhiên, để đạt tới quá trình này có thể sẽ còn rất nhiều thời gian.

    Google Neural Machine Translation (GNMT) hoạt động như thế nào.

    Google Translate được tích hợp hệ thống dịch thuật mạnh mẽ mới có tên gọi là Google Neural Machine Translation (GNMT), mang lại kết quả dịch chính xác và tự nhiên hơn. Được biết, GNMT có rất nhiều ưu điểm so với hệ thống dịch thuật khác, ví dụ như khi tìm thấy những từ hiếm gặp, nó sẽ “bẻ” từ đó ra thành nhiều phần và tìm toàn bộ ngữ nghĩa của những phần nhỏ ấy, sau đó tổng hợp và đưa ra một nghĩa chung gần nhất. Google đã phải xây dựng hệ thống phần cứng riêng biệt cho hệ thống dịch machine learning này của mình. Kết quả là một hệ thống dịch gần như đạt đến độ chính xác của con người đã ra đời.

    Tính ưu việt của hệ thống dịch thuật mới

    Nội dung liên quan :

    Theo như mô tả về quy trình hoạt động của hệ thống tích hợp này thì nó sử dụng một mạng thần kinh nhân tạo, liên kết các “nơ-ron” số trong một vài lớp, mỗi lớp cung cấp năng lượng cho lớp tiếp theo, theo một cách tiếp cận mô phỏng lỏng lẻo trên bộ não con người. Các hệ thống dịch giống như các hệ thống dựa trên cụm từ trước chúng, lần đầu tiên được “đào tạo” bởi khối lượng lớn các văn bản được dịch bởi con người. Nhưng GNMT lấy từng từ và sử dụng ngữ cảnh xung quanh để biến nó thành một dạng đại diện số học trừu tượng. Sau đó, nó cố gắng để tìm thấy các đại diện phù hợp nhất trong ngôn ngữ mục tiêu, dựa trên những gì nó đã học được từ trước. GNMT xử lý các câu dài hơn nhiều so với các phiên bản trước.

    Hình ảnh động dưới đây cho thấy sự tiến triển của GNMT vì nó dịch một câu tiếng Trung sang tiếng Anh. Thứ nhất, mạng mã hoá các từ Trung Quốc như một danh sách vectơ, nơi mà mỗi vector đại diện cho ý nghĩa một từ được đọc(“Mã Hóa”). Khi toàn bộ câu được đọc, bộ giải mã bắt đầu, câu tiếng Anh được tạo ra bằng cách nhóm các từ đã phân tích trong cùng thời điểm (“Giải mã”). Có thể hiểu cơ chế dịch của GNMT khi con người thường xem ngữ nghĩa của một câu trước tách chúng ra thành nhiều phần nhỏ để dịch khi dịch. Hệ thống mạng nơ-ron ảo đã được huấn luyện để phân tích hình ảnh/vật thể theo cách của con người, và việc dịch thuật cũng không phải ngoại lệ.

    Dịch thuật văn bản từ tiếng Trung Quốc sang tiếng Anh
    Hệ thống dịch thuật mới của Google chuyển dịch từ tiếng Trung Quốc sang tiếng Anh

    GNMT đi vào hoạt động năm ngoái với hỗ trợ dịch cho các cặp ngôn ngữ bao gồm tiếng Anh và tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Trung, tiếng Nhật, tiếng Hàn và tiếng Thổ Nhĩ Kỳ. Theo như ông lớn Google, những đại diện ngôn ngữ này là ngôn ngữ được sử dụng bởi hơn một phần ba dân số thế giới, chiếm khoảng 35% các truy vấn cỗ máy dịch Google Translate.

    Theo bài báo của The New York Times phát hành vào tháng 12, Google Dịch phục vụ hơn 500 triệu người sử dụng mỗi tháng và cần tới 140 tỷ từ mỗi ngày. Công nghệ dịch thuật mới của Google dự kiến sẽ hoàn thành trong năm tới.

    Neural Machine Translation là một bước tiến lớn so với các hệ thống dịch trước đây vì nó có thể tận dụng tiến bộ trong lĩnh vực “máy học” để làm cho bản dịch chính xác hơn và âm thanh giống với người bản địa hơn. Điều làm nên sự khác biệt là hệ thống không dịch từng phần của một câu mà dịch toàn bộ câu. Hệ thống tìm ra bối cảnh rộng hơn và bản dịch có liên quan nhất, sau đó sắp xếp lại và điều chỉnh câu sử dụng ngữ pháp đúng.

    Ví dụ thực tế về dịch thuật do người dịch và công cụ dịch thuật cũ - hệ thống dịch thuật mới
    Một ví dụ về một bản dịch do hệ thống này tạo ra cho một câu đầu vào lấy mẫu từ một trang tin tức

    “Theo đánh giá, GNMT đã giảm 60% lỗi dịch thuật so với các hệ thống dịch trước đó. Các thí nghiệm mới nhất cũng cho thấy chất lượng dịch của GNMT đã gần đạt độ chính xác của con người hơn”, theo các tài liệu của Google cho biết. Trong bài blog trên website Google, nhóm làm việc Google Brain, bao gồm ông Quoc Le và Mike Schuster, đã cho biết lỗi dịch thuật đã giảm từ 55-85% tùy ngôn ngữ. Theo như người phát ngôn đại diện cho hệ thống này thì GNMT còn học hỏi và cải thiện theo thời gian, vẫn còn nhiều việc phải làm để khiến người dùng hài lòng. Dù sao, GNMT cũng là thứ để đánh dấu kỷ nguyên dịch thuật mới của máy móc. kết quả là mang lại bản dịch càng ngày càng tốt hơn và tự nhiên hơn.

    Các bản dịch mới được hỗ trợ bởi hệ thống này sẽ được phát hành trên nền tảng Google Translate, thông qua Google Search, ứng dụng Google Search, ứng dụng Google Translate cho iOS và Android. Bản dịch sẽ sớm được hỗ trợ cho trang Google Translate trên Google Chrome.

    Tìm hiểu công nghệ dịch thuật mới của Google