Thứ Ba, 28 tháng 10, 2014

Lịch sử của Machine Translation (máy dịch tự động)

Filled under:

Machine translation (dịch tự động) đã xuất hiện từ những năm 1990 khi các học sinh ở một trường trung học sử dụng công cụ Babelfish để dịch các từ ngữ xấu sang các ngôn ngữ khác. Cũng có một vài nguồn nói rằng “dịch tự động” đã xuất hiện từ thế kỷ 17 khi nhà triết học người Pháp Rene Descarthes đề xuất việc tạo ra một ngôn ngữ tổng quát để đại diện cho sự tương đương của những ngôn ngữ khác, nhưng cuối cùng nó cũng chỉ dừng lại ở mức lý thuyết mà chưa có bất cứ một ứng dụng thực tế nào.


Đến những năm 1950, các nhà khoa học đã bắt đầu cài đặt chỉnh sửa ngữ pháp trong các máy tính nhằm nỗ lực tạo ra các máy dịch tự động. Vào năm 1951, một nhóm nghiên cứu từ IBM và Đại học Georgetown đã chứng minh được những thành tựu đầu tiên của máy dịch tự động sau khi đánh những cụm từ tiếng Nga vào thẻ IBM và nhận lại được câu trả lời khá chính xác, ví dụ như “Chúng tôi truyền tải những suy nghĩa bằng lời nói”. Tại đây thí nghiệm dịch tự động đã thành công với việc dịch hơn 60 câu tiếng Nga sang tiếng Anh.

Lĩnh vực dịch tự động đang rất phát triển trong những năm giần đây khi mà có rất nhiều các công ty đã và đang cố gắng cung cấp và nâng cấp các phần mềm dịch tự động ra thị trường. Google và Microsoft cũng có những sản phẩm bản quyền của riêng họ và đang được khá nhiều người trên toàn thế giới sử dụng hàng ngày.

Dịch tiếng Việt xuất hiện đầu tiên vào những năm 1960, đều là do các nguyên nhân chính trị và quân sự. Logos I là phần mềm đầu tiên do Bernard E.Scott phát mình ra, những cũng chỉ dừng lại với khoảng 1.000 từ. Tuy nhiên dự án này cũng không tồn tại được lâu. Đến tận 10 năm sau, tức là đầu những năm 70 thì Tập đoàn viễn thông Xyzyz của Hoa Kỳ mới có những nghiên cứu nghiêm túc về dịch tự động song ngữ Anh-Việt. Hệ dịch tự động Anh-Việt được sử dụng rộng rãi đầu tiên ở Việt Nam là EVTRAN-1997 với hơn 500.000 từ vựng. Đến giờ ngoài EVTRAN, dịch máy trên xalo.vn, Vidict hay Google translate cũng đang được khá nhiều người Việt sử dụng. Tuy độ chính xác không cao, nhưng cũng giúp ích hiểu được những ngữ nghĩa căn bản