Rào cản ngôn ngữ

Rào cản ngôn ngữ  

Dự án luận văn của sinh viên tốt nghiệp gần đây trở thành sứ mệnh nhằm đại diện tốt hơn cho tiếng Urdu trong phần mềm  


Tác giả: Adam Zewe | Liên hệ báo chí  
Ngày 15 tháng 4, 2020

Một buổi chiều, hai bạn cùng lớp nói tiếng Tây Ban Nha của Zeerak Ahmed nhận thấy anh đang sử dụng máy tính bằng tiếng Anh thay vì ngôn ngữ mẹ đẻ của mình.  

Khi họ hỏi tại sao người gốc Pakistan này không đặt máy tính sang tiếng Urdu, họ ngạc nhiên khi biết rằng hầu như không có ứng dụng nào hỗ trợ tốt cho bảng chữ cái 39 chữ cái của tiếng Urdu.  

Cuộc trò chuyện đó đã trở thành động lực cho dự án luận văn của Ahmed trong chương trình thạc sĩ kỹ thuật thiết kế, được phối hợp tổ chức bởi Trường Kỹ thuật và Khoa học Ứng dụng John A. Paulson và Trường Thiết kế Sau đại học Harvard. Anh bắt đầu phát triển một bàn phím tiếng Urdu cho điện thoại thông minh.  

"Hiện có một thế hệ trẻ em lớn lên ở Pakistan, những người, do cách công nghệ được xây dựng, đang mất dần mối liên hệ với ngôn ngữ mẹ đẻ của mình. Và đối với nhiều người nhập cư như tôi, khó khăn trong việc giao tiếp bằng các ngôn ngữ không phải tiếng Anh, mặc dù chúng tôi muốn, đang trở nên rõ ràng hơn," Ahmed, M.D.E. ’18 nói. "Tôi đang cố gắng chống lại sự mất mát di sản văn hóa của chính mình."  

Với cảm hứng đó, Ahmed, người đã lấy bằng cử nhân khoa học máy tính từ Đại học Princeton vào năm 2013, bắt tay vào làm việc. Một trong những thách thức lớn nhất ban đầu của anh là xác định cách bố trí 39 chữ cái sao cho hợp lý cho người dùng.  

Các ngôn ngữ Ả Rập bao gồm 21 hình dạng cơ bản; trong tiếng Urdu, 39 ký tự viết tay được tạo ra từ 21 hình dạng đó với việc bổ sung các dấu chấm hoặc ký hiệu khác. Các chữ cái cũng thay đổi hình dạng tùy thuộc vào vị trí của chúng trong từ.  

Ahmed nhận thấy sẽ đơn giản hơn nhiều cho người dùng điện thoại thông minh nếu chọn từ 21 hình dạng và sau đó phần mềm sẽ thêm dấu chấm và ký hiệu để hoàn thành mỗi ký tự.  

Nhưng việc giảm bảng chữ cái xuống còn 21 phím đã tạo ra những thách thức thuật toán độc đáo.  

"Độ không chắc chắn về những gì bạn đang gõ không còn là vấn đề bạn có nhấn nhầm phím hay không. Ngay cả khi bạn nhấn đúng phím, phần mềm vẫn phải đoán đúng chữ cái, bởi vì chúng tôi đang giảm độ chính xác của đầu vào," anh giải thích. "Để khắc phục điều đó, chúng tôi phải đảm bảo độ chính xác của thuật toán, và văn bản mà nó học từ đó phải thực sự vững chắc."  

Việc tìm kiếm và sau đó làm sạch một kho văn bản tiếng Urdu đủ lớn để huấn luyện thuật toán đã trở thành một trở ngại lớn mà Ahmed mất nhiều thời gian hơn dự kiến ban đầu.  

Và với mỗi vấn đề anh giải quyết, dường như có hàng loạt trở ngại kỹ thuật mới xuất hiện, chẳng hạn như cách sử dụng các chức năng phổ biến khi lập trình với các ký tự Ả Rập.  

"Khi bạn có một chuỗi văn bản bằng bất kỳ bộ ký tự Latin nào, bất kỳ ngôn ngữ lập trình nào đáng tin cậy đều có thể thực hiện nhiều thao tác với nó. Bạn chỉ cần nói với nó bạn muốn gì và nó sẽ cho bạn điều đó," anh nói. "Nhưng đối với chúng tôi, chúng tôi phải xây dựng mọi thứ từ đầu. Chúng tôi đã xem xét mọi chữ cái trong bảng mã Unicode cho ngôn ngữ Ả Rập và tìm cách xử lý chúng."  

--  
Mục tiêu của chúng tôi không chỉ là xây dựng một bàn phím; mục tiêu của chúng tôi là khai mở một kỷ nguyên phần mềm mới.  
Zeerak Ahmed  
--  

Trong khi anh tiếp tục hoàn thiện bàn phím và hy vọng sẽ sớm có một phiên bản để thử nghiệm công khai, anh đã mở rộng công việc luận văn của mình thành một dự án nghiên cứu liên ngành, Matnsaz (có nghĩa là “nhạc cụ văn bản” trong tiếng Urdu). Anh và các cộng sự của mình hiện đang xây dựng một cơ sở hạ tầng lập trình mà các nhà phát triển có thể sử dụng để tạo phần mềm bằng tiếng Urdu hoặc các ngôn ngữ không phải Latin khác.  

Anh đã công bố kho văn bản tiếng Urdu khổng lồ mà anh đã dành nhiều tháng để làm sạch để các nhà phát triển khác có thể sử dụng nó để huấn luyện các thuật toán của riêng họ. Và khi anh tiếp tục tinh chỉnh kho văn bản đó, anh cũng đang khám phá thêm các chức năng bổ sung của bàn phím, chẳng hạn như thêm các ký hiệu độc đáo thường được sử dụng trong các văn bản tiếng Urdu.  

Hy vọng của anh là mở rộng dự án và tìm thêm ứng dụng cho nền tảng này, như một phần trong nỗ lực khuyến khích nhiều nhà phát triển tham gia và giữ cho ngôn ngữ 1.000 năm tuổi này tồn tại trong phần mềm.  

"Mục tiêu của chúng tôi không chỉ là xây dựng một bàn phím; mục tiêu của chúng tôi là khai mở một kỷ nguyên phần mềm mới," anh nói. "Chúng tôi luôn cho rằng sự tiến bộ công nghệ là vấn đề của việc ai đến đó trước. Điều làm tôi lo lắng là, với phần mềm tiếng Urdu, liệu chúng ta có đến được đó không? Tôi cảm thấy có trách nhiệm tiếp tục làm việc và chia sẻ những gì chúng tôi đang tạo ra với thế giới—chúng tôi đã chờ đợi quá lâu cho phần mềm tiếng Urdu. Để mất nó bây giờ sẽ là một sự tan vỡ trái tim."
--


--

Language barrier

Recent grad’s thesis project becomes a mission to better represent Urdu in software
By Adam Zewe | Press contact
April 15, 2020

One afternoon, two of Zeerak Ahmed’s Spanish-speaking classmates noticed he was using his computer in English, rather than in his native language.

When they asked why the Pakistan native hadn’t set the computer to Urdu, they were surprised to learn that hardly any applications offer more than rudimentary support for the 39-letter Urdu alphabet.

That conversation served as the impetus for Ahmed’s thesis project for the master in design engineering program, offered jointly by the Harvard John A. Paulson School of Engineering and Applied Sciences and the Graduate School of Design. He set out to develop an Urdu keyboard for smartphones.

“There is an entire generation of children growing up in Pakistan who, because of the way technology is built, are losing touch with their native languages. And for many people who are immigrants like me, our difficulty in communicating in non-English languages, even though we want to, is becoming manifest,” said Ahmed, M.D.E. ’18. “I am trying to fight back against this loss of our own cultural heritage.”

With that inspiration in mind, Ahmed, who earned an undergraduate computer science degree from Princeton University in 2013, got to work. One of his biggest challenges at the beginning of the project was determining how to lay out the 39 letters in a way that would make sense for users.

Arabic languages are comprised of 21 basic shapes; in Urdu, the 39 cursive characters are created from those 21 shapes with the addition of dots or other symbols. The letters also change their shapes depending on where they are positioned in a word. 

Ahmed determined it would be much simpler for smartphone users to select from among the 21 shapes and then have the software add the dots and symbols afterward to complete each character.

But reducing the alphabet to 21 keys created unique algorithmic challenges. 

“The uncertainty in what you were typing is no longer a matter of whether or not you pressed the wrong key. Even if you pressed the correct key, the software has to guess the correct letter, because we are reducing the accuracy of the input,” he explained. “To get around that, we have to ensure the accuracy of our algorithm, and the text that it is learning from has to be even more rock solid.”

Finding, and then cleaning, a large enough corpus of Urdu text to train the algorithm proved to be a major hurdle that has taken Ahmed far more time than he originally anticipated.

And with each problem he solved, it seemed that a host of new technical roadblocks appeared, such as how to utilize common functions when programming with Arabic characters.

“When you have a string of text in any Latin character set, any programming language worth its salt can do a number of operations with it built in. You can just tell it what you want and it will give you what you want,” he said. “But for us, we had to build everything from the ground up. We went through every letter in the Arabic script that has ever been put out in Unicode and found a way to deal with it.”

--
Our goal is not to just build one keyboard; our goal is to usher in a new kind of software era.
Zeerak Ahmed
--

While he continues to put finishing touches on the keyboard, and hopes to have a version ready for a public beta test soon, he has expanded his thesis work into an interdisciplinary research project, Matnsaz (which means “text instrument” in Urdu). He and his collaborators are now working to build a programming infrastructure that developers could use to produce software in Urdu, or other non-Latin languages.

He has published the massive corpus of Urdu text he spent months cleaning so other developers can use it to train their own algorithms. And as he continues to refine that corpus, he is also exploring additional functions of the keyboard, such as adding unique symbols that are commonly used in Urdu texts.

His hope is to scale the project up and find additional applications for this groundwork, as part of an effort to encourage more developers to pick up the mantle and keep the 1,000-year-old language alive in software.

“Our goal is not to just build one keyboard; our goal is to usher in a new kind of software era,” he said. “We’ve always assumed that tech progress is a question of who gets there first. What worries me is, with Urdu software, will we get there at all? I feel a responsibility to keep working on it and share what we’re producing with the world—we’ve waited too long for Urdu software. To let it go now would just be heartbreaking.”

--
https://seas.harvard.edu/news/2020/04/language-barrier

Nhận xét

Bài đăng phổ biến