Komputer telah menjadi sangat akurat dalam menerjemahkan kata-kata yang diucapkan menjadi pesan teks dan mencari sejumlah besar informasi untuk mendapatkan jawaban atas pertanyaan kompleks. Setidaknya, selama Anda berbicara bahasa Inggris atau bahasa lain yang dominan di dunia.
Tetapi cobalah berbicara ke telepon Anda dalam bahasa Yoruba, Igbo, atau sejumlah bahasa Afrika yang digunakan secara luas dan Anda akan menemukan beberapa celah yang dapat menghalangi akses ke informasi, perdagangan, komunikasi pribadi, layanan pelanggan, dan manfaat lain dari ekonomi teknologi global .
Fukusi Marivat, Kepala Ilmu Data di Universitas Pretoria di Afrika Selatan, mengatakan dalam seruan untuk bertindak menjelang pertemuan virtual para peneliti AI dunia pada bulan Desember.
Raksasa teknologi Amerika tidak memiliki rekam jejak dalam membuat teknologi bahasa mereka bekerja dengan baik di luar pasar yang lebih kaya, masalah yang membuat mereka sulit mendeteksi kesalahan informasi yang berbahaya di platform mereka.
Marivate adalah bagian dari koalisi peneliti Afrika yang mencoba mengubah itu. Di antara proyek mereka adalah salah satu yang menemukan bahwa alat terjemahan mesin gagal menerjemahkan survei online COVID-19 dengan benar dari bahasa Inggris ke beberapa bahasa Afrika.
“Kebanyakan orang ingin dapat berinteraksi dengan jalan raya informasi lainnya dalam bahasa lokal mereka,” kata Marivat dalam sebuah wawancara. Dia adalah anggota pendiri Masakhane, sebuah proyek penelitian Afrika untuk meningkatkan bagaimana lusinan bahasa diwakili dalam cabang kecerdasan buatan yang dikenal sebagai pemrosesan bahasa alami. Ini adalah jumlah terbesar dari proyek teknologi bahasa populer yang muncul dari Andes hingga Sri Lanka.
Raksasa teknologi menawarkan produk mereka dalam beberapa bahasa, tetapi mereka tidak selalu peduli dengan nuansa yang diperlukan agar aplikasi ini dapat bekerja di dunia nyata. Sebagian masalahnya adalah bahwa tidak ada cukup data online dalam bahasa ini — termasuk istilah ilmiah dan medis — agar sistem AI dapat mempelajari cara memahaminya dengan lebih baik secara efektif.
Google, misalnya, menyinggung anggota komunitas Yoruba beberapa tahun lalu ketika aplikasi bahasanya salah menerjemahkan Esu, dewa penipu, sebagai Setan. FB kesalahpahaman bahasa Telah terkait dengan perjuangan politik di seluruh dunia dan ketidakmampuannya untuk mengekang misinformasi yang berbahaya tentang vaksin COVID-19. Lebih banyak gangguan terjemahan biasa telah diubah menjadi meme lelucon online.
Omolewa Adedipe frustrasi mencoba membagikan pemikirannya di Twitter di Yoruba karena tweet yang diterjemahkan secara otomatis biasanya berakhir dengan arti yang berbeda.
Suatu kali, perancang konten berusia 25 tahun itu men-tweet, “T’Ílù bà dùn, T’Ílù ò bà t’òrò. yin l’ęmò bí e é,” yang berarti, “Jika tanah (atau negara, Dalam konteks ini) tidak damai atau bahagia, Anda bertanggung jawab untuk itu.” Namun, Twitter berhasil mendapatkan terjemahan: “Jika Anda tidak bahagia, jika Anda tidak bahagia.”
Untuk bahasa Nigeria yang kompleks seperti Yoruba, tanda dialek – sering dikaitkan dengan nada – membuat perbedaan besar dalam komunikasi. Misalnya, ‘ogun’ adalah kata Yoruba yang berarti perang, tetapi bisa juga berarti sebuah negara di Nigeria ( gùn), dewa besi ( gún), penusukan (Ógún), atau properti (Ogún).
“Beberapa bias disengaja mengingat sejarah kita,” kata Marivat, yang telah mengabdikan beberapa penelitian AI-nya untuk bahasa Afrika Selatan Xitsonga dan Setwana yang digunakan oleh anggota keluarganya, serta praktik percakapan umum “kode- beralih” antar bahasa.
“Sejarah benua Afrika dan negara-negara kolonial pada umumnya adalah ketika sebuah bahasa harus diterjemahkan, itu diterjemahkan dengan cara yang sangat sempit,” katanya. “Anda tidak diizinkan untuk menulis teks umum dalam bahasa apa pun karena negara kolonial mungkin khawatir bahwa orang akan berkomunikasi dan menulis buku tentang pemberontakan atau revolusi. Tapi mereka mengizinkan teks agama.”
Google dan Microsoft adalah di antara perusahaan yang mengatakan mereka mencoba meningkatkan teknologi untuk apa yang disebut bahasa “bersumber daya rendah” tentang sistem AI yang tidak memiliki cukup data. Ilmuwan komputer di Meta, perusahaan yang sebelumnya dikenal sebagai Facebook, mengumumkan pada bulan November kemajuan besar di jalan menuju “penerjemah universal” yang dapat menerjemahkan banyak bahasa secara bersamaan dan bekerja lebih baik dengan bahasa sumber daya rendah seperti Islandia atau Hausa .
Ini adalah langkah penting, kata David Ifeoluwa Adelani, tetapi untuk saat ini, hanya perusahaan teknologi besar dan lab AI besar di negara maju yang dapat membangun model ini. Dia adalah seorang peneliti di Universitas Saarland di Jerman dan anggota lain dari Masakhane, yang memiliki misi untuk memajukan dan mengkatalisasi penelitian yang dipimpin Afrika untuk menangani teknologi “yang tidak memahami nama kita, budaya kita, tempat kita, dan sejarah kita”.
Meningkatkan sistem tidak hanya membutuhkan lebih banyak data tetapi juga tinjauan manusia yang cermat dari penutur asli yang kurang terwakili dalam tenaga kerja teknis global. Ini juga membutuhkan tingkat daya komputasi yang sulit diakses oleh peneliti independen.
Penulis dan ahli bahasa Kula Tobusun membuat kamus multimedia bahasa Yoruba dan juga membuat mesin text-to-speech untuk bahasa tersebut. Dia sekarang sedang mengerjakan teknologi pengenalan suara serupa untuk dua bahasa utama lainnya di Nigeria, Hausa dan Igbo, untuk membantu orang yang ingin menulis kalimat dan suku kata pendek.
“Kami membiayai sendiri,” katanya. “Tujuannya adalah untuk menunjukkan bahwa hal-hal ini bisa menguntungkan.”
Toboson memimpin tim yang menciptakan suara dan aksen “Bahasa Inggris Nigeria” dari Google yang digunakan dalam alat seperti Maps. Namun dia mengatakan masih sulit untuk mengumpulkan uang yang dibutuhkan untuk membangun teknologi yang memungkinkan petani menggunakan alat audio untuk mengikuti tren pasar atau cuaca.
Di Rwanda, insinyur perangkat lunak Remi Muhair membantu membangun kumpulan data pidato sumber terbuka baru untuk Kinyarwanda yang mencakup banyak sukarelawan yang merekam diri mereka membaca artikel surat kabar Kinyarwanda dan teks lainnya.
“Mereka adalah penutur asli. Mereka mengerti bahasanya,” kata Mozilla, rekan di Mozilla, pembuat peramban internet Firefox. Bagian dari proyek ini melibatkan kolaborasi dengan aplikasi ponsel pintar yang didukung pemerintah yang menjawab pertanyaan tentang COVID-19. Sistem AI dalam berbagai bahasa Di Afrika, peneliti Masakhan juga memanfaatkan sumber berita di seluruh benua, termasuk siaran Hausa Voice of America dan BBC Igbo.
Damien Blasey, yang meneliti keragaman bahasa di Harvard Data Science Initiative, mengatakan bahwa orang semakin tertantang untuk mengembangkan pendekatan bahasa mereka sendiri daripada menunggu institusi elit untuk memecahkan masalah.
Blasey ikut menulis studi baru-baru ini yang menganalisis perkembangan teknologi bahasa yang tidak merata di lebih dari 6000 bahasa di dunia. Misalnya, ditemukan bahwa meskipun ada puluhan juta penutur bahasa Belanda dan Swahili, ada ratusan laporan ilmiah tentang pemrosesan bahasa alami dalam bahasa Eropa Barat dan hanya sekitar 20 laporan dalam bahasa Afrika Timur.
O’Brien melaporkan dari Providence, Rhode Island
More Stories
Kerugian NVIDIA mencapai $100 miliar di tengah kekhawatiran akan gelembung teknologi
Bagaimana inovasi teknologi berkontribusi terhadap modernisasi reformasi produk dalam rantai pasokan
Harga teknologi turun dalam beberapa jam terakhir setelah Nvidia gagal menginspirasi: Markets Wrap