POSPAPUA

Ikuti perkembangan terkini Indonesia di lapangan dengan berita berbasis fakta PosPapusa, cuplikan video eksklusif, foto, dan peta terbaru.

Ilmuwan Pandata Tech berbicara tentang pentingnya data Arab di masa depan berdasarkan kecerdasan buatan

Saat ini, teks yang kita tulis diproses oleh model pemrosesan bahasa alami di mana-mana di Internet. Baik itu platform media sosial seperti Twitter atau Instagram, mesin pencari, bot obrolan untuk layanan pelanggan atau layanan online lainnya, teks diproses di mana saja untuk melatih model bahasa sehingga mereka dapat memahami teks pengguna dengan lebih akurat dan meningkatkan pengalaman mereka.

Beberapa contoh umum tentang cara kerja formulir ini:

Saat Anda berinteraksi dengan mesin telusur, mesin telusur menafsirkan model di balik kata dan frasa untuk memahami kueri, lalu mengembalikan hasil yang relevan dengan kueri Anda. Pengecer online menggunakan algoritme NLP untuk menentukan produk mana yang paling mungkin diminati berdasarkan percakapan yang dilakukan orang-orang di platform media sosial seperti Twitter atau Instagram. Sistem rekomendasi merekomendasikan buku, film, artikel, atau apa pun berdasarkan apa yang kami baca atau apa yang kami tulis di komentar dan ulasan.

Dunia Arab adalah pasar yang berkembang. Ini adalah rumah bagi beberapa ekonomi dengan pertumbuhan tercepat di dunia. Seiring pertumbuhan ekonomi, demikian pula permintaan akan layanan dan produk yang memenuhi kebutuhan mereka – termasuk yang mengandalkan kemampuan NLP Arab yang akurat.

Hassan Ghalib, Kepala Ilmuwan Data di Pandata Tech, sebuah perusahaan yang berfokus pada pemecahan masalah yang menantang dan mengembangkan solusi bernilai tambah tinggi berdasarkan data besar, pemrosesan bahasa alami (NLP), dan pembelajaran mesin, berbagi pemikirannya tentang tantangan dalam NLP Arab.

“Di dunia kecerdasan buatan dan data pembelajaran mesin, ada minyak. Model kinerja yang baik dilatih pada kumpulan data yang berukuran besar dan beragam di alam yang mencakup semua aspek dan kekayaan bahasa. Banyak arsitektur baru model bahasa seperti Transformer hanya mampu menghasilkan metrik yang baik jika mereka dilatih pada kumpulan data yang tepat. Karena kualitas data bersama dengan kuantitas adalah pendorong utama kinerja model.”

READ  Miami's Rise to the Tech Hub - NBC6 Florida Selatan

Sebuah model linguistik yang ketat adalah salah satu yang dilatih pada set data yang tidak bias dan menyadari keragaman dan kompleksitas dialek, kosa kata, dan beberapa tata bahasa. Jika tidak, jika model bahasa dilatih pada kumpulan data yang tidak memiliki representasi wilayah Arab tertentu, kinerjanya mungkin bias dan dapat menyinggung nilai dan perasaan budaya orang. Misalnya, sebuah model yang memprediksi apakah seseorang cenderung gagal membayar pinjaman dapat secara tidak sengaja mendiskriminasi orang dari wilayah atau agama tertentu jika dilatih pada data yang hanya mencerminkan satu perspektif.

“Jika kita berbicara tentang bahasa Arab, ada beberapa tantangan dalam memproses bahasa alami Arab karena banyaknya dialek yang digunakan di seluruh dunia Arab di mana setiap dialek memiliki kosakata, tata bahasa, dan tata bahasa yang unik. Hal ini menyebabkan untuk bias Jika kita melihat model terbaru Untuk bahasa yang tersedia untuk bahasa lain daftar teratas adalah GPT3, yang telah dilatih pada ratusan miliar simbol/kata dengan ukuran kumpulan data pelatihan sekitar 45TB. Kami memiliki banyak dataset untuk bahasa Arab yang benar-benar mewakili semua dialek yang digunakan di berbagai wilayah Arab, produksi GPT3 untuk dunia Arab tidak terlalu jauh,” tambah Ghalib.

Di dunia teknologi ini, mesin juga belajar seperti manusia, jadi semakin banyak data yang kita berikan ke mesin, semakin sadar dan akurat mereka. Qatar dapat mengambil kesempatan ini untuk menghasilkan kumpulan data besar yang dapat dimanfaatkan untuk membangun model NLP bahasa Arab kelas satu. Melakukan hal itu tidak hanya akan melestarikan bahasa dan nilai-nilai Qatar di dunia teknologi di masa depan, tetapi juga, mereka akan menjadi pelopor di kawasan untuk mencapai tonggak sejarah ini.

READ  Keuntungan perusahaan teknologi membantu mendorong S&P 500 ke rekor tertinggi