Teknologi besar beralih ke multimedia untuk menarik perhatian

Pada November tahun lalu, AIM memprediksi hal itu GPT-4 Dia akan segera tiba. Di antara banyak pertanyaan adalah tentang ukuran besar mungkin 100 triliun jumlah parameter, dan kemungkinan hal ini terjadi multimedia Itu salah satu harapan. Sekarang semakin terlihat seperti itu benar dengan rilis dan rumor baru-baru ini.

Pertama, sistem multimedia Itu adalah paradigma maju dalam dunia kecerdasan buatan di mana satu sistem terdiri dari kemampuan untuk menerima input dan menghasilkan output melalui berbagai jenis data seperti teks, ucapan, gambar atau klip video.

Teknologi besar memimpin jalan

Microsoft baru-baru ini merilis Kosmos-1 dalam makalah mereka, “Bahasa bukanlah satu-satunya yang Anda butuhkan: rekonsiliasi kognisi dengan paradigma bahasa, yang merupakan model bahasa besar multimedia (MLLM). Makalah ini menyoroti pentingnya mengintegrasikan bahasa, tindakan, dan kognisi multimodal untuk mengambil langkah lain menuju kecerdasan umum buatan. Ini menandakan bahwa perusahaan sudah mengerjakan penyetelan multimedia menggunakan OpenAI’s GPT-4.

Misalnya, jumlah parameter Kosmos-1 hanya 1,6 miliar selama pelatihan. Meski begitu, modelnya bekerja dengan sangat baik. Bagaimana jika GPT-4 lebih kecil dari yang kita pikirkan atau hanya sekumpulan model yang sesuai dengan ukurannya?

Dalam nada yang sama, Google telah meluncurkan “PaLM-E,” model tunggal yang memiliki kemampuan untuk mengontrol berbagai robot di dunia nyata, sementara juga mahir dalam tugas VQA dan komentar. Sama seperti Kosmos-1, model ini juga mengintegrasikan informasi multimedia ke dalam model bahasa besar (LLM) pra-terlatih. Ini setelah peneliti Google menerbitkan Logika penalaran multimodal dalam paradigma bahasayang dibuat untuk menghasilkan rantai pemikiran menengah menggunakan bahasa dan penglihatan dengan kurang dari satu miliar parameter.

Unduh aplikasi seluler kami

Meskipun tidak persis disebut MLLM, Meta LLaMA, jika dibandingkan dengan GPT-3, memiliki parameter lebih sedikit (65 miliar) tetapi mengungguli dalam banyak tugas. Ini mirip dengan gagasan sistem multimedia, yang pada dasarnya terdiri dari beberapa model kecil. Siapa tahu Meta akan segera merilis sesuatu yang serupa untuk Google dan Microsoft. perusahaan itu bicarakan Pentingnya sistem multimedia Sejak Maret tahun lalu.

Makan tumbuhan dan hewanDan FlavaDan cm3Dan Data2vec, adalah kreasi dari Meta. Setiap model menggunakan pendekatan multimedia untuk menyelesaikan berbagai tugas seperti ucapan, penglihatan, teks, dan bahkan 3D. Perusahaan mengatakan, “Hasil kami dari Omnivora, FLAVA, dan CM3 menunjukkan bahwa, dalam waktu dekat, kami mungkin dapat melatih satu model AI yang menyelesaikan tugas-tugas menantang di semua metode.”

DeepMind juga berada di depan permainan. Gatokebijakan publik multimodal, multitasking, dan perwujudan yang dirilis pada November 2022. Sistem ini mencakup lengan robot sungguhan yang, berdasarkan masukan, memutuskan untuk melakukan keluaran dalam tugas teks, penglihatan, dan robotika.

Model bahasa menjadi lebih kecil tetapi lebih baik

LLM telah merevolusi bidang kecerdasan buatan tetapi entah bagaimana itu terbatas hanya pada tugas bahasa, khususnya sesuatu seperti chatbots. Saat OpenAI merilis ChatGPT, seluruh internet membicarakannya. Ini akhirnya membuat orang menyadari keterbatasannya juga. Sekarang, perusahaan yang memanfaatkan potensi LLM melangkah lebih jauh dan lebih dalam ke bidang robotika, Mungkin AGI.

Jangan lupakan Tesla. Robot Optimus Elon Musk mungkin sudah dekat, dan kemungkinan berada di sini sekitar waktu yang sama dengan GPT-4. Siapa yang tahu kemampuan Anda? Perusahaan telah beroperasi secara tertutup tetapi potensinya tidak diragukan lagi.

Model bahasa pra-pelatihan skala kecil telah terbukti cukup bila diterapkan dalam kombinasi dengan pendekatan lain. Para peneliti PaLM-E menjelaskan bahwa dengan LLM sebagai pusatnya, mereka dapat memberi robot lebih banyak otonomi dan lebih sedikit pengekangan dibandingkan model sebelumnya.

Microsoft juga baru-baru ini merilis Visual ChatGPT, mengisyaratkan kemungkinan ini. Model menjembatani kesenjangan antara NLP dan pembuatan gambar.

Demikian pula, para peneliti Kosmos-1 menyarankan hal yang sama – LLM dengan bakat untuk kognisi multimodal adalah cara yang harus dilakukan jika kita ingin mereka lebih pintar daripada rata-rata AI. Dengan memperluas indra mereka lebih dari sekadar membaca teks, mereka dapat mulai mendapatkan akal sehat –Anda tahu, bagaimana tidak berjalan ke tembok atau membawa kopi sendiri – poin bonus!

Hal lain untuk ditambahkan. berbicara dengan AIM, Dr.Thomas HartungMenerapkan organel untuk pengembangan menuju kecerdasan umum buatan kedengarannya bukan ide yang buruk, kata profesor di balik perkembangan terbaru dalam kecerdasan organik, dan sebenarnya cukup keren. “Saya tidak suka berspekulasi terlalu banyak tetapi saya dapat memberi tahu Anda bahwa saat ini ada banyak orang menarik yang melakukan beberapa hal gila dan saya pikir akan lebih banyak lagi yang muncul di masa depan.” Mungkin kita akan segera dapat mengintegrasikan masukan emosional dari berbagai model ke dalam AI. Siapa yang kamu kenal?

Terence Hansen

“Incredibly charming gamer. Web guru. TV scholar. Food addict. Avid social media ninja. Pioneer of hardcore music.”

Teknologi besar beralih ke multimedia untuk menarik perhatian

Teknologi besar memimpin jalan

Unduh aplikasi seluler kami

Model bahasa menjadi lebih kecil tetapi lebih baik

Transport for London mengeksplorasi penggunaan teknologi dan data untuk 'mencapai perubahan dalam perilaku penghindar tarif' – PublicTechnology

Para donor di Silicon Valley berperang demi Kamala Harris, Trump, dan diri mereka sendiri

WeRide telah berkembang secara global seiring dengan adopsi kecerdasan buatan oleh industri transportasi

You may have missed

Selena Gomez mengatakan Chappelle Rowan adalah 'penggemar sehari-harinya'

Sumbangan makanan untuk Olimpiade Paris bertujuan untuk membantu mereka yang membutuhkan, berkontribusi terhadap keberlanjutan, dan memberikan contoh

Transport for London mengeksplorasi penggunaan teknologi dan data untuk 'mencapai perubahan dalam perilaku penghindar tarif' – PublicTechnology

Republik Rhode Island mempersiapkan 15 pekerja kesehatan untuk misi kemanusiaan di Gaza

main menu

Pos-pos Terbaru

pages

Teknologi besar memimpin jalan

Unduh aplikasi seluler kami

Model bahasa menjadi lebih kecil tetapi lebih baik

Tinggalkan Balasan Batalkan balasan

More Stories

Transport for London mengeksplorasi penggunaan teknologi dan data untuk 'mencapai perubahan dalam perilaku penghindar tarif' – PublicTechnology

Para donor di Silicon Valley berperang demi Kamala Harris, Trump, dan diri mereka sendiri

WeRide telah berkembang secara global seiring dengan adopsi kecerdasan buatan oleh industri transportasi

You may have missed

Selena Gomez mengatakan Chappelle Rowan adalah 'penggemar sehari-harinya'

Sumbangan makanan untuk Olimpiade Paris bertujuan untuk membantu mereka yang membutuhkan, berkontribusi terhadap keberlanjutan, dan memberikan contoh

Transport for London mengeksplorasi penggunaan teknologi dan data untuk 'mencapai perubahan dalam perilaku penghindar tarif' – PublicTechnology

Republik Rhode Island mempersiapkan 15 pekerja kesehatan untuk misi kemanusiaan di Gaza