Tiada Yang Tahu Bagaimana Untuk Menguji Keselamatan AI Dengan Selamat

(SeaPRwire) – Beth Barnes dan tiga rakan sekerjanya duduk bersila dalam bulatan separuh bulan di padang kampus Universiti California, Berkeley. Mereka menjelaskan usaha mereka untuk menyoal siasat chatbot kecerdasan buatan.

“Mereka sebenarnya seperti kecerdasan asing yang luas,” kata Barnes, 26, yang merupakan pengasas dan CEO Model Evaluation and Threat Research (METR), sebuah pertubuhan keselamatan AI yang bukan untung. “Mereka tahu begitu banyak tentang sama ada perkataan seterusnya adalah ‘is’ berbanding ‘was’. Kami hanya bermain dengan sedikit di permukaan, dan ada semua ini, batu ke batu di bawah,” katanya sambil menggerakkan kemungkinan kedalaman yang sangat besar keupayaan model bahasa besar.

Penyelidik di METR kelihatan seperti pelajar Berkeley-empat di padang itu dalam dua puluhan dan memakai jeans atau seluar trek. Tetapi daripada menghadiri kuliah atau menarik semua malam di perpustakaan, mereka menghabiskan masa mereka menyoal sistem kecerdasan buatan terkini dan paling kuat untuk cuba menentukan sama ada, jika anda meminta dengan betul, mereka boleh melakukan sesuatu yang membahayakan. Semasa mereka menerangkan bagaimana mereka cuba untuk menentukan sama ada generasi semasa chatbot atau seterusnya boleh menyebabkan bencana, mereka mengorek rumput.

Dua syarikat AI terkemuka di dunia-OpenAI dan Anthropic-telah bekerja dengan METR sebagai sebahagian daripada usaha mereka untuk menguji keselamatan model AI mereka. bekerjasama dengan METR sebagai sebahagian daripada usahanya untuk memulakan pengujian keselamatan sistem AI, dan Presiden Barack Obama menyebut METR sebagai pertubuhan masyarakat awam yang bekerja untuk memenuhi cabaran yang dibawa oleh AI dalam ucapannya tentang Presiden Joe Biden.

“Ia terasa seperti kami cuba memahami pengalaman menjadi model bahasa kadang-kadang,” kata Haoxing Du, seorang penyelidik METR, menggambarkan tindakan meletakkan diri dalam kasut chatbot, usaha yang beliau dan rakan sekerjanya merujuk secara sinis sebagai psikologi model.

Dengan tentang bahaya yang mungkin ditimbulkan oleh sistem AI masa hadapan yang kuat semakin kuat, pembuat undang-undang dan eksekutif telah mula bersepakat pada rancangan yang kelihatannya mudah: menguji model AI untuk melihat sama ada mereka memang membahayakan. Tetapi Barnes, bersama banyak penyelidik keselamatan AI, berkata bahawa rancangan ini mungkin bergantung pada ujian keselamatan yang belum wujud.

Bagaimana untuk menguji AI

Pada musim panas 2022, Barnes memutuskan untuk meninggalkan OpenAI, di mana beliau telah menghabiskan tiga tahun sebagai penyelidik bekerja pada pelbagai projek keselamatan dan ramalan. Ini adalah sebahagiannya keputusan pragmatik-beliau merasakan bahawa harus ada pihak ketiga neutral yang membangunkan penilaian AI. Tetapi Barnes juga berkata bahawa beliau adalah salah seorang pekerja OpenAI yang paling terbuka kritikal, dan bahawa beliau merasakan beliau akan lebih selesa dan lebih berkesan mengadvokasi amalan keselamatan dari luar.

Dia mengasaskan METR sendirian pada tahun itu. Pada mulanya dinamakan ARC Evals, di bawah payung pertubuhan keselamatan AI Alignment Research Center (ARC), tetapi dipisahkan pada Disember 2023 untuk menjadi METR. Kini ia mempunyai 20 pekerja, termasuk Barnes.

Walaupun METR adalah satu-satunya organisasi pengujian keselamatan yang pernah bekerjasama dengan syarikat AI terkemuka, terdapat penyelidik di seluruh kerajaan, bukan untung dan dalam industri yang bekerja pada penilaian yang menguji pelbagai bahaya potensi, seperti sama ada model AI boleh membantu melaksanakan serangan siber atau melepaskan senjata biologi. Fokus awal METR adalah menilai sama ada model AI boleh mereplikasi diri, menggunakan kecerdasannya untuk memperoleh wang dan memperoleh lebih banyak sumber pengkomputeran, dan menggunakan sumber-sumber itu untuk membuat lebih banyak salinan dirinya sendiri, akhirnya menyebarkan diri di seluruh internet. Fokusnya kini telah meluas untuk menilai sama ada model AI boleh bertindak secara autonomi, dengan mengemudi internet dan menjalankan tugas-tugas kompleks tanpa pengawasan.

METR memberi tumpuan pada pengujian ini kerana ia memerlukan lebih sedikit kepakaran khusus berbanding, misalnya, pengujian biokeselamatan, dan kerana METR terutamanya bimbang tentang kerosakan yang boleh dilakukan oleh sistem AI jika ia boleh bertindak sepenuhnya bebas dan oleh itu tidak boleh sekadar dimatikan, kata Barnes.

Ancaman yang pertama kali difokuskan oleh METR juga berada di fikiran pegawai kerajaan juga. yang diluluskan oleh Pentadbiran Biden daripada 15 syarikat AI terkemuka termasuk tanggungjawab untuk menguji model baharu untuk keupayaan untuk “membuat salinan diri mereka atau ‘mereplikasi diri’.”

Jika seseorang meminta AI terkini, seperti Google DeepMind’s Gemini atau OpenAI’s GPT-4, bagaimana ia akan menyebarkan salinan dirinya di seluruh internet, responsnya akan kabur dan kurang bersemangat, walaupun jika perlindungan keselamatan yang biasanya mencegah sistem AI menanggapi rangsangan yang meragukan telah diketepikan. Barnes dan pasukannya percaya bahawa tiada apa-apa yang terdapat di pasaran hari ini mampu mereplikasi diri, tetapi mereka tidak fikir ini akan berterusan. “Ia kelihatan agak sukar untuk yakin bahawa ia tidak akan berlaku dalam lima tahun,” kata Barnes.

METR mahu dapat mengesan sama ada AI mula mengambil keupayaan untuk mereplikasi diri dan bertindak secara autonomi jauh sebelum ia benar-benar boleh berbuat demikian. Untuk mencapai ini, penyelidik cuba memberikan model sebanyak kelebihan yang mungkin. Ini termasuk cuba mencari rangsangan yang menghasilkan prestasi terbaik, memberikan AI alat-alat yang akan membantu dalam tugas mereplikasi diri, dan memberikan latihan lanjut pada tugas-tugas yang perlu dilaksanakan untuk mereplikasi diri, seperti mencari melalui bilangan besar fail untuk maklumat yang relevan. Walaupun dengan semua kelebihan yang boleh diberikan oleh METR, model AI terkini memberikan keyakinan yang menenangkan tentang tugas ini.

Jika AI yang dipersenjatai dengan semua kelebihan ini masih jauh dari mereplikasi diri dan tindakan autonomi berdasarkan ujian METR, METR agak yakin model tidak akan mampu menjaga dirinya sebaik dibebaskan ke dunia-dan ia tidak akan walaupun jika dibuat sedikit lebih kuat. Walau bagaimanapun, model menjadi semakin berupaya, METR cenderung menjadi kurang pasti tentang penilaian mereka, kata Barnes.

Sokongan penilaian

Berucap di Rumah Putih sebelum menandatangani pentadbirannya pada bulan Oktober, Presiden Biden bahawa syarikat-syarikat perlu “memberitahu kerajaan tentang sistem AI berskala besar yang sedang dibangunkan dan berkongsi keputusan ujian bebas yang ketat untuk membuktikan mereka tidak membahayakan keselamatan negara atau keselamatan rakyat Amerika.” Biden menugaskan Institut Piawaian Kebangsaan (NIST) untuk menetapkan garis panduan untuk menguji sistem AI untuk memastikan mereka selamat. Sekali garis panduan telah ditulis, syarikat perlu melaporkan keputusan ujian mereka kepada kerajaan. Begitu juga, Akta AI EU memerlukan syarikat yang mencipta sistem AI yang sangat kuat untuk menguji keselamatan mereka.

Deklarasi Bletchley, yang ditandatangani oleh 29 negara termasuk AS dan China di pada bulan November, menyatakan bahawa pemain yang membangunkan sistem AI paling kuat mempunyai tanggungjawab untuk memastikan sistem mereka selamat “melalui sistem untuk pengujian keselamatan, melalui penilaian, dan dengan cara-cara yang sesuai lain.”

Bukan hanya kerajaan yang bersemangat tentang idea pengujian keselamatan. Kedua-dua dan telah menerbitkan rancangan terperinci untuk pembangunan AI masa depan, yang melibatkan mengesahkan sistem mereka selamat sebelum melaksanakan atau membina sistem yang lebih kuat.

Ujian keselamatan, maka, dijangka memainkan peranan penting dalam strategi pembangunan AI selamat kedua-dua syarikat dan kerajaan. Tetapi tiada yang terlibat dalam pembangunan penilaian ini mendakwa mereka tidak berlaku. “Penilaian belum siap,” kata Chris Painter, pengarah dasar METR. “Terdapat soalan pelaksanaan sebenar dan bahan tentang sama ada ujian akan siap dengan kesetiaan yang diperlukan dalam tahun akan datang. Dan kemajuan AI akan terus berlangsung dalam tahun akan datang.”

Artikel ini disediakan oleh pembekal kandungan pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberi sebarang waranti atau perwakilan berkaitan dengannya.

Sektor: Top Story, Berita Harian

SeaPRwire menyampaikan edaran siaran akhbar secara masa nyata untuk syarikat dan institusi, mencapai lebih daripada 6,500 kedai media, 86,000 penyunting dan wartawan, dan 3.5 juta desktop profesional di seluruh 90 negara. SeaPRwire menyokong pengedaran siaran akhbar dalam bahasa Inggeris, Korea, Jepun, Arab, Cina Ringkas, Cina Tradisional, Vietnam, Thai, Indonesia, Melayu, Jerman, Rusia, Perancis, Sepanyol, Portugis dan bahasa-bahasa lain.