Google baru-baru ini mengungkapkan makalah analisis tentang algoritma terbaru mereka yang dikenal sebagai SMITH (Siamese Multi-depth Transformer-based Hierarchical) yang diklaim mengungguli BERT untuk memahami kueri yang panjang dan dokumen yang panjang. Secara khusus, apa yang membuat model baru ini lebih tinggi adalah bahwa ia mampu memahami bagian-bagian di dalam dokumen dengan cara yang identik BERT memahami frasa dan kalimat, yang memungkinkan algoritma untuk mengetahui dokumen lebih lama.
Apakah Google Memanfaatkan Algoritma SMITH?
Google biasanya tidak mengatakan algoritma tertentu yang digunakannya. Meskipun para peneliti mengatakan bahwa algoritma ini mengungguli BERT, sampai Google secara resmi menyatakan bahwa algoritma SMITH digunakan untuk mengetahui bagian-bagian di dalam halaman web, itu murni spekulatif untuk mengatakan apakah itu sedang digunakan atau tidak.
Apa itu Algoritma SMITH?
SMITH adalah algoritma google model baru untuk mencoba mengetahui dokumen lengkap. Mode yang menyerupai BERT dilatih untuk mengetahui frasa di dalam konteks kalimat.
Dalam deskripsi yang sangat sederhana, model SMITH dilatih untuk mengetahui bagian-bagian di dalam konteks keseluruhan dokumen.
Algoritme seperti BERT dilatih pada unit pengetahuan untuk meramalkan frasa yang tersembunyi secara acak berasal dari konteks di dalam kalimat, algoritma SMITH dilatih untuk meramalkan apa blok kalimat berikutnya.
Jenis pembinaan ini membantu algoritme melihat dokumen yang lebih besar lebih tinggi daripada algoritma BERT, sejalan dengan peneliti.
Algoritma BERT Memiliki Batasan
Sejalan dengan peneliti, algoritma BERT dibatasi untuk memahami dokumen singkat. Untuk cukup banyak penyebab yang didefinisikan dalam makalah analisis, BERT tidak sesuai untuk memahami dokumen bentuk panjang.
Sehingga para peneliti menyarankan algoritma baru mereka yang menurut mereka mengungguli BERT dengan dokumen yang lebih panjang.
BACA JUGA : Apa itu BERT Algoritma Pembaruan Pencarian Google, Yuk Simak!
Mengapa dokumen yang panjang itu sulit:
Pencocokan semantik antara teks yang panjang adalah pekerjaan yang lebih sulit karena beberapa penyebab:
1) Jika setiap teks panjang, mencocokkannya membutuhkan pemahaman yang ekstra menyeluruh tentang hubungan semantik bersama dengan mencocokkan sampel antara fragmen konten tekstual dengan jarak yang jauh;
2) Dokumen yang panjang mencakup konstruksi bagian dalam seperti bagian, bagian, dan kalimat. Bagi pembaca manusia, konstruksi dokumen sering kali menjalankan fungsi kunci untuk pemahaman konten. Dengan cara yang sama, sebuah model juga harus mempertimbangkan data konstruksi dokumen untuk efisiensi pencocokan dokumen yang lebih tinggi;
3) Pemrosesan teks yang panjang lebih cenderung memicu hal-hal yang masuk akal seperti keluar dari memori TPU / GPU tanpa desain model yang cermat.
Teks Input Lebih Besar
BERT terbatas pada seberapa panjang dokumennya. SMITH, seperti yang akan Anda catat lebih banyak, berkinerja lebih tinggi semakin lama dokumen tersebut.
Kebenaran SMITH ini dengan kemampuan untuk melakukan satu hal yang BERT tidak dapat lakukan adalah apa yang membuat model SMITH menarik.
Model SMITH tidak menukar BERT.
Model diet SMITH melengkapi BERT dengan melakukan angkat berat yang tidak dapat dilakukan BERT.
Algoritma BERT Memiliki Batasan
Sejalan dengan peneliti, algoritma BERT dibatasi untuk memahami dokumen singkat. Untuk cukup banyak penyebab yang didefinisikan dalam makalah analisis, BERT tidak sesuai untuk memahami dokumen bentuk panjang.
Para peneliti menyarankan algoritma baru mereka yang menurut mereka mengungguli BERT dengan dokumen yang lebih panjang.
Mengapa dokumen yang panjang itu sulit:
Pencocokan semantik antara teks yang panjang adalah pekerjaan yang lebih sulit karena beberapa penyebab:
1) Jika setiap teks panjang, mencocokkannya membutuhkan pemahaman yang ekstra menyeluruh tentang hubungan semantik bersama dengan mencocokkan sampel antara fragmen konten tekstual dengan jarak yang jauh;
2) Dokumen yang panjang mencakup konstruksi bagian dalam seperti bagian, bagian, dan kalimat. Bagi pembaca manusia, konstruksi dokumen sering kali menjalankan fungsi kunci untuk pemahaman konten. Dengan cara yang sama, sebuah model juga harus mempertimbangkan data konstruksi dokumen untuk efisiensi pencocokan dokumen yang lebih tinggi;
3) Pemrosesan teks yang panjang lebih cenderung memicu hal-hal yang masuk akal seperti keluar dari memori TPU / GPU tanpa desain model yang cermat.
Teks Input Lebih Besar
BERT terbatas pada seberapa panjang dokumennya. SMITH, seperti yang akan Anda catat lebih banyak, berkinerja lebih tinggi semakin lama dokumen tersebut.
Kebenaran SMITH ini dengan kemampuan untuk melakukan satu hal yang BERT tidak dapat lakukan adalah yang membuat model SMITH menarik.
Model SMITH tidak menukar BERT.
Model diet SMITH melengkapi BERT dengan melakukan angkat berat yang tidak dapat dilakukan BERT.
Pencocokan Panjang ke Panjang
Jika saya memahami makalah analisis secara akurat, makalah analisis menyatakan bahwa masalah pencocokan kueri yang panjang dengan konten yang panjang belum dieksplorasi secara memadai.
Menurut para peneliti:
“Sepengetahuan kami, pencocokan semantik antara pasangan dokumen panjang, yang memiliki banyak aplikasi penting seperti rekomendasi berita, rekomendasi artikel terkait, dan pengelompokan dokumen, kurang dieksplorasi dan membutuhkan lebih banyak upaya penelitian.”
Kemudian dalam dokumen tersebut, mereka menyatakan bahwa telah ada beberapa penelitian yang mendekati apa yang mereka teliti.
Namun secara umum, tampaknya ada celah dalam meneliti metode untuk mencocokkan kueri yang panjang dengan dokumen yang panjang. Itulah masalah yang para peneliti perbaiki dengan algoritma SMITH.
Detail SMITH Google
Dokumen tersebut menjelaskan bahwa mereka menggunakan model pra-pelatihan yang sangat mirip dengan BERT dan banyak algoritma yang berbeda.
Pertama, sedikit info latar belakang agar dokumen lebih masuk akal.
Pra-pelatihan Algoritma
Pra-pelatihan adalah tempat algoritma dilatih pada kumpulan informasi. Untuk pra-pelatihan tipikal dari algoritma semacam itu, para insinyur akan menutupi (menyembunyikan) frase acak di dalam kalimat. Algoritma mencoba meramalkan frasa bertopeng.
Misalnya, jika sebuah kalimat ditulis sebagai, “McDonald Lama memiliki ____,” algoritma saat benar-benar terlatih dapat memprediksi, “pertanian” adalah frasa yang kurang.
Karena algoritma belajar, itu pasti akan dioptimalkan untuk membuat lebih sedikit kesalahan pada pengetahuan pembinaan.
Pra-pelatihan dilakukan dengan tujuan melatih mesin agar benar dan membuat kesalahan yang jauh lebih sedikit.
Terinspirasi oleh keberhasilan metode pra-pelatihan model bahasa baru-baru ini seperti BERT, SMITH juga mengadopsi paradigma “pra-pelatihan + fine-tuning tanpa pengawasan” untuk pembinaan model.
Untuk pra-pelatihan model Smith, kami menyarankan pekerjaan pemodelan bahasa blok kalimat bertopeng bersama dengan pekerjaan pemodelan bahasa frase bertopeng unik yang digunakan dalam BERT untuk input konten tekstual yang panjang.
Di sinilah tempat peneliti mengklarifikasi bagian penting dari algoritma, bagaimana hubungan antara blok kalimat dalam dokumen digunakan untuk memahami apa dokumen itu melalui kursus pra-pelatihan.
Ketika teks masukan menjadi panjang, baik hubungan antara kata-kata dalam blok kalimat dan hubungan antar blok kalimat dalam dokumen menjadi penting untuk pemahaman konten.
Oleh karena itu, kami menutupi kata-kata yang dipilih secara acak dan blok kalimat selama pra-pelatihan model.
Para peneliti kemudian menjelaskan dalam elemen tambahan bagaimana algoritma ini melampaui dan melewati algoritma BERT.
Apa yang mereka lakukan adalah meningkatkan pelatihan untuk melampaui pelatihan frase untuk menangani blok kalimat.
Berikut penjelasannya dalam dokumen analisis:
Selain tugas prediksi kata bertopeng di BERT, kami mengusulkan tugas prediksi blok kalimat bertopeng untuk mempelajari hubungan antara blok kalimat yang berbeda.
Algoritma SMITH dilatih untuk meramalkan blok kalimat. Perasaan pribadi saya tentang itu adalah… itu cukup keren.
Algoritma ini mempelajari hubungan antara frase setelah itu leveling sebanyak yang diajarkan konteks blok kalimat dan cara mereka berhubungan satu sama lain dalam dokumen yang diperpanjang.
Hasil Pengujian SMITH
Para peneliti terkenal bahwa SMITH bekerja lebih tinggi dengan dokumen teks yang lebih panjang.
Model SMITH yang menikmati panjang teks input yang lebih panjang dibandingkan dengan model perhatian mandiri standar lainnya adalah pilihan yang lebih baik untuk pembelajaran dan pencocokan representasi dokumen yang panjang.
Dalam jangka panjang, para peneliti menyimpulkan bahwa algoritma SMITH lebih tinggi dari BERT untuk dokumen yang panjang.
Mengapa Makalah Penelitian SMITH Penting
Salah satu dari banyak alasan saya lebih suka mempelajari makalah analisis daripada paten adalah bahwa makalah analisis berbagi rincian tentang apakah model yang diusulkan lebih tinggi dari mode terkini dan mutakhir.
Banyak makalah analisis menyimpulkan dengan mengatakan bahwa pekerjaan ekstra harus dilakukan. Bagi saya, itu menandakan bahwa percobaan algoritma cukup menjanjikan namun pastinya tidak dapat dilakukan langsung ke dalam suasana yang hidup.
Bagian yang lebih kecil dari makalah analisis mengatakan bahwa hasilnya mengungguli state-of-the-art. Ini adalah makalah analisis yang menurut saya bermanfaat untuk didengarkan karena mereka mungkin dimasukkan ke dalam algoritma Google.
SMITH Mengungguli BERT untuk Dokumen Tipe Panjang
Sejalan dengan kesimpulan yang dicapai dalam makalah analisis, model SMITH mengungguli banyak mode, bersama dengan BERT, untuk memahami konten yang panjang.
Hasil eksperimental pada beberapa kumpulan data patokan menunjukkan bahwa model SMITH yang kami usulkan mengungguli mode pencocokan negara-of-the-art Siam sebelumnya bersama dengan HAN, SMASH, dan BERT untuk pencocokan dokumen bentuk panjang.
Apakah SMITH Digunakan?
Seperti yang ditulis sebelumnya, hingga Google secara eksplisit menyatakan bahwa mereka menggunakan SMITH, tidak ada opsi untuk secara tepat mengatakan bahwa model SMITH sedang digunakan di Google.
Makalah analisis yang disebutkan yang tidak diragukan lagi digunakan adalah mereka yang secara eksplisit menyatakan bahwa temuan adalah langkah utama menuju bentuk algoritma baru dan analisis tambahan itu wajib.
Ini tidak terjadi dengan makalah analisis ini. Penulis makalah analisis dengan yakin menyatakan bahwa SMITH mengalahkan state-of-the-art untuk memahami konten bentuk panjang.
Keyakinan dalam hasil dan kurangnya pengumuman bahwa analisis ekstra diperlukan membuat makalah ini lebih menarik perhatian daripada yang lain dan karena fakta ini nilai yang tepat untuk mencari tahu jika itu akan dimasukkan ke dalam algoritma Google suatu hari nanti atau dalam waktu dekat. Sekarang.