Ini peningkatan besar dari pendahulunya

Kami berkesempatan untuk berbicara dengan John Poole, pendiri Primate Labs, yang merupakan perusahaan di balik alat pembandingan Geekbench yang populer. Kami berbicara tentang Geekbench 6, versi terbaru dari perangkat lunak yang baru saja diumumkan. Poole menjelaskan apa yang membuatnya berbeda dari pendahulunya dan apakah nilainya sebanding dengan versi sebelumnya.

Dia juga berbagi detail tentang mengapa dia membuat Geekbench, masalah yang dia lihat di alat pembandingan lain yang dia gunakan di masa lalu, dan banyak lagi. Anda dapat membaca ikhtisar singkat wawancara di bawah ini atau melihat semuanya dalam video di atas.

T: Bagaimana Anda mendapatkan ide untuk Geekbench, dan masalah apa yang ingin Anda selesaikan dengannya?

A: Semuanya dimulai pada tahun 2003 ketika saya beralih dari PC ke Mac dengan sistem G5, yang merupakan komputer 64-bit pertama. Saya menjalankan banyak tes dan menemukan bahwa itu tidak jauh lebih cepat. Saya agak bingung, jadi saya mengunduh beberapa tolok ukur Mac populer yang tersedia saat itu untuk melihat apakah ada masalah dengan sistem saya.

Tolok ukur mengatakan bahwa G5 lebih cepat dan setara dengan semua G5 lain di luar sana, yang menurut saya aneh. Jadi saya memutuskan untuk merekayasa balik salah satu tolok ukur populer dan menemukan bahwa pengujiannya sangat kecil dan sintetik. Mereka melakukan tugas-tugas yang sangat sederhana yang bukan ukuran yang baik untuk keseluruhan kinerja. Mereka hanya fokus pada seberapa cepat prosesor Anda bekerja dan tidak memperhitungkan hal lain seperti memori, misalnya.

Saya kemudian memutuskan untuk menulis tes saya sendiri dan melihat apa yang akan terjadi. Itu adalah proyek sampingan saya yang saya kerjakan selama sekitar tiga tahun. Kemudian, pada tahun 2016, Geekbench versi pertama dirilis sebagai unduhan gratis.

Kami mendapat banyak umpan balik yang bagus dari orang-orang pada saat itu, yang membantu kami berkembang menjadi bisnis seperti sekarang ini, memberikan tolok ukur bagi jutaan pengguna setiap bulan.

T: Bagaimana perkembangan perusahaan sejak rilis pertama Geekbench? Anda mungkin tidak mengerjakan perangkat lunak sendirian lagi?

Robert Triggs / Otoritas Android

A: Kami sekarang memiliki tim kecil tapi kuat di sini di Kanada, dan kami terutama bekerja dari jarak jauh, terutama setelah pandemi. Seluruh tim berlokasi di Ontario, dengan kebanyakan orang berasal dari Toronto.

Kami memiliki orang-orang yang bekerja dalam berbagai peran yang berbeda, dengan beberapa mengerjakan tolok ukur itu sendiri, sementara yang lain lebih fokus pada beban kerja AI yang sedang kami kerjakan. Lalu ada orang yang mengerjakan ilmu data, menganalisis hasil untuk memastikan kami memiliki ketelitian statistik yang baik, dan kemudian ada saya — wajah cantik perusahaan.

T: Anda menyebutkan bahwa masalah terbesar dengan alat pembandingan lain adalah alat pembandingan kecil dan sintetis, sehingga alat tersebut tidak mensimulasikan penggunaan di dunia nyata. Bagaimana tepatnya Geekbench 6 berbeda dan lebih baik?

Geekbench 6 menampilkan informasi perangkat di macOS

A: Kami memiliki 15 beban kerja terpisah di Geekbench 6 yang kami gunakan untuk mengukur kinerja CPU. Kami telah mencoba mengambil berbagai tugas berbeda yang mencerminkan menurut kami orang-orang menggunakan komputer dan ponsel cerdas mereka, hari demi hari. Jadi kami benar-benar mencoba mempersempit apa yang akan dilakukan orang dengan perangkat mereka.

Kami berfokus pada hal-hal seperti kompresi, yang penting karena saat Anda mengunduh aplikasi di ponsel cerdas, Android akan membongkar dan menginstalnya. Kami memiliki tes HTML karena orang menghabiskan banyak waktu di browser, jadi ini adalah metrik yang penting untuk ditangkap.

Kami sekarang memiliki beban kerja pengaburan latar belakang, yang tidak relevan tiga atau empat tahun lalu.

Ada konferensi video yang mendapatkan daya tarik selama pandemi. Kami memiliki beban kerja pengaburan latar belakang, yaitu ketika wajah Anda terlihat tetapi latar belakang diburamkan sehingga orang tidak melihat kamar tidur Anda, misalnya. Beban kerja itu tidak terlalu relevan tiga atau empat tahun lalu, tetapi menjadi penting karena pandemi.

Kami benar-benar mencoba untuk melihat hal-hal yang intensif CPU dan benar-benar penting untuk perangkat setiap hari sehingga kami tidak hanya menjalankan tugas kecil dan sederhana. Ini penting karena kami tidak ingin Geekbench ada dalam ruang hampa. Kami tidak ingin ini menjadi tolok ukur yang hanya memberi tahu Anda bahwa prosesor ini lebih baik atau lebih buruk. Kami ingin ini mewakili apa yang sebenarnya dilakukan orang dengan perangkat mereka sehingga mereka dapat membuat keputusan apakah sudah waktunya untuk meningkatkan.

T: Anda menyebutkan bahwa Anda sedang mengerjakan pembandingan AI. Bisakah Anda memberi tahu kami lebih banyak tentang itu?

Robert Triggs / Otoritas Android

A: Kami memiliki tolok ukur ML (pembelajaran mesin) di Geekbench 5, dan sekarang kami memiliki tolok ukur ML baru di Geekbench 6. Seperti yang telah saya sebutkan, kami memiliki beban kerja pengaburan latar belakang yang meniru apa yang dilakukan Zoom, di mana kami menyegmentasikan gambar dan mengatakan bagian gambar ini adalah latar depan, jadi buramkan, dan bagian ini adalah latar belakang, jadi jangan diburamkan.

Kami juga memiliki beberapa beban kerja lainnya, termasuk beban kerja perpustakaan foto yang melewati beberapa langkah yang mungkin Anda miliki saat mengimpor foto ke perpustakaan. Aplikasi seperti Foto Google, misalnya, akan menggunakan ML untuk memberi tag pada gambar Anda, memudahkan Anda menemukan foto bayi atau kucing Anda nanti saat Anda menelusurinya.

Kami juga memiliki tolok ukur terpisah yang kami rilis pada tahun 2020 yang masih dalam proses. Kami melihat performa ML di berbagai macam beban kerja dan menggunakan model dan aplikasi tradisional seperti pengenalan gambar, deteksi objek, deteksi wajah, dan terjemahan di perangkat. Kami menjalankan ini tidak hanya pada CPU, tetapi juga pada GPU dan NPU untuk melihat kinerjanya.

Dan karena banyak NPU dan kerangka kerja ML modern membuat pertukaran untuk kinerja versus akurasi, kami juga mencoba menangkapnya sebagai metrik. Tapi itu berfokus pada laser pada ML dan tidak memiliki penerapan yang sama dengan paket Geekbench.

T: Bisakah Anda memberi tahu kami lebih banyak tentang Geekbench 6?

Robert Triggs / Otoritas Android

A: Geekbench 6 adalah evolusi dari Geekbench sebagai benchmark dunia nyata yang mengukur kinerja CPU dan GPU dalam beberapa versi terakhir, untuk hal-hal tertentu seperti web browser, aplikasi foto, dan filter untuk media sosial. Jadi hal-hal yang dilakukan orang setiap hari.

Dengan Geekbench 6, kami telah mencoba untuk lebih meningkatkan relevansi tolok ukur dunia nyata dengan hal-hal seperti pengaburan latar belakang, yang telah saya sebutkan. Kami juga mencoba mencari tahu bagaimana orang menggunakan ML untuk mengatur kehidupan mereka dengan cara tertentu, itulah sebabnya kami membuat beban kerja pustaka foto yang juga sudah saya sebutkan.

Membuat kumpulan data lebih besar dan beban kerja lebih relevan dan realistis adalah dorongan besar dengan Geekbench 6.

Kami juga meningkatkan kumpulan data yang kami gunakan untuk beberapa beban kerja lainnya. Jadi beban kerja yang sudah ada di Geekbench 5 tetapi sekarang sedang mengerjakan kumpulan data yang lebih besar di Geekbench 6. Contoh nyata dari hal ini adalah dengan perangkat seluler. Ada perbedaan antara sensor kamera yang dimiliki ponsel pada tahun 2019 saat Geekbench 5 keluar dan sensor yang dimiliki ponsel saat ini saat Anda memiliki ponsel dengan kamera 48MP dan 108MP. Jadi ada ledakan ukuran gambar, dan aplikasi harus menghadapinya. Kami mencoba menjawab pertanyaan seperti, “bagaimana ponsel Anda menangani gambar 48MP yang dihasilkan kamera Anda?” Jadi membuat kumpulan data lebih besar dan beban kerja lebih relevan dan realistis adalah dorongan besar dengan Geekbench 6.

Hal lain yang kami lakukan adalah kami benar-benar mengubah cara kami melakukan threading di Geekbench 6. Di Geekbench 5, kami selalu mengeluarkan skor menjadi skor single-core dan skor multi-core. Di Geekbench 6, kami masih memiliki skor single-core dan multi-core yang sama, tetapi kami benar-benar mengubah cara mendapatkan skor multi-core.

T: Skor dari Geekbench 6 tidak dapat dibandingkan dengan skor dari Geekbench 5 karena merupakan tolok ukur yang sama sekali berbeda. Bagaimana dengan versi seperti Geekbench 5.1 dan 5.2? Apakah skor selalu sebanding?

Robert Triggs / Otoritas Android

A: Di masa lalu, 3.0 tidak sebanding dengan 3.1, dan 4.0 tidak sebanding dengan 4.1. Meskipun kami dapat menangkap banyak masalah sebelum perangkat lunak dirilis, kami melewatkan banyak hal dan mendapatkan umpan balik dari orang-orang setelah perangkat lunak tersebut aktif. Kami kemudian mengambil umpan balik itu dan memperbaiki kesalahan dalam satu atau dua bulan pertama.

Jadi apakah Geekbench 6.0 akan sebanding dengan 6.1 sulit untuk dikatakan saat ini, tetapi versi berikutnya seperti 6.2 dan 6.3 seharusnya sebanding karena kami terutama menambahkan dukungan untuk perangkat keras baru.

Ini hanyalah ikhtisar singkat dari percakapan kami dengan John Poole dari Primate Labs. Jika Anda ingin mempelajari lebih lanjut, lihat video di bagian atas halaman.