Lompat ke konten

Teknologi Pengenalan Suara Dapat Menangkap Para Koruptor Yang Senang Di Suap

TERDAKWA Urip Tri Gunawan masih mencoba bersiasat di Pengadilan Tindak Pidana Korupsi, Kamis dua pekan lalu. ”Itu kata-kata Artalyta (Suryani),” ujarnya tentang percakapannya di telepon yang menyebut kata Singapura.

Tapi Urip sedang berhadapan dengan teknologi terbaik dalam forensik suara. Dengan tenang, saksi ahli kasus ini, pakar akustik Institut Teknologi Bandung, Joko Sarwono, memutar rekaman pembicaraan terdakwa kasus korupsi Bantuan Likuiditas Bank Indonesia itu dengan Artalyta.

Belum usai rekaman diputarkan, Urip ”melempar handuk”. ”Saya kira sudah cukup, Yang Mulia,” katanya.

Inilah pertama kalinya metode akustik dipakai untuk mendukung alat bukti di pengadilan Indonesia. Bukti hukum tersebut, itu tadi, sadapan percakapan telepon Urip dan Artalyta.

Jaksa sebenarnya sudah mengantongi call detail record (CDR) dari telepon kedua tersangka. Namun penyidik perlu membuktikan suara di telepon tersebut milik Urip dan Artalyta. Apalagi, ada percakapan telepon di antara keduanya yang dilakukan tanpa menyebut nama dan kasusnya. Pada percakapan 10 Juni, misalnya, Artalyta memanggil Urip sebagai Pak Guru, sedangkan Urip memanggil Artalyta—kini sudah divonis 5 tahun penjara—Bu Guru.

Pemanfaatan teknik forensik suara ini merupakan langkah penting dalam pengadilan di Indonesia. Memang, Undang-Undang tentang Informasi dan Transaksi Elektronik menyatakan informasi elektronik—termasuk suara hasil penyadapan—merupakan alat bukti hukum yang sah. Yang jadi soal, tanpa metode pembuktian yang sahih, fakta hukum ini gampang disanggah.

Komisi Pemberantasan Korupsi-lah yang berinisiatif memakai teknik forensik untuk menunjukkan suara di telepon itu milik Urip dan Artalyta. Komisi ini meminta para ahli akustik Institut Teknologi Bandung turun tangan. Akhirnya, ditunjuklah Joko Sarwono dan rekan-rekannya di Grup Riset Teknik Fisika.

Untuk memastikan suara di telepon itu milik Urip, Joko dan sejawatnya membandingkan suara tersebut dengan suara yang sudah diketahui sebagai suara dia. Suara pembanding ini di antaranya rekaman suara Urip saat ia diperiksa tim penyidik.

Sebenarnya ada dua metode yang bisa dipakai untuk menentukan jati diri pemilik suara di telepon: metode subyektif dan obyektif. Pada metode subyektif, penilaian dilakukan oleh sejumlah responden. Dalam hal ini, responden bertugas menilai kemiripan suara di telepon dengan suara pembanding. ”Kami menghindari penilaian subyektif ini,” kata Joko.

Soalnya, metode ini bisa memunculkan perdebatan. Teknik ini ibarat memeriksa buah mangga yang masak. Secara subyektif, mangga bisa dipilih dengan mengamati warna kulitnya. ”Namun rasa mangga itu belum tentu sama,” ujar Joko.

Ini bukan berarti metode tersebut tak bisa dipakai. Jepang dan beberapa negara di Eropa biasa memakai penilaian subyektif ini dalam forensik suara. ”Di sana cara itu amat mungkin dilakukan karena sudah ada bank data suara yang memadai,” ujarnya. Memang, akurasi metode ini bergantung pada jumlah sampel suara yang tersedia.

Menyadari kelemahan metode subyektif, Joko memilih metode obyektif yang disebut source filter model untuk memastikan suara Urip di telepon itu. Ini metode pemeriksaan suara yang menggabungkan hasil pengamatan atas produksi suara dan persepsinya.

Mula-mula, Joko dan timnya mengumpulkan kata-kata Urip yang bisa dibandingkan dengan suara di telepon yang akan diperiksa. ”Proses ini yang paling makan waktu. Basis pembandingnya adalah kutipan kata yang sama,” ujar Joko.

Misalnya, kata ”saya” tidak akan masuk data penelitian jika hanya terucap sekali. Tapi, kalau misalnya terucap 10 kali, kata itu menjadi calon untuk pembanding. Setelah Joko dan kawan-kawannya bekerja beberapa pekan, terkumpullah 15 kata yang bisa dibandingkan. Di antaranya ”ya, saya, telepon, Singapura, teman, di mana, mobil, pernah”.

Dengan peranti lunak khusus, kata-kata itu dianalisis di komputer. Nama peranti lunaknya Praat, buatan kelompok riset linguistik Belanda, yang bisa diunduh gratis di www.praat.org. Meski gratis, peranti ini canggih. Menurut Joko, Praat bisa menganalisis secara akurat karakter suara, gaya bicara, baik asli maupun setelah ”tersaring”, serta spektrum dan intensitas suara obyek yang dipindai. ”Semua kalkulasi itu berjalan otomatis,” ujar Joko.

Namun, maaf, prosesnya tak sesederhana seperti yang terlihat di film-film—berupa perbandingan kurva-kurva suara di layar komputer. Voice print—nama untuk kurva-kurva itu—hanya salah satu parameter dalam metode ini. ”Kita harus melihat lebih ke dalam, sampai ke karakteristik apa saja yang terkandung di dalam suara itu,” ujarnya.

Hasil analisis atas suara di telepon itu sudah kelar. Joko telah mengajukannya di Pengadilan Tindak Pidana Korupsi pada Kamis dua pekan lalu itu. ”Identik 93 persen dengan suara Urip,” ujar Joko. Ke mana tujuh persennya?

Itu pula yang dipersoalkan Urip di persidangan itu. Namun sanggahan Urip lagi-lagi membentur tembok.

Pada metode ini, dua suara sudah disebut identik jika tingkat kesesuaiannya di atas 90 persen. Ini akibat suara yang gampang sekali berubah-ubah, tergantung kondisi saat suara direkam. Pada kasus Urip, misalnya, suara yang dianalisis adalah suara di telepon, sedangkan pembandingnya rekaman suara dalam ruangan. Bahkan suara sudah bisa berubah cuma oleh serangan flu. ”Dengan memperhatikan faktor-faktor itu, tentu saja akurasi mendekati 100 persen sulit diperoleh,” kata Joko kepada Tempo (lihat infografis).

Joko mengakui penilaian dalam analisis suara itu baru mengacu pada kesepakatan-kesepakatan di antara para ahli yang menjadi sejawatnya. Padahal, di Eropa, Jepang, Australia, dan Amerika Serikat, penilaian untuk metode itu sudah baku, mengacu pada standar yang dikeluarkan asosiasi forensik suara. Asosiasi ini menginduk pada International Association of Forensic Linguists.

Tapi, tenang saja, teknik forensik atas suara Urip-Artalyta tetap sahih. ”Kami mengacu pada standar operasi yang sudah berlaku di Amerika,” kata Joko. Selain itu, penilaian diperoleh dengan metode obyektif, ”Sehingga bisa dipertanggungjawabkan secara akademik,” ujarnya.


Sulit memperoleh 100 persen tingkat kecocokan suara. Ada beberapa faktor yang mempengaruhi efisiensi metode ini:

  • Konteks obyek yang berbicara tidak bisa diulang.
  • Media bicaranya kadang berbeda. Misalnya satu melalui jalur telepon, sementara dalam pembuatan data kebanyakan direkam di ruangan.
  • Kondisi emosional obyek yang berbicara.
  • Kondisi fisik.
  • Obyek yang berbicara secara sadar mengubah suaranya.Artalyta: Pak Guru. Urip: Iya, Ibu Guru. Artalyta: Jadi gini, ya. Prinsipnya besok itu sesuai keterangan beliau-beliau sama yang itu. Kemarin kan beliau sudah membantu Anda itu. Dia menyatakan, ”Pokoknya dari awal enggak ada indikasi.”
  • Diambil 15 kata sebagai sampel melalui responden dengan random terukur, di antaranya ”ya, saya, telepon, Singapura, teman, di mana, mobil, pernah, satu bulan”.
  • Suara dianalisis dengan metode source filter model. Dengan cara ini, bisa dilihat bagaimana suara itu diproduksi sehingga bisa diketahui siapa pemilik suara tersebut.
  • Analisis dilakukan dengan perangkat lunak Praat buatan periset linguistik Belanda. Bisa diperoleh gratis melalui Internet. Perangkat opensource ini berjalan dalam komputer Windows, Linux, atau Mac.Skor
  • >90%: Identik
  • 80-90%: Mungkin identik
  • 50-80%: Belum bisa disimpulkan
  • 0-50%: Tidak identik