Kamis, 13 Mei 2010

Menebak gender orang Indonesia berdasarkan nama depan

Sesuai janji di posting blog beberapa bulan lalu, hari ini saya merilis Locale-ID-GuessGender-FromFirstName. Nama modulnya jadi panjang ya? :-p

Sebab ke depannya, seiring dengan modul pelengkap yang direncanakan, Locale-ID-ParseName-Person, kita juga bisa menebak gender seseorang dari atribut nama lainnya, misalnya dari sapaan (Bapak/Ibu/Bung/Mbak), dari gelar keagamaan (H/Hj), dari pola nama kedaerahan (mis: I Ketut/Ni Ayu), dll.

Rilis pertama ini akurasi dan kelengkapannya belum bisa diandalkan, tapi sudah bisa dicoba-coba. Saya sudah menambahkan sekitar 1000 nama-nama umum dari database klien kantor (soalnya kesulitan mencari database yang lebih bagus, tidak seperti di Amrik yang bisa mengambil data dari biro sensus di sana). Algoritma heuristik (sangat) sederhana juga sudah ditambahkan, beserta dengan algoritma untuk mencari dari Google.

Ada yang punya waktu luang membuat skrip CGI sederhana, atau aplikasi Facebook, untuk interface web modul ini? Sekalian mengumpulkan lebih banyak data dan koreksi. Saya sih pengen aja, cuma males :p

4 komentar:

  1. Belum di coba, ntar kalo udah ada waktu akan di coba.

    Kalo FromLastName kayaknya bisa lebih akurat, misalkan jika nama "Deni" kemungkinan besar adalah pria, tapi kalo "Deni Mulyani" tentu saja wanita.

    BalasHapus
  2. Komentar ini telah dihapus oleh administrator blog.

    BalasHapus
  3. @zak: Tapi di kultur tertentu (Jawa dan Sunda misalnya, setidaknya), nama belakang mungkin bisa juga membantu memecah ambiguitas _jika_ nama depannya ambigu. Di luar kasus itu, gw gak yakin nama belakang akurat memberi indikasi gender.

    BalasHapus
  4. Saya baru sadar kalo memang ada yang namanya "Tina Zakaria" :=)

    dan memang bener kalo nama belakang orang Indonesia tidak mencerminkan gender.

    tapi mendingan saya cobain dulu modulnya.

    BalasHapus

Catatan: Hanya anggota dari blog ini yang dapat mengirim komentar.