Hukum Zipf: fenomena sosial dan matematika yang aneh

Kami menggunakan ribuan kata setiap hari, dengan berbagai arti dan termasuk dalam kategori tata bahasa yang sangat bervariasi. Namun, tidak semuanya digunakan dengan frekuensi yang sama.

Tergantung pada seberapa penting mereka untuk struktur kalimat, beberapa kata lebih berulang daripada yang lain. Hukum Zipf adalah postulat yang memperhitungkan fenomena ini dan menentukan seberapa besar kemungkinan sebuah kata akan digunakan berdasarkan posisinya dalam peringkat jumlah total kata yang digunakan dalam suatu bahasa.

Kami akan membahas lebih detail tentang undang-undang ini di bawah ini.

hukum Zipf

George Kingsley Zipf (1902–1950) adalah seorang ahli bahasa Amerika, lahir di Freeport, Illinois, yang menemukan fenomena aneh dalam studinya tentang filologi komparatif. Dalam karyanya, di mana ia melakukan analisis statistik, ia menemukan bahwa kata-kata yang paling sering digunakan tampaknya memiliki pola penampilan, ini adalah kelahiran hukum yang menerima nama belakangnya.

Menurut hukum Zipf, di sebagian besar waktu, jika tidak selalu, kata-kata yang digunakan dalam teks tertulis atau dalam percakapan lisan akan mengikuti pola berikut: kata yang paling sering digunakan, yang akan menempati posisi pertama dalam peringkat, itu akan dua kali lebih sering digunakan daripada yang kedua paling sering digunakan, tiga kali lebih sering daripada yang ketiga, empat kali lebih sering dari yang keempat, dan seterusnya. Dalam istilah matematika, hukum ini akan menjadi:

Pn 1⁄na Di mana ‘Pn’ adalah frekuensi kata dalam urutan ‘n’ dan eksponen ‘a’ kira-kira 1.

Harus dikatakan bahwa George Zipf bukan satu-satunya yang mengamati keteraturan ini dalam frekuensi kata-kata yang paling banyak digunakan dalam banyak bahasa, baik alami maupun buatan. Bahkan, ada bukti bahwa itu adalah orang lain, seperti ahli steganografi Jean-Baptiste Estoup dan fisikawan Felix Auerbach.

Zipf mempelajari fenomena ini dengan teks-teks dalam bahasa Inggris dan, tampaknya, itu terpenuhi. Jika kita mengambil versi asli Origin of Species karya Charles Darwin (1859) kita melihat bahwa kata yang paling banyak digunakan dalam bab pertama adalah “the”, dengan kemunculan sekitar 1.050, sedangkan yang kedua adalah “and”, muncul sekitar 400 kali, dan yang ketiga adalah “ke”, muncul sekitar 300.

Meskipun tidak persis, Anda dapat melihat bahwa kata kedua muncul setengah dari yang pertama dan yang ketiga sepertiga. Hal yang sama terjadi di Spanyol.

Jika kita mengambil contoh artikel yang sama, kita dapat melihat bahwa kata “dari” digunakan 85 kali, paling banyak digunakan, sedangkan kata “yang”, yang paling banyak digunakan kedua, dapat dihitung hingga 57 kali.. Melihat fenomena ini terjadi pada bahasa lain, menjadi menarik untuk direnungkan bagaimana otak manusia memproses bahasa.

Meskipun ada banyak fenomena budaya yang mengukur penggunaan dan arti dari banyak kata, bahasa yang bersangkutan menjadi faktor budaya itu sendiri, cara kita menggunakan kata-kata yang paling sering digunakan tampaknya menjadi faktor yang tidak bergantung pada budaya. Mungkin Anda tertarik: ” Apa itu Psikologi Budaya? “

Frekuensi kata fungsi

Mari kita lihat sepuluh kata berikut: ‘itu’, ‘dari’, ‘bukan’, ‘kepada’, ‘itu’, ‘itu’, ‘adalah’, ‘dan’, ‘di’ dan ‘itu’. apa kesamaan mereka semua? Yang merupakan kata-kata tanpa makna sendiri tetapi, ironisnya, itu adalah 10 kata yang paling banyak digunakan dalam bahasa Spanyol.

Dengan mengatakan bahwa mereka tidak berarti, kami maksudkan bahwa jika sebuah kalimat dikatakan tidak ada kata benda, kata sifat, kata kerja atau kata keterangan, kalimat itu tidak berarti. Sebagai contoh:

… dan … … pada … … satu … … … di … dari … … Sebaliknya, jika kita mengganti titik-titik dengan kata-kata dengan makna, kita dapat memiliki kalimat seperti berikut.

Miguel dan Ana memiliki meja cokelat di samping tempat tidur mereka di rumah. Kata-kata yang banyak digunakan ini adalah apa yang dikenal sebagai kata fungsi, dan mereka bertanggung jawab untuk memberikan struktur tata bahasa kalimat.

Mereka bukan hanya 10 yang telah kita lihat, sebenarnya ada lusinan, dan semuanya termasuk di antara seratus kata yang paling banyak digunakan dalam bahasa Spanyol. Terlepas dari kenyataan bahwa mereka tidak memiliki makna sendiri, mereka tidak mungkin dihilangkan dalam kalimat apa pun yang ingin Anda beri makna.

Manusia perlu, untuk menyampaikan pesan secara efisien, menggunakan kata-kata yang membentuk struktur kalimat. Untuk alasan ini mereka, anehnya, yang paling banyak digunakan.

Riset

Terlepas dari apa yang diamati George Zipf dalam studinya tentang filsafat komparatif, sampai saat ini relatif belum mungkin untuk mendekati postulat hukum secara empiris. Bukan karena secara materi tidak mungkin untuk menganalisis semua percakapan atau teks dalam bahasa Inggris, atau dalam bahasa lain, tetapi karena tugas besar dan upaya besar yang terlibat.

Untungnya, dan berkat keberadaan komputer modern dan program komputer, dimungkinkan untuk menyelidiki apakah undang-undang ini berlaku seperti yang diusulkan Zipf atau apakah ada variasi. Satu kasus adalah penelitian yang dilakukan oleh Center for Mathematical Research (CRM, di Catalan Center for Mathematical Research) yang terkait dengan Autonomous University of Barcelona.

Peneliti lvaro Corral, Isabel Moreno García dan Francesc Font Clos melakukan analisis skala besar di mana mereka menganalisis ribuan teks digital dalam bahasa Inggris untuk melihat seberapa benar hukum Zipf itu. Karyanya, di mana korpus luas hampir 30.000 volume dianalisis, memungkinkan untuk mendapatkan hukum yang setara dengan Zipf, di mana terlihat bahwa kata yang paling banyak digunakan dua kali lebih banyak daripada yang kedua, dan seterusnya.

Hukum Zipf dalam konteks lain

Meskipun hukum Zipf pada awalnya digunakan untuk menjelaskan frekuensi kata yang digunakan dalam setiap bahasa, membandingkan rentang kemunculannya dengan frekuensi sebenarnya dalam teks dan percakapan, hukum ini juga telah diekstrapolasikan ke situasi lain. Kasus yang cukup mencolok adalah jumlah penduduk yang tinggal di ibu kota Amerika Serikat.

Menurut hukum Zipf, ibu kota Amerika yang paling padat penduduknya memiliki dua kali lipat penduduk kedua terbesar, dan tiga kali lipat penduduk ketiga terpadat. Jika Anda melihat sensus penduduk 2010, ini setuju.

New York memiliki total populasi 8.175.133 orang, dengan ibu kota terpadat berikutnya adalah Los Angeles, dengan 3.792.621, dan ibu kota terpadat berikutnya dalam peringkat, Chicago, Houston, dan Philadelphia dengan masing-masing 2.695.598, 2.100.263, dan 1.526.006. Hal ini juga dapat dilihat dalam kasus kota-kota terpadat di Spanyol, meskipun hukum Zipf tidak sepenuhnya dipatuhi, tetapi hal itu sesuai, pada tingkat yang lebih besar atau lebih kecil, dengan peringkat yang ditempati oleh setiap kota dalam peringkat tersebut.

Madrid, dengan populasi 3.266.126, memiliki dua kali lipat dari Barcelona, dengan 1.636.762, sementara Valencia memiliki sekitar sepertiga dengan 800.000 penduduk. Kasus lain yang dapat diamati dari hukum Zipf adalah dengan halaman web.

Dunia maya sangat luas, dengan hampir 15.000 juta halaman web dibuat. Mengingat bahwa ada sekitar 6.800 juta orang di dunia, secara teori untuk masing-masing dari mereka akan ada dua halaman web untuk dikunjungi setiap hari, padahal tidak demikian.

Sepuluh halaman yang paling banyak dikunjungi saat ini adalah: Google (60,49 juta kunjungan bulanan), YouTube (24,31 juta), Facebook (19,98 juta), Baidu (9,77 juta), Wikipedia (4,69 juta), Twitter (3,92 juta), Yahoo (3,74 juta). ), Pornhub (3,36 juta), Instagram (3,21 juta), dan Xvideos (3,19 juta).

Melihat angka-angka ini, Anda dapat melihat bahwa Google dikunjungi dua kali lebih sering dari YouTube, tiga kali lebih banyak dari Facebook, lebih dari empat kali lebih banyak dari Baidu…

Referensi bibliografi:

Font-Clos, F., Boleda, G. dan Corral,.

(2013) Sebuah hukum penskalaan di luar hukum Zipf dan hubungannya dengan hukum Heaps. Jurnal Fisika Baru, 15.

doi.org/10.1088/1367-2630/15/9/093033. Montemurro, MA (2001).

Di luar hukum Zipf-Mandelbrot dalam linguistik kuantitatif. Fisika A: Mekanika Statistik dan Aplikasinya 300: 567-578.