Indicele Jaccard
Indicele Jaccard , cunoscut și sub denumirea de coeficient de similaritate Jaccard (numit inițial coeficientul de comunitate de Paul Jaccard ), este un indice statistic folosit pentru a compara similaritatea și diversitatea seturilor de eșantioane .
Coeficientul Jaccard măsoară similitudinea dintre seturile de eșantioane și este definit ca mărimea intersecției împărțit la mărimea uniunii seturilor de eșantioane:
Jaccard distanță, care măsoară similitudinea dis- între seturile de probă, este complementară cu coeficientul Jaccard și se obține prin scăderea coeficientului Jaccard de la 1, sau, echivalent, împărțind diferența în dimensiunile uniunii și intersecția a două seturi pentru dimensiunea uniunii:
Această distanță este în mod corespunzător o valoare metrică [1] .
Asemănarea atributelor binare asimetrice
Având în vedere două obiecte, A și B , fiecare cu n atribute binare , indicele Jaccard este o măsură utilă a suprapunerii pe care A și B o împart cu atributele lor.
Fiecare atribut al lui A și B poate fi 0 sau 1. Numărul total al fiecărei combinații de atribute atât pentru A cât și pentru B este specificat după cum urmează:
- reprezintă numărul total de atribute în care A și B au valoarea 1.
- reprezintă numărul total de atribute în care atributul lui A este 0 și atributul lui B este 1.
- reprezintă numărul total de atribute în care atributul lui A este 1 și atributul lui B este 0.
- reprezintă numărul total de atribute în care A și B au valoarea 0.
Fiecare atribut trebuie să se încadreze în una dintre aceste patru categorii, ceea ce înseamnă că:
Coeficientul de similaritate Jaccard, J , este dat de
Distanța lui Jaccard, J ' , este dată de
Coeficientul Tanimoto (coeficientul Jaccard extins)
Cosinusul asemănării este o măsură a similitudinii între doi vectori de n dimensiuni prin găsirea unghiului dintre ei, adesea utilizată pentru a compara documente în minarea textului . Având în vedere doi vectori de atribute, A și B , cosinusul asemănării, cos ( θ ), este reprezentat folosind un produs scalar și o magnitudine ca
Pentru potrivirea textului, vectorii de atribut A și B sunt de obicei vectorii tf-idf ai documentelor.
Deoarece unghiul θ este în intervalul [0, π ], similaritatea rezultată va produce valoarea −1 care înseamnă exact opus, 0 care înseamnă independent, +1 care înseamnă exact același, cu valorile intermediare indicând similitudine sau diferențe intermediare.
Această similitudine metrică a cosinusului poate fi extinsă pentru a produce coeficientul Jaccard în cazul atributelor binare. Obținem astfel coeficientul Tanimoto T ( A , B ), reprezentat de
Notă
- ^ Alan H Lipkus, O dovadă a inegalității triunghiului pentru distanța Tanimoto , în J Math Chem , vol. 26, n. 1-3, 1999, pp. 263-265.
Bibliografie
- Pang-Ning Tan, Michael Steinbach și Vipin Kumar, Introducere în exploatarea datelor (2005), ISBN 0-321-32136-7
- Paul Jaccard (1901) Comparative étude de la distribution florale dans une portion des Alpes et des Jura. Bulletin de la Société Vaudoise des Sciences Naturelles 37, 547–579.
- Tanimoto, TT (1957) IBM Internal Report 17 noiembrie 1957.
Elemente conexe
- Coeficientul de similitudine Sørensen
- Indicele de similitudine Mountford
- Distanța de lovire
- Coeficientul zarurilor , care este echivalent cu: Și
- Corelație (statistici)
- Informații reciproce , a căror variantă metrică normalizată este o distanță de entropie Jaccard.
linkuri externe
- Indicele și diversitatea speciilor Jaccard , pe cals.ncsu.edu . Adus la 16 noiembrie 2010 (arhivat din original la 7 august 2007) .
- Exemplu al coeficientului Jaccard , la people.revoledu.com .
- Introducere în notele prelegerii Mining de date de la Tan, Steinbach, Kumar ( PDF ), la www-users.cs.umn.edu .
- https://sourceforge.net/projects/simmetrics/ SimMetrics o implementare sourceforge a indexului Jaccard și multe alte metrici de similitudine
- Instrument bazat pe web pentru compararea textelor utilizând coeficientul Jaccard , la text-mining.info . Adus la 16 noiembrie 2010 (arhivat din original la 10 noiembrie 2010) .