Indicele Jaccard

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Indicele Jaccard , cunoscut și sub denumirea de coeficient de similaritate Jaccard (numit inițial coeficientul de comunitate de Paul Jaccard ), este un indice statistic folosit pentru a compara similaritatea și diversitatea seturilor de eșantioane .

Coeficientul Jaccard măsoară similitudinea dintre seturile de eșantioane și este definit ca mărimea intersecției împărțit la mărimea uniunii seturilor de eșantioane:

Jaccard distanță, care măsoară similitudinea dis- între seturile de probă, este complementară cu coeficientul Jaccard și se obține prin scăderea coeficientului Jaccard de la 1, sau, echivalent, împărțind diferența în dimensiunile uniunii și intersecția a două seturi pentru dimensiunea uniunii:

Această distanță este în mod corespunzător o valoare metrică [1] .

Asemănarea atributelor binare asimetrice

Având în vedere două obiecte, A și B , fiecare cu n atribute binare , indicele Jaccard este o măsură utilă a suprapunerii pe care A și B o împart cu atributele lor.
Fiecare atribut al lui A și B poate fi 0 sau 1. Numărul total al fiecărei combinații de atribute atât pentru A cât și pentru B este specificat după cum urmează:

reprezintă numărul total de atribute în care A și B au valoarea 1.
reprezintă numărul total de atribute în care atributul lui A este 0 și atributul lui B este 1.
reprezintă numărul total de atribute în care atributul lui A este 1 și atributul lui B este 0.
reprezintă numărul total de atribute în care A și B au valoarea 0.

Fiecare atribut trebuie să se încadreze în una dintre aceste patru categorii, ceea ce înseamnă că:

Coeficientul de similaritate Jaccard, J , este dat de

Distanța lui Jaccard, J ' , este dată de

Coeficientul Tanimoto (coeficientul Jaccard extins)

Cosinusul asemănării este o măsură a similitudinii între doi vectori de n dimensiuni prin găsirea unghiului dintre ei, adesea utilizată pentru a compara documente în minarea textului . Având în vedere doi vectori de atribute, A și B , cosinusul asemănării, cos ( θ ), este reprezentat folosind un produs scalar și o magnitudine ca

Pentru potrivirea textului, vectorii de atribut A și B sunt de obicei vectorii tf-idf ai documentelor.

Deoarece unghiul θ este în intervalul [0, π ], similaritatea rezultată va produce valoarea −1 care înseamnă exact opus, 0 care înseamnă independent, +1 care înseamnă exact același, cu valorile intermediare indicând similitudine sau diferențe intermediare.

Această similitudine metrică a cosinusului poate fi extinsă pentru a produce coeficientul Jaccard în cazul atributelor binare. Obținem astfel coeficientul Tanimoto T ( A , B ), reprezentat de

Notă

  1. ^ Alan H Lipkus, O dovadă a inegalității triunghiului pentru distanța Tanimoto , în J Math Chem , vol. 26, n. 1-3, 1999, pp. 263-265.

Bibliografie

  • Pang-Ning Tan, Michael Steinbach și Vipin Kumar, Introducere în exploatarea datelor (2005), ISBN 0-321-32136-7
  • Paul Jaccard (1901) Comparative étude de la distribution florale dans une portion des Alpes et des Jura. Bulletin de la Société Vaudoise des Sciences Naturelles 37, 547–579.
  • Tanimoto, TT (1957) IBM Internal Report 17 noiembrie 1957.

Elemente conexe

linkuri externe