Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС

ΠšΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Π°Ρ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ

Π’ соврСмСнном ΠΌΠΈΡ€Π΅ часто приходится ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°Ρ‚ΡŒΡΡ с ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² ΠΈΠ»ΠΈ услуг ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ систСмы. Π’ старыС Π²Ρ€Π΅ΠΌΠ΅Π½Π° для формирования Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠ»ΠΈΡΡŒ сводкой Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ популярных ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ²: это ΠΌΠΎΠΆΠ½ΠΎ Π½Π°Π±Π»ΡŽΠ΄Π°Ρ‚ΡŒ ΠΈ сСйчас, ΠΎΡ‚ΠΊΡ€Ρ‹Π² Ρ‚ΠΎΡ‚ ΠΆΠ΅ Google Play. Но со Π²Ρ€Π΅ΠΌΠ΅Π½Π΅ΠΌ Ρ‚Π°ΠΊΠΈΠ΅ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ стали Π²Ρ‹Ρ‚Π΅ΡΠ½ΡΡ‚ΡŒΡΡ Ρ‚Π°Ρ€Π³Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ (Ρ†Π΅Π»Π΅Π²Ρ‹ΠΌΠΈ) прСдлоТСниями: ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ΡΡ Π½Π΅ просто популярныС ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹, Π° Ρ‚Π΅ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ навСрняка понравятся ΠΈΠΌΠ΅Π½Π½ΠΎ ΠΈΠΌ. НС Ρ‚Π°ΠΊ Π΄Π°Π²Π½ΠΎ компания Netflix ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»Π° конкурс с ΠΏΡ€ΠΈΠ·ΠΎΠ²Ρ‹ΠΌ Ρ„ΠΎΠ½Π΄ΠΎΠΌ Π² 1 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ Π΄ΠΎΠ»Π»Π°Ρ€ΠΎΠ², Π·Π°Π΄Π°Ρ‡Π΅ΠΉ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ стояло ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ Ρ„ΠΈΠ»ΡŒΠΌΠΎΠ² (ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅). Как ΠΆΠ΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹?

Π’ Π΄Π°Π½Π½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅ рассматриваСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ ΠΏΠΎ схоТСсти ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ, опрСдСляСмой с использованиСм косинусной ΠΌΠ΅Ρ€Ρ‹, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π΅Π³ΠΎ рСализация Π½Π° python.
Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС

Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅

Допустим, Ρƒ нас имССтся ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° ΠΎΡ†Π΅Π½ΠΎΠΊ, выставлСнных ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌΠΈ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°ΠΌ, для простоты излоТСния ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°ΠΌ присвоСны Π½ΠΎΠΌΠ΅Ρ€Π° 1-9:
Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС

Π—Π°Π΄Π°Ρ‚ΡŒ Π΅Ρ‘ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ csv-Ρ„Π°ΠΉΠ»Π°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΏΠ΅Ρ€Π²Ρ‹ΠΌ столбцом Π±ΡƒΠ΄Π΅Ρ‚ имя ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ, Π²Ρ‚ΠΎΡ€Ρ‹ΠΌ β€” ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°, Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΠΌ β€” выставлСнная ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ ΠΎΡ†Π΅Π½ΠΊΠ°. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π½Π°ΠΌ Π½ΡƒΠΆΠ΅Π½ csv-Ρ„Π°ΠΉΠ» со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ содСрТимым:

Для Π½Π°Ρ‡Π°Π»Π° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π΅ΠΌ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ, которая ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹ΠΉ Π²Ρ‹ΡˆΠ΅ csv-Ρ„Π°ΠΉΠ». Для хранСния Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΡΡ‚Π°Π½Π΄Π°Ρ€Ρ‚Π½ΡƒΡŽ для python структуру Π΄Π°Π½Π½Ρ‹Ρ… dict: ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ ставится Π² соотвСтствиС справочник Π΅Π³ΠΎ ΠΎΡ†Π΅Π½ΠΎΠΊ Π²ΠΈΠ΄Π° Β«ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Β»:Β«ΠΎΡ†Π΅Π½ΠΊΠ°Β». ΠŸΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ ΠΊΠΎΠ΄:

ΠœΠ΅Ρ€Π° схоТСсти

ΠŸΡ€ΠΈ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π±Ρ‹Π» использован Ρ„Π°ΠΊΡ‚, Ρ‡Ρ‚ΠΎ скалярноС ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° самого Π½Π° сСбя Π΄Π°Π΅Ρ‚ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ Π΄Π»ΠΈΠ½Ρ‹ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° β€” это Π½Π΅ Π»ΡƒΡ‡ΡˆΠ΅Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Π½ΠΎ Π² нашСм ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π½Π΅ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΈΠ°Π»ΡŒΠ½Π°.

Алгоритм ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ

Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΎΡΡ‚Π°Π»ΠΎΡΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ ΠΊΠΎΠ΄

Для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Π΅Π³ΠΎ работоспособности ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ:

Π§Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Ρ‚ ΠΊ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌΡƒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρƒ:
Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Алгоритмы поиска схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… систСмах

Β«Π”ΠΎΡΠΌΠΎΡ‚Ρ€ΡŽ Π²ΠΎΡ‚ это Π²ΠΈΠ΄Π΅ΠΎ Π½Π° YouTube ΠΈ ΠΏΠΎΠΉΠ΄Ρƒ ΡΠΏΠ°Ρ‚ΡŒ! Ой, Π² рСкомСндациях Π΅Ρ‰Π΅ ΠΎΠ΄Π½ΠΎ интСрСсноС. Π‘ΠΎΠ½, прости…». Β«Π—Π°ΠΊΠ°ΠΆΡƒ Π² IKEA Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡΡ‚ΡƒΠ»ΡŒΡ. Ах, сайт ΠΏΠΎΠΊΠ°Π·Π°Π» ΠΌΠ½Π΅ Π΅Ρ‰Π΅ посуду, ΠΏΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ бСльС ΠΈ Π½ΠΎΠ²ΡƒΡŽ ΠΊΡƒΡ…Π½ΡŽ Π² сборкС. Когда Ρ‚Π°ΠΌ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π°Ρ Π·Π°Ρ€ΠΏΠ»Π°Ρ‚Π°?Β». «БСсконСчный плСйлист Π»ΡŽΠ±ΠΈΠΌΡ‹Ρ… ΠΌΡƒΠ·Ρ‹ΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΆΠ°Π½Ρ€ΠΎΠ² Π² Π‘Π±Π΅Ρ€Π—Π²ΡƒΠΊΠ΅ заряТаСт мСня ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²ΠΎΠΌ! Как спСциалистам удаСтся ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ для мСня?Β».

Π‘ΠΎΠ³Π»Π°ΡΠΈΡ‚Π΅ΡΡŒ, Π²Ρ‹ ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°Π»ΠΈΡΡŒ с ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹ΠΌΠΈ мыслями ΠΏΡ€ΠΈ использовании ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚ сСрвисов. ΠœΠ°Π³ΠΈΡ‡Π΅ΡΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Π½ΠΎΠ²Ρ‹Π΅ ΠΈ Π½ΠΎΠ²Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹: Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΈ, ΠΌΡƒΠ·Ρ‹ΠΊΡƒ, Ρ‚ΠΎΠ²Π°Ρ€Ρ‹. Никакого Π²ΠΎΠ»ΡˆΠ΅Π±ΡΡ‚Π²Π° здСсь Π½Π΅Ρ‚ β€” это рутинная Ρ€Π°Π±ΠΎΡ‚Π° Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… систСм. Алгоритмы поиска ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π±ΠΎΠ»ΡŒΡˆΠΈΡ… массивах Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΡ€Π³Π°Π½ΠΈΡ‡Π½ΠΎ вплСлись Π² Π½Π°ΡˆΡƒ Тизнь ΠΈ ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π½Π°ΠΌ Π΄Π΅Π»Π°Ρ‚ΡŒ ΠΏΠΎΡ‡Ρ‚ΠΈ осознанный Π²Ρ‹Π±ΠΎΡ€ Π² Ρ‚ΠΎΠΉ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ области повсСднСвных Π΄Π΅Π».

МодСли Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для поиска ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π²Π½Π΅ контСкста ΠΏΡ€ΠΎΠ΄Π°ΠΆ. НапримСр, Π²Ρ‹ΡΠ²Π»ΡΡ‚ΡŒ ΠΎΠ΄Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΎΡ€ΠΎΠ² Π² Ρ‡Π°Ρ‚Π°Ρ…, Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Π²Π°Ρ‚ΡŒ Π±ΡƒΠ΄ΡƒΡ‰ΠΈΡ… злостных Π½Π΅ΠΏΠ»Π°Ρ‚Π΅Π»ΡŒΡ‰ΠΈΠΊΠΎΠ² ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½Ρ‹Ρ… ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΡΡ‚Π² ΠΏΠΎ косвСнным ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌ ΠΈΠ»ΠΈ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹ сотрудников, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ трСбуСтся Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΠΎΠ²Π°Ρ‚ΡŒ курсы ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΠΊΠ²Π°Π»ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ, Π² зависимости ΠΎΡ‚ Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΡ… Π½Π°Π²Ρ‹ΠΊΠΎΠ². НС стоит Π·Π°Π±Ρ‹Π²Π°Ρ‚ΡŒ ΠΈ ΠΎ сайтах знакомств, Π³Π΄Π΅ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΠΎΠ΄Π±ΠΈΡ€Π°Ρ‚ΡŒ собСсСдника ΠΏΠΎ ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹ΠΌ критСриям.

Π‘Ρ‚Π°Ρ‚ΡŒΡ описываСт основныС ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΊ поиску схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ содСрТит Π²Π²ΠΎΠ΄Π½Ρ‹ΠΉ курс Π² ΠΌΠΈΡ€ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… систСм. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½Ρ‹ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…. Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠΎΠ»Π΅Π·Π½Π° Π°Π½Π°Π»ΠΈΡ‚ΠΈΠΊΠ°ΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠ·ΡƒΡ‡Π°ΡŽΡ‚ python, ΠΈ Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‰ΠΈΠΌ data-scientist’ам. ΠœΡ‹ Π½Π΅ Π±ΡƒΠ΄Π΅ΠΌ ΠΎΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°Ρ‚ΡŒΡΡ Π½Π° ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎΠΌ описании ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΈ Ρ€Π°Π·Π±ΠΈΡ€Π°Ρ‚ΡŒ отличия ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π½Ρ‹Ρ… ΠΈ ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… систСм. Базовая тСорСтичСских Ρ‡Π°ΡΡ‚ΡŒ находится здСсь, здСсь ΠΈ здСсь. Нас интСрСсуСт ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΌΠ°Ρ‚Ρ‡ΠΈΠ½Π³Π° (matching, Π°Π½Π³Π». Поиск схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²) Π² повсСднСвных Π·Π°Π΄Π°Ρ‡Π°Ρ…. К ΡΡ‚Π°Ρ‚ΡŒΠ΅ прилагаСтся Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ Π½Π° ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ΅ Kaggle с основным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΠ΅ΠΌ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ с ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ тСкста.

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚Ρ‹ коррСляции

Π‘Π°ΠΌΡ‹ΠΌ простым способом вычислСния схоТСсти ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΏΠΎ числовым характСристикам являСтся расчСт коэффициСнта коррСляции. Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ повсСднСвных Π·Π°Π΄Π°Ρ‡, ΠΊΠΎΠ³Π΄Π° Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° исслСдования присутствуСт ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ. Вакая ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ числовых характСристик называСтся Π²Π΅ΠΊΡ‚ΠΎΡ€. НапримСр, ΠΌΡ‹ ΠΈΡ‰Π΅ΠΌ ΠΏΠΎΡ…ΠΎΠΆΠΈΠ΅ ΠΊΠ²Π°Ρ€Ρ‚ΠΈΡ€Ρ‹ Π² Π³ΠΎΡ€ΠΎΠ΄Π΅: ΠΌΠΎΠΆΠ½ΠΎ банально ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ±Ρ‰ΡƒΡŽ ΠΈ ΠΆΠΈΠ»Ρ‹Π΅ ΠΏΠ»ΠΎΡ‰Π°Π΄ΠΈ, высоту ΠΏΠΎΡ‚ΠΎΠ»ΠΊΠΎΠ² ΠΈ количСство ΠΊΠΎΠΌΠ½Π°Ρ‚. Для Ρ€Π°Π·Π±ΠΎΡ€Π° ΠΊΠΎΠ΄Π° возьмСм датасСт (dataset, Π°Π½Π³Π». Набор Π΄Π°Π½Π½Ρ‹Ρ…), Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ содСрТится информация ΠΎΠ± ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°Ρ… нСдвиТимости БиднСя ΠΈ ΠœΠ΅Π»ΡŒΠ±ΡƒΡ€Π½Π°. КаТдая строка Ρ‚Π°Π±Π»ΠΈΡ†Ρ‹ – это ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€ с числовыми характСристиками.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниСРис. 1 ДатасСт с ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ нСдвиТимости

Π‘Ρ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ характСристик ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ нСсколькими способами. Если Π²Ρ‹ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚Π΅ с Ρ‚Π°Π±Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ – pandas.corr() являСтся самым ΡƒΠ΄ΠΎΠ±Π½Ρ‹ΠΌ. Π‘Ρ€Π°Π²Π½ΠΈΠΌ Ρ‚Ρ€ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°, выставлСнных Π½Π° ΠΏΡ€ΠΎΠ΄Π°ΠΆΡƒ.

ΠœΡ‹ рассчитали ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ Π΄Π²ΡƒΡ… ΠΏΠ°Ρ€ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²: Π½ΡƒΠ»Π΅Π²ΠΎΠ³ΠΎ с дСвятым ΠΈ Π½ΡƒΠ»Π΅Π²ΠΎΠ³ΠΎ с ΡˆΠ΅ΡΡ‚Ρ‹ΠΌ. ΠŸΠΎΡΠΌΠΎΡ‚Ρ€ΠΈΡ‚Π΅ Π½Π° рисунок Π²Ρ‹ΡˆΠ΅. Π”Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ, Π΄ΠΎΠΌΠ° Π² ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΏΠ°Ρ€Π΅ ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹ ΠΏΠΎ характСристикам. Π£ Π²Ρ‚ΠΎΡ€ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ общая ΠΏΠ»ΠΎΡ‰Π°Π΄ΡŒ, Π³ΠΎΠ΄ постройки ΠΈ Ρ€Π΅Π½Π½ΠΎΠ²Π°Ρ†ΠΈΠΈ, количСство спалСн.

По ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ pandas.corr() рассчитываСт коэффициСнт коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π°. Π•Π³ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π½Π° ΠΌΠ΅Ρ‚ΠΎΠ΄ Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π° ΠΈΠ»ΠΈ КСндала. Для этого Π½ΡƒΠΆΠ½ΠΎ ввСсти Π°Ρ‚Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ method.

Для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… строк ΠΌΠΎΠΆΠ½ΠΎ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ коррСляции, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΡ‚Ρ€Π°ΠΆΠ΅Π½Ρ‹ сразу всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, находящиСся Π² датасСтС. По ΠΎΠΏΡ‹Ρ‚Ρƒ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π·Π°ΠΌΠ΅Ρ‡Ρƒ, Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ с Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌΠΈ Π΄ΠΎ 100 строк. Π”Π°Π»Π΅Π΅ Π³Ρ€Π°Ρ„ΠΈΠΊ становится слабо Ρ‡ΠΈΡ‚Π°Π΅ΠΌΡ‹ΠΌ. Π’Π΅ΠΏΠ»ΠΎΠ²ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ ΠΌΠΎΠΆΠ½ΠΎ Ρ€ΠΈΡΠΎΠ²Π°Ρ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ спСциализированных Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ ΠΈΠ»ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠ΄ style.background_gradient() ΠΊ Ρ‚Π°Π±Π»ΠΈΡ†Π΅. Π‘ΠΎΠ·Π΄Π°Π΄ΠΈΠΌ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ коррСляции с 10 записями. Π§Π΅ΠΌ Ρ‚Π΅ΠΌΠ½Π΅Π΅ Ρ†Π²Π΅Ρ‚ ячСйки – Ρ‚Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ коррСляция.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниСРис. 2 ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° коррСляции 10 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² нСдвиТимости

ΠœΠ΅Ρ‚ΠΎΠ΄ pandas.corr() сравниваСт Ρ‚Π°Π±Π»ΠΈΡ†Ρƒ ΠΏΠΎ столбцам. ΠžΠ±Ρ€Π°Ρ‚ΠΈΡ‚Π΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, Ρ‡Ρ‚ΠΎ для ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠ³ΠΎ рассчСта коррСляций ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ нСдвиТимости, ΠΈΡΡ…ΠΎΠ΄Π½ΡƒΡŽ Ρ‚Π°Π±Π»ΠΈΡ†Ρƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Ρ‚Ρ€Π°Π½ΡΠΏΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ β€” ΠΏΠΎΠ²Π΅Ρ€Π½ΡƒΡ‚ΡŒ Π½Π° 90*. Для этого примСняСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ dataframe.T.

Π‘Ρ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΠΏΠ°Ρ€Π°ΠΌΠΈ интСрСсно, Π½ΠΎ Π½Π΅ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎ. ΠŸΠΎΠΏΡ€ΠΎΠ±ΡƒΠ΅ΠΌ Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ Π½Π΅Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½ΡƒΡŽ систСму, которая ΠΏΠΎΠ΄Π±Π΅Ρ€Π΅Ρ‚ 10 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² нСдвиТимости, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ максимально ΠΏΠΎΡ…ΠΎΠΆΠΈ Π½Π° ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ²Ρ‹ΠΉ. Π—Π° эталон ΠΏΡ€ΠΈΠΌΠ΅ΠΌ случайный Π΄ΠΎΠΌ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, с порядковым Π½ΠΎΠΌΠ΅Ρ€ΠΎΠΌ 574.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниСРис. 3 Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΡΡ‚Π΅ΠΉΡˆΠ΅ΠΉ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ систСмы

Алгоритм ΠΎΡ‚ΠΎΠ±Ρ€Π°Π» 10 Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… Π½Π° ΠΎΠ±Ρ€Π°Π·Π΅Ρ† Π΄ΠΎΠΌΠΎΠ². ВсС прСдставлСнныС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ нСдвиТимости ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ΅ количСство спалСн ΠΈ Π²Π°Π½Π½Ρ‹Ρ… ΠΊΠΎΠΌΠ½Π°Ρ‚, ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Ρ€Π°Π²Π½Ρ‹Π΅ ΠΆΠΈΠ»Ρ‹Π΅ ΠΈ ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΏΠ»ΠΎΡ‰Π°Π΄ΠΈ, ΠΈ Π·Π°Π½ΠΈΠΌΠ°ΡŽΡ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ этаТ. Π’ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ Π½Π° KaggleпрСдставлСн Π²Ρ‚ΠΎΡ€ΠΎΠΉ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠ΅Ρ€Π΅Π±ΠΈΡ€Π°Π΅Ρ‚ всС строки Ρ‚Π°Π±Π»ΠΈΡ†Ρ‹.

ΠœΠ΅Ρ‚ΠΎΠ΄ pandas.corr() ΠΌΠΎΠΆΠ΅Ρ‚ ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹), Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ значСния. Π­Ρ‚ΠΎ свойство ΡƒΠ΄ΠΎΠ±Π½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ, ΠΊΠΎΠ³Π΄Π° Π½Π΅Ρ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ ΠΈΠ»ΠΈ смысла ΠΈΡΠΊΠ°Ρ‚ΡŒ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹ заполнСния пропусков.

ΠšΠΎΡΠΈΠ½ΡƒΡΠ½ΠΎΠ΅ расстояниС

Π­Ρ‚Ρƒ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ схоТСсти ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ относят ΠΊ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌ расчСта коррСляции ΠΈ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ вмСстС с коэффициСнтами коррСляции. ΠœΡ‹ Π²Ρ‹Π΄Π΅Π»ΠΈΠ»ΠΈ Π΅Π΅ Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡƒΠ½ΠΊΡ‚, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² ΠΏΠΎ косинусу ΠΏΠΎΠΌΠΎΠ³Π°Π΅ΠΌ Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнного языка. НапримСр, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΌΠΎΠΆΠ½ΠΎ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΈ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Ρ‚ΡŒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ ΠΏΠΎΡ…ΠΎΠΆΠΈΠ΅ новости. ΠšΠΎΡΠΈΠ½ΡƒΡΠ½ΠΎΠ΅ расстояниС Ρ‚Π°ΠΊ ΠΆΠ΅ часто Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ конисусной ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒΡŽ, Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π»Π΅ΠΆΠΈΡ‚ Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… ΠΎΡ‚ 0 Π΄ΠΎ 1.

Π Π°Π·Π±Π΅Ρ€Π΅ΠΌ ΠΏΡ€ΠΎΡΡ‚Π΅ΠΉΡˆΠΈΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ поиска ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… тСкстов ΠΈ Π½Π°Ρ‡Π½Π΅ΠΌ с ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ. Π’ ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠΌΠ΅Π½Ρ‚Ρ‹, ΠΏΠΎΠ»Π½Ρ‹ΠΉ ΠΊΠΎΠ΄ находится здСсь. Для расчСта косинусного расстояния Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ пСрСвСсти слова Π² числа. ΠŸΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ. Для понимания этого Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΡŒΡ‚Π΅ сСбС ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ слову приставлСн порядковый Π½ΠΎΠΌΠ΅Ρ€. НапримСр: Π°Π·Π±ΡƒΠΊΠ° – 1348, Π°Ρ€Π±ΡƒΠ· – 1349. Π’ процСссС Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ замСняСм слова Π½ΡƒΠΆΠ½Ρ‹ΠΌΠΈ числами. Π•ΡΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ соврСмСнный ΠΈ Π±ΠΎΠ»Π΅Π΅ ΡƒΠ΄Π°Ρ‡Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ прСвращСния тСкста Π² числовой Π²Π΅ΠΊΡ‚ΠΎΡ€ β€” созданиС эмбСддингов с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ-трансформСров. НС ΡƒΠ³Π»ΡƒΠ±Π»ΡΡΡΡŒ Π² Ρ‚Π΅ΠΌΡƒ трансформаций, ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ Π² этом случаС ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ прСврящаСтся Π² числовой Π²Π΅ΠΊΡ‚ΠΎΡ€ Π΄Π»ΠΈΠ½ΠΎΠΉ Π΄ΠΎ 512 символов. ΠŸΡ€ΠΈ этом числа ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ взаимодСйствиС слов Π΄Ρ€ΡƒΠ³ с Π΄Ρ€ΡƒΠ³ΠΎΠΌ. Π—Π²ΡƒΡ‡ΠΈΡ‚, ΠΊΠ°ΠΊ чСрная магия, Π½ΠΎ здСсь Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ чистая Π°Π»Π³Π΅Π±Ρ€Π°. Π‘ΠΎΠ²Π΅Ρ‚ΡƒΠ΅ΠΌ ΠΎΠ·Π½Π°ΠΊΠΎΠΌΠΈΡ‚ΡŒΡΡ с Π±Π°Π·ΠΎΠ²ΠΎΠΉ Ρ‚Π΅ΠΎΡ€ΠΈΠ΅ΠΉ ΠΎ трансформСрах, эмбСддингах ΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ΅ «внимания» здСсь ΠΈ здСсь.

Π’ процСссС прСобразования новостных статСй Π² Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ ΠΈ эмбСддинги ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹.

ПослС Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ тСкста ΠΌΠΎΠΆΠ½ΠΎ ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠΎΠ². Рассмотрим Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° cosine_similarityΠΈΠ· Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ sklearn. Π’Ρ‹Π²Π΅Π΄Π΅ΠΌ Π΄Π²Π° Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠ° ΠΈ ΡƒΠ·Π½Π°Π΅ΠΌ, насколько ΠΎΠ½ΠΈ ΠΏΠΎΡ…ΠΎΠΆΠΈ.

Новости ΠΈΠ· ΠΌΠΈΡ€Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ ΠΈ Ρ„ΡƒΡ‚Π±ΠΎΠ»Π° Π΄Π°Π»Π΅ΠΊΠΈ Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. ΠšΠΎΡΠΈΠ½ΡƒΡΠ½Π°Ρ ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ Ρ€Π°Π²Π½Π° 0.24%. Π”Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ, ΡŽΠΆΠ½ΠΎΠΊΠΎΡ€Π΅ΠΉΡΠΊΠΈΠΉ IT Π³ΠΈΠ³Π°Π½Ρ‚ ΠΈ туринский Ρ„ΡƒΡ‚Π±ΠΎΠ»ΡŒΠ½Ρ‹ΠΉ ΠΊΠ»ΡƒΠ± ΠΈΠ΄Π΅ΠΉΠ½ΠΎ практичСски Π½Π΅ ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‚ΡΡ.

ВСрнСмся ΠΊ ΠΏΠ΅Ρ€Π²ΠΈΡ‡Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ Ρ€Π°Π·Π΄Π΅Π»Π° – поиску схоТих статСй для ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ новостного сайта. РассчитываСм косинусноС расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠ°ΠΌΠΈ ΠΈ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅ΠΌ Ρ‚Π΅, Π³Π΄Π΅ коэффициСнт ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ. Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ для новости ΠΏΠΎΠ΄ индСксом 18 ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниСРис. 4 Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠΎΠ² новостСй

Π‘ высокой Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ, ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π²ΡˆΠ΅ΠΌΡƒ ΠΏΡ€ΠΎ Π²ΠΎΡΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉΡΡ Ρ€Ρ‹Π½ΠΎΠΊ Π•Π²Ρ€ΠΎΠΏΡ‹ Π±ΡƒΠ΄Π΅Ρ‚ интСрСсно ΡƒΠ·Π½Π°Ρ‚ΡŒ ΠΏΡ€ΠΎ ΠΌΠΈΡ€ΠΎΠ²ΠΎΠΉ кризис, рост Ρ†Π΅Π½ ΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ с Π²Π°Π»ΡŽΡ‚ΠΎΠΉ Π² азиатском Ρ€Π΅Π³ΠΈΠΎΠ½Π΅. Π—Π°Π΄Π°Ρ‡Π° Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½Π°, ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΈΠΌ ΠΊ Π·Π°ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ поиска схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ

Π’Ρ€Π΅Ρ‚ΡŒΠΈΠΌ эффСктивным ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ ΠΌΠ°Ρ‚Ρ‡ΠΈΠ½Π³Π° Π² большом объСмС Π΄Π°Π½Π½Ρ‹Ρ… являСтся кластСризация. Алгоритм раздСляСт записи ΠΏΠΎ установлСнному количСству Π³Ρ€ΡƒΠΏΠΏ – кластСров. Π—Π°Π΄Π°Ρ‡Π° кластСризации сводится ΠΊ поиску идСального располоТСния Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² Π³Ρ€ΡƒΠΏΠΏ β€” Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ΠΎΠ². Π’Π°ΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ эти Ρ†Π΅Π½Ρ‚Ρ€Ρ‹ ΠΊΠ°ΠΊ Π±Ρ‹ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²Π°Π»ΠΈ Π²ΠΎΠΊΡ€ΡƒΠ³ сСбя ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹. Дистанция ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΎΡ‚ Ρ†Π΅Π½Ρ‚Ρ€Π° кластСра рассчитываСтся Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ. ΠŸΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ ΠΎ Π½Π΅ΠΉ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΠ΅ΠΌ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ здСсь. Алгоритм кластСризации прСдставлСн Ρ„ΡƒΠΊΡ†ΠΈΠ΅ΠΉ kMeans (Π°Π½Π³Π», ΠΊ-Π‘Ρ€Π΅Π΄Π½ΠΈΡ…) Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ sklearn.

Для ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° кластСризации возьмСм 300 Π΄ΠΎΠΌΠΎΠ² ΠΈΠ· ΠΏΠ΅Ρ€Π²ΠΈΡ‡Π½ΠΎΠ³ΠΎ датасСта с австралийской Π½Π΅Π΄Π²ΠΈΠΆΠΈΠΌΠΎΡΡ‚ΡŒΡŽ.

ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ шаг ΠΌΠ΅Ρ‚ΠΎΠ΄Π° – поиск ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ количСства кластСров. ΠŸΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠ΅Ρ€Π΅Π±ΠΈΡ€Π°Π΅ΠΌ Π³Ρ€ΡƒΠΏΠΏΡ‹ Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π΅ ΠΎΡ‚ 1 Π΄ΠΎ 20 ΠΈ рассчитываСм Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ.

ΠžΡ‚Ρ€ΠΈΡΠΎΠ²Ρ‹Π²Π°Π΅ΠΌ значСния Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ, Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ, Β«Π»ΠΎΠΊΡ‚Π΅Π²ΠΎΠΉ Π³Ρ€Π°Ρ„ΠΈΠΊΒ». Нас интСрСсуСт Ρ‚ΠΎΡ‡ΠΊΠ°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ происходит самый ΡΠΈΠ»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ·Π³ΠΈΠ±. На рисункС 5 прСдставлСн искомый ΡƒΠ·Π΅Π». ΠŸΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ числа кластСров большС 4, Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π½Π΅ происходит.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниСРис. 5 Поиск ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ числа кластСров для Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² нСдвиТимости

Π—Π°Π½ΠΎΠ²ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌ модСль kMeans с Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹ΠΌ числом кластСров. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° устанавливаСм ΠΏΡ€ΠΈΡ‡Π°ΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΊ Π³Ρ€ΡƒΠΏΠΏΠ΅ ΠΈ сохраняСм Π΅Π΅ Π½ΠΎΠΌΠ΅Ρ€. Π’Ρ‹Π±ΠΈΡ€Π°Π΅ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΠΎΠ΄Π½ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΡ‹.

ΠŸΠΎΡΠΌΠΎΡ‚Ρ€ΠΈΠΌ Π½Π° количСство Π΄ΠΎΠΌΠΎΠ² Π² Π³Ρ€ΡƒΠΏΠΏΠ°Ρ….

«НулСвая» Π³Ρ€ΡƒΠΏΠΏΠ° самая многочислСнная ΠΈ содСрТит Ρ‚ΠΈΠΏΠΎΠ²Ρ‹Π΅ Π΄ΠΎΠΌΠ°. Π’ Π³Ρ€ΡƒΠΏΠΏΡ‹ Β«ΠΎΠ΄ΠΈΠ½Β» ΠΈ Β«Π΄Π²Π°Β» ΠΏΠΎΠΏΠ°Π»ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ с Π³Ρ€ΠΎΠΌΠ°Π΄Π½ΠΎΠΉ ΠΆΠΈΠ»ΠΎΠΉ ΠΏΠ»ΠΎΡ‰Π°Π΄ΡŒΡŽ (столбСц sqft_lot). Π’Ρ‹Π±ΠΎΡ€ΠΊΠΈ прСдставлСны Π½Π° рисункС 6.

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниСРис. 6 ΠžΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ нСдвиТимости с ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½Π½ΠΎΠΉ ΠΏΠ»ΠΎΡ‰Π°Π΄ΡŒΡŽ

Π—Π°Π΄Π°Ρ‡Π° Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² нСдвиТимости с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° kMeans Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½Π°. ΠŸΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΈΠΌ ΠΊ ΠΈΡ‚ΠΎΠ³Π°ΠΌ.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

ΠœΡ‹ рассмотрСли Ρ‚Ρ€ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° поиска схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π΄Π°Π½Π½Ρ‹Ρ…: коэффициСнты коррСляции, косинусноС расстояниС ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ k-срСдних. Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ прСдставлСнных инструмСнтов ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ повсСднСвных Π·Π°Π΄Π°Ρ‡: Π½Π°ΠΉΡ‚ΠΈ схоТиС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ с числовыми характСристиками, ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ тСкстовыС записи ΠΈΠ»ΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ΡŒ массив Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° кластСры. ΠœΡ‹ ΠΈΠ·ΡƒΡ‡ΠΈΠ»ΠΈ основы ΠΌΠ°Ρ‚Ρ‡ΠΈΠ½Π³Π° ΠΈ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². Π’ Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ самыС соврСмСнныС систСмы YouTube ΠΈ TikTok Π² своСй основС ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ². Как Π²ΠΈΠ΄ΠΈΡ‚Π΅, Π½ΠΈΠΊΠ°ΠΊΠΎΠΉ ΠΌΠ°Π³ΠΈΠΈ Π² ΠΏΠΎΠ΄Π±ΠΎΡ€Π΅ Π»ΡŽΠ±ΠΈΠΌΡ‹Ρ… пСсСн ΠΈ Ρ€ΠΎΠ»ΠΈΠΊΠΎΠ². Волько чистая ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ°!

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π­Ρ‚ΠΈ ограничСния ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌΡ‹ для любого количСства ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ, Π° косинусноС ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ Ρ‡Π°Ρ‰Π΅ всСго ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½Ρ‹Ρ… ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… пространствах. НапримСр, ΠΏΡ€ΠΈ поискС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π΅ тСкста ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρƒ условно назначаСтся Π΄Ρ€ΡƒΠ³ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅, Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ характСризуСтся Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ, Π³Π΄Π΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΈ соотвСтствуСт количСству Ρ€Π°Π·, ΠΊΠΎΠ³Π΄Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ появляСтся Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, косинусноС сходство Π΄Π°Π΅Ρ‚ ΠΏΠΎΠ»Π΅Π·Π½ΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ Ρ‚ΠΎΠ³ΠΎ, насколько ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π΄Π²Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния ΠΈΡ… ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π°.

Π‘ΠžΠ”Π•Π Π–ΠΠΠ˜Π•

ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅

ΠšΠΎΡΠΈΠ½ΡƒΡ Π΄Π²ΡƒΡ… Π½Π΅Π½ΡƒΠ»Π΅Π²Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρ‹ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° скалярного произвСдСния :

Для сопоставлСния тСкста Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ² A ΠΈ B ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ частотности Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². ΠšΠΎΡΠΈΠ½ΡƒΡΠ½ΠΎΠ΅ сходство ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π΄Π»ΠΈΠ½Ρ‹ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π²ΠΎ врСмя сравнСния.

Π£Π³Π»ΠΎΠ²ΠΎΠ΅ расстояниС ΠΈ ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅

Π’Π΅Ρ€ΠΌΠΈΠ½ «косинусноС ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅Β» ΠΈΠ½ΠΎΠ³Π΄Π° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для обозначСния Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ опрСдСлСния подобия, ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½ΠΎΠ³ΠΎ Π½ΠΈΠΆΠ΅. Однако Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ распространСнноС использованиС «косинусного подобия» ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΎ Π²Ρ‹ΡˆΠ΅, Π° ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ подобия ΠΈ расстояния, ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ Π½ΠΈΠΆΠ΅, Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Β«ΡƒΠ³Π»ΠΎΠ²Ρ‹ΠΌ сходством» ΠΈ Β«ΡƒΠ³Π»ΠΎΠ²Ρ‹ΠΌ расстояниСм» соотвСтствСнно. Нормализованный ΡƒΠ³ΠΎΠ» ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ являСтся Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΎΠΉ расстояния ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ рассчитан Π½Π° основС ΠΎΡ†Π΅Π½ΠΊΠΈ подобия, ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ Π²Ρ‹ΡˆΠ΅. Π—Π°Ρ‚Π΅ΠΌ эту ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ ΡƒΠ³Π»ΠΎΠ²ΠΎΠ³ΠΎ расстояния ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для вычислСния Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ подобия, ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΠΎΠΉ ΠΎΡ‚ 0 Π΄ΠΎ 1 Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ.

Когда элСмСнты Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ΠΈΠ»ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ:

Или, Ссли элСмСнты Π²Π΅ΠΊΡ‚ΠΎΡ€Π° всСгда ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹:

L 2 <\ displaystyle L_ <2>> Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС-Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ΅ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС

Π”Ρ€ΡƒΠ³ΠΎΠΉ эффСктивный прокси для косинусного расстояния ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ ΠΏΡƒΡ‚Π΅ΠΌ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² с ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ΠΌ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° расстояния. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ этот ΠΌΠ΅Ρ‚ΠΎΠ΄, ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‡Π»Π΅Π½ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π΅ сначала дСлится Π½Π° Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°, Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ‡Π΅Π³ΠΎ получаСтся Π²Π΅ΠΊΡ‚ΠΎΡ€ Π΅Π΄ΠΈΠ½ΠΈΡ‡Π½ΠΎΠΉ Π΄Π»ΠΈΠ½Ρ‹. Π’ΠΎΠ³Π΄Π° ясно, Ρ‡Ρ‚ΠΎ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС ΠΏΠΎ ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΌ Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌ Π»ΡŽΠ±Ρ‹Ρ… Π΄Π²ΡƒΡ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² являСтся ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΎΠΉ, которая Π΄Π°Π΅Ρ‚ Ρ‚ΠΎΡ‚ ΠΆΠ΅ порядок, Ρ‡Ρ‚ΠΎ ΠΈ косинусноС расстояниС для любого сравнСния Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ², ΠΈ, ΠΊΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, позволяСт ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ дорогостоящих тригономСтричСских ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΉ, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для получСния ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠ³ΠΎ мСтричСская. ПослС Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ΅ пространство ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ с ΠΏΠΎΠ»Π½Ρ‹ΠΌ Π½Π°Π±ΠΎΡ€ΠΎΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², доступных для любого Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° пространства, Π² частности, стандартными ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ размСрности. Π­Ρ‚ΠΎ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½ΠΎΠ΅ расстояниС Ρ„ΠΎΡ€ΠΌΡ‹, Π² частности, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния. L 2 <\ displaystyle L_ <2>> Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ ΠžΡ†ΡƒΠΊΠ°-ΠžΡ‡ΠΈΠ°ΠΉ

Π₯арактСристики

Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС называСтся Ρ…ΠΎΡ€Π΄ΠΎΠ²Ρ‹ΠΌ расстояниСм (ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ это Π΄Π»ΠΈΠ½Π° Ρ…ΠΎΡ€Π΄Ρ‹ Π½Π° Π΅Π΄ΠΈΠ½ΠΈΡ‡Π½ΠΎΠΉ окруТности), ΠΈ это Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±Ρ‹Π»ΠΈ Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ Π½Π° Π΅Π΄ΠΈΠ½ΠΈΡ‡Π½ΡƒΡŽ сумму ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΎΠ² Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π²Π½ΡƒΡ‚Ρ€ΠΈ Π½ΠΈΡ….

Мягкая косинусная ΠΌΠ΅Ρ€Π°

Мягкий косинус ΠΈΠ»ΠΈ («мягкоС» сходство) ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ сходство ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ°Ρ€Π°ΠΌΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ΅ косинусноС сходство рассматриваСт Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ пространства (VSM) ΠΊΠ°ΠΊ нСзависимыС ΠΈΠ»ΠΈ ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Ρ€Π°Π·Π½Ρ‹Π΅, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ мягкая косинусная ΠΌΠ΅Ρ€Π° ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ сходство Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ Π² VSM, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΠΎΠ±ΠΎΠ±Ρ‰ΠΈΡ‚ΡŒ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΡŽ косинуса (ΠΈ мягкого косинуса), Π° Ρ‚Π°ΠΊΠΆΠ΅ идСю (мягкого) сходства.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

ВСкторная модСль ΠΈ косинусноС сходство (Cosine similarity)

Π’ это ΡΡ‚Π°Ρ‚ΡŒΠ΅ я Ρ…ΠΎΡ‡Ρƒ ΠΎΠ·Π½Π°ΠΊΠΎΠΌΠΈΡ‚ΡŒ вас с ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠΌ использования Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ Ρ€Π°ΡΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ косинусноС сходство β€” Cosine similarity Π² ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΌ поискС.

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π² Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ рассматриваСтся ΠΊΠ°ΠΊ нСупорядочСнноС мноТСство Ρ‚Π΅Ρ€ΠΌΠΎΠ². Π’Π΅Ρ€ΠΌΠ°ΠΌΠΈ Π² ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΌ поискС Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ слова, ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… состоит тСкст, Π° Ρ‚Π°ΠΊΠΆΠ΅ Ρ‚Π°ΠΊΠΈΠ΅ элСмСнты тСкста, ΠΊΠ°ΠΊ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 2010, II-5 ΠΈΠ»ΠΈ Вянь-Шань.

Π Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ способами ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ вСс Ρ‚Π΅Ρ€ΠΌΠ° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ β€” Β«Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒΒ» слова для ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π΄Π°Π½Π½ΠΎΠ³ΠΎ тСкста. НапримСр, ΠΌΠΎΠΆΠ½ΠΎ просто ΠΏΠΎΠ΄ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ количСство ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΉ Ρ‚Π΅Ρ€ΠΌΠ° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡƒΡŽ частоту Ρ‚Π΅Ρ€ΠΌΠ°, β€” Ρ‡Π΅ΠΌ Ρ‡Π°Ρ‰Π΅ слово встрСчаСтся Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Ρ‚Π΅ΠΌ больший Ρƒ Π½Π΅Π³ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ вСс. Если Ρ‚Π΅Ρ€ΠΌ Π½Π΅ встрСчаСтся Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Ρ‚ΠΎ Π΅Π³ΠΎ вСс Π² этом Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ Ρ€Π°Π²Π΅Π½ Π½ΡƒΠ»ΡŽ.

Π₯ΠΎΡ€ΠΎΡˆΠ΅Π΅ описаниС прСдставлСно Π² wiki (Π½Π° русском, Π½Π° английском).

Как Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ косинусноС сходство? (Cosine similarity)

Рассмотрим Π½Π΅Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ C, которая содСрТит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Ρ‚Ρ€ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°:

Document 1new york times
Document 2new york post
Document 3los angeles times

НСкоторыС Ρ‚Π΅Ρ€ΠΌΡ‹ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Π² Π΄Π²ΡƒΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…, Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² ΠΎΠ΄Π½ΠΎΠΌ. ΠžΠ±Ρ‰Π΅Π΅ количСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² N=3.

РассчитаСм значСния idf (Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΎΡ‚ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹, ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΉ количСству Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… встрСчаСтся этот Ρ‚Π΅Ρ€ΠΌ) для Ρ‚Π΅Ρ€ΠΌΠΎΠ²:

angeleslog2(3/1)=1.584
loslog2(3/1)=1.584
newlog2(3/2)=0.584
postlog2(3/1)=1.584
timeslog2(3/2)=0.584
yorklog2(3/2)=0.584

Для всСх Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΌΡ‹ вычислим значСния tf (ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ числа Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ слова ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ числу слов Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°) для всСх Ρ‚Π΅Ρ€ΠΌΠΎΠ² ΠΈΠ· ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ. ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠΌ, Ρ‡Ρ‚ΠΎ слова Π² Π²Π΅ΠΊΡ‚ΠΎΡ€Π΅ упорядочСны ΠΏΠΎ Π°Π»Ρ„Π°Π²ΠΈΡ‚Ρƒ.

angeleslosnewposttimesyork
Document 1001011
Document 2001101
Document 3110010

Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ ΡƒΠΌΠ½ΠΎΠΆΠΈΠΌ значСния tf Π½Π° значСния idf для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚Π΅Ρ€ΠΌΠ°, ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ: (ВсС Ρ‚Π΅Ρ€ΠΌΡ‹ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ Ρ€Π°Π· Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ Π² нашСй нСбольшой ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ максимальноС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π±ΡƒΠ΄Π΅Ρ‚ 1.)

angeleslosnewposttimesyork
Document 1000.58400.5840.584
Document 2000.5841.58400.584
Document 31.5841.584000.5840

Для Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ поискового запроса: β€œnew new times”, ΠΌΡ‹ вычислим tf-idf Π²Π΅ΠΊΡ‚ΠΎΡ€ для запроса, ΠΈ вычислим ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΈΠ· ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ с Π·Π°Π΄Π°Π½Π½Ρ‹ΠΌ запросом, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ косинусной схоТСсти (cosine similarity). ΠŸΡ€ΠΈ вычислСнии tf-idf Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ для Ρ‚Π΅Ρ€ΠΌΠΎΠ² ΠΈΠ· запроса ΠΌΡ‹ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌ частоту Π½Π° ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½ΡƒΡŽ частоту (2) ΠΈ ΡƒΠΌΠ½ΠΎΠΆΠΈΠΌ Π½Π° значСния idf.

query00(2/2)*0.584=0.5840(1/2)*0.584=0.2920

РассчитаСм Π΄Π»ΠΈΠ½Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΈ запроса:

Length of d1 = sqrt(0.584^2+0.584^2+0.584^2)=1.011

Length of d2 = sqrt(0.584^2+1.584^2+0.584^2)=1.786

Length of d3 = sqrt(1.584^2+1.584^2+0.584^2)=2.316

Length of q = sqrt(0.584^2+0.292^2)=0.652

Π—Π°Ρ‚Π΅ΠΌ рассчитаСм ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ ΠΏΠ» Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅

Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС. Π€ΠΎΡ‚ΠΎ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ косинусноС расстояниС:

cosSim(d1,q) = (0*0+0*0+0.584*0.584+0*0+0.584*0.292+0.584*0) / (1.011*0.652) = 0.776

cosSim(d2,q) = (0*0+0*0+0.584*0.584+1.584*0+0*0.292+0.584*0) / (1.786*0.652) = 0.292

cosSim(d3,q) = (1.584*0+1.584*0+0*0.584+0*0+0.584*0.292+0*0) / (2.316*0.652) = 0.112

Богласно ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌ значСниям схоТСсти, ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΉ порядок Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π±ΡƒΠ΄ΡƒΡ‚ прСдставлСны ΠΊΠ°ΠΊ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ запроса Π±ΡƒΠ΄Π΅Ρ‚: d1, d2, d3.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *