Forbhreathnú ar an gcóras Molta agus conas ceann a chur i bhfeidhm ón tús

Cuimsíonn an blag seo forbhreathnú ar chórais mholtaí lena n-áirítear stair, an lá inniu, an todhchaí, catagóirí éagsúla de agus cód ar deireadh chun moladh grinn a phróiseáil.

Grianghraf le Edo Nugroho ar Unsplash

Am atá caite agus an todhchaí:

Má fhéachaimid ar stair an chórais mholtaí rinneadh neamhaird den smaoineamh idir 1992-1996. Sula samhlaítear córais mholtaí fiú sular labhair daoine faoi scagadh comhoibritheach tugadh pearsanú air. Ach bhí sé lámhleabhar ar fad. Mar shampla: Leis an ngníomhaire taistil a bhfuil a fhios aige go bhfuil suim agat i safari coimeádfaidh sé a shúile amach don chineál turais ar mhaith leat, ní amháin rud a bheadh ​​duine ar bith ag iarraidh a dhéanamh. Mar dhara sampla: Bhí roinnt bunachar sonraí simplí ag siopadóirí pearsanta ina bhféadfaidís próifílí daoine a rith tríd nuair a tháinig táirgí nua isteach agus tuairim a fháil faoi na daoine ar mhaith leo a mheas a bheadh ​​ina iarrthóir maith ar tháirge nua. Sa bhliain 2007 d’fhógair Netflix comórtas 1 Milliún dollar agus d’athraigh sé cúrsa an chórais mholta. Mheall sé daoine ó go leor cúlraí chun páirt a ghlacadh sa chomórtas. Tháinig halgartaim nua chun cinn in éineacht le foirmlí matamaiticiúla nua. Dála an scéil tá an leabharlann iontasach a bheidh á úsáid agam chun córas molta grinn a dhéanamh forbartha go hiomlán ag coinneáil súil ar an bpáipéar taighde a d’fhoilsigh foireann bhuaiteoirí Dhuais Netflix. Agus muid ag tnúth tá go leor rudaí nach bhfuil ar eolas againn go fóill. Fadhb an mholta ama. Conas is féidir liom mo mholtaí a chur in iúl ní amháin maidir le rudaí mar shéasúr a bhfuil daoine ag obair orthu ar feadh tamaill ach le seicheamh, cad a d'ith tú ina dhiaidh sin ós rud é gur chaith tú é seo cheana. Bhí go leor moltaí ama ann maidir le hoideachas atá ar cheann de na réimsí.

Roinn leathan an chórais mholtaí:

Den chuid is mó tá dhá chatagóir de chóras moltaí ann. 1. Scagadh comhoibritheach 2. Scagadh ábhar-bhunaithe

Scagadh Comhoibritheach: Tá an eochair do scagadh comhoibritheach bunaithe ar an toimhde go n-aontóidh daoine a d’aontaigh san am atá thart, agus gur mhaith leo míreanna den chineál céanna mar a thaitin leo san am atá thart. Is iad na trí phríomhchatagóir de scagadh comhoibritheach: 1. Cosúlacht Úsáideora-Úsáideora 2. Mír Cosúlacht earra 3. Múnla-Bhunaithe

Cosúlacht úsáideora-úsáideora agus mír-earra

Scagadh Ábhar-bhunaithe: Tá modhanna scagtha ábhar-bhunaithe bunaithe ar thuairisc ar an mír agus ar phróifíl de roghanna an úsáideora. Is fearr a oireann na modhanna seo do chásanna ina bhfuil sonraí ar eolas faoi earra (ainm, suíomh, tuairisc, srl.), Ach ní ar an úsáideoir.

Moladh comhoibritheach vs ábhar-bhunaithe

Réamhriachtanas

Pandas 1.Basic Python 2.Basic 3.Eontacht chun leabharlann iontas a iniúchadh 4. Keras (roghnach)

Más mian leat léim go díreach chuig cóid, téigh chuig an nasc github seo agus faigh leabhar nótaí an jupyter.

Míneoidh mé gach céim mhór a lean mé agus an fhadhb á réiteach agam, ach creidim go láidir má tá suim agat míniú iomlán a fháil ar an bhfadhb agus suim agat eolas a fháil faoi úsáid na leabharlainne iontas ansin caithfidh tú féachaint ar an git repo tar éis duit dul tríd an blag.

Lig Tosaigh. Roinnt eolais bhunúsach faoi na sonraí a úsáidfimid.

Cur síos ar na sonraí

Anois déanfaidh mé plean chun dul i ngleic leis an bhfadhb idir lámha agus bogadh go mall i dtreo an réitigh. Rachaimid trí gach céim le snippets cód. 1. Sonraí a Bhailiú 2. Scoilt tástála traenach 3. Staitisticí simplí 4. Sonraí a struchtúrú go formáid chomhoiriúnach na leabharlainne iontais 5. Méadracht earráide a shainiú 6. Úsáid an tsamhail bhunlíne 7. Bain triail as samhlacha éagsúla 8. Toradh

Sonraí a Bhailiú

  1. Cuirtear 3 bhileog barr feabhais ar fáil i sonraí. Déanfaimid iad a chumasc le chéile agus déanfaimid fráma sonraí pandas python comhcheangailte. Tá 73421 úsáideoir san iomlán againn.
Cumaisc na sonraí go léir

2. Mar a thuairiscítear san fhaisnéis tacar sonraí, ciallaíonn rátálacha 99 nár rátáil an t-úsáideoir an magadh sin. Bainfimid na taifid sin agus ullmhóimid sonraí i bhformáid ['user_id', 'joke_id', 'rátáil'].

Ullmhú sonraí

Scoilt tástála traenach

Úsáidfimid scikit-learn train_test_split agus roinnfimid na sonraí mar 70-30. Beidh sonraí 70% ar fáil le haghaidh traenach agus 30% le haghaidh tástála

Staitisticí bunúsacha

1. Meánráta in aghaidh an úsáideora agus in aghaidh an joke

dáileadh rátála na n-úsáideoirí uiledáileadh rátáil na scéalta grinn go léir

Sonraí a struchtúrú go formáid chomhoiriúnach na leabharlainne iontas

Déanfaimid na sonraí a struchtúrú de réir na leabharlainne iontas. Glacann sé leis na sonraí i bhformáid mar ['úsáideoir', 'magadh', 'rátáil']. Dá mbeadh fadhb againn maidir le moladh scannáin, bheadh ​​na sonraí struchtúrtha againn mar ['úsáideoir', 'scannán', 'rátáil'].

sonraí a ullmhú i stíl leabharlainne iontasach

Méadrach earráide a shainiú

úsáidfimid Meán-Earráid Absalóideach Normalaithe mar mhéadracht earráide.

Foirmle Normalaithe Earráide Absalóidigh Normalaithe (AINM)cód chun NMAE a ríomh

Ag baint úsáide as samhail bunlíne

Cruthóimid samhail bunlíne ag úsáid samhail Bhunlíne a thabharfaidh leabharlann iontas. Tugann an tsamhail bhunlíne 0.2033 NMAE, Déanfaimid iarracht samhlacha éagsúla iontais agus comhcheanglóimid na torthaí go léir chun torthaí níos fearr a fháil.

Bain triail as samhlacha éagsúla

  1. Múnla Bunlíne KNN: Úsáideann sé teicníc bunaithe ar chosúlacht chun rátáil úsáideoirí do Jokes nua a thuar. Is é ár gcás gurb é earráid NMAE 0.196

2. XGBoost ar userAverageRating, jokeAverageRating, aschur Bunlíne agus aschur Bhunlíne KNN: Chuireamar le chéile aschur uile an tsamhail iontas roimhe seo agus reáchtáil muid samhail aischéimnithí XGB ar na sonraí tar éis tiúnadh hipear-pharaiméadair. Faighimid toradh beagán níos fearr anseo de 0.1928 NMAE

3. Múnla SVD: Úsáideann samhail SVD teicnící fachtóireachta maitrís chun fadhb chríochnaithe maitrís a réiteach agus déanann sé an rátáil a thuar.

4. XGBoost ar userAverageRating, jokeAverageRating, aschur Bunlíne, aschur Bunlíne KNN agus aschur samhail SVD. Tugann an tsamhail seo 0.18 NMAE agus is é an ceann is fearr go dtí seo.

5. Múnla le hinnealtóireacht gné: Faighim dhá ghné éasca chun a n-éifeacht ar mhúnla a sheiceáil. Gné amháin is ea user_average + joke_avg-global_avg. Tugann an tsamhail seo NMAE mar is gnách le 20.2. Bhain mé triail as teicnící innealtóireachta gné eile freisin. Níor oibrigh siad go maith freisin.

6. Múnlaí Foghlama Depp ag baint úsáide as keras: Toisc nár oibrigh innealtóireacht gné go maith táim ag pleanáil roinnt samhlacha líonra neural simplí a thriail ag baint úsáide as keras. Bhain mé triail as 3 mhúnla éagsúla. Ceann le gach gné bhunúsach cosúil le meán an úsáideora, meán jóc - an dara agus an tríú ceann leis na gnéithe go léir ach le hailtireachtaí éagsúla. Bhí 14.9% NMAE ag samhail amháin.

Torthaí

Mar is féidir linn a fheiceáil is fearr a oibríonn an tsamhail Second_NN mar tá an earráid tástála is ísle aici.

Smaointe Deiridh

Mar is eol dúinn uile níl samhail ar bith foirfe. Tá scóip ann i gcónaí chun an tsamhail seo a fheabhsú. D’fhéadfadh sé a bheith ag baint triail as teicníc innealtóireachta gné éagsúil, d’fhéadfadh samhlacha níos fearr a bheith mar thoradh ar roinnt sainchomhairle fearainn agus ailtireachtaí líonra neural éagsúla.

Mar dhara nóta is féidir liom a rá go bhfuil córais mholtaí ag fás anois lá. Déanann leabharlann iontas saol na bhforbróirí i bhfad níos éasca trí chur i bhfeidhm samhail cáiliúil a thabhairt. Tá sé an-úsáideach chun córas bunúsach moltaí a chruthú. Sílim gur chomhlíon mé mo chuspóir an blag seo a scríobh agus chuir mé forbróirí ar an eolas faoi leabharlann iontasach le cur isteach beag códaithe. Tá an cód iomlán ar fáil anseo i git.