Treoir Thapa ar Fhoghlaim Aistrithe agus Conas é a Chur i bhFeidhm ar do Líonra Néareolaíoch

Samplaí maidir le hAicmiú Íomhánna agus Próiseáil Teanga Nádúrtha

Ar fáil i Spáinnis | También disponible en español

Ní fhéadfaí an dul chun cinn mór a rinneadh le déanaí i ndomhan Deep Learning a mhíniú gan aon fhachtóir a aontú, mar éabhlóid agus daonlathú na n-uirlisí próiseála, ardáin agus creataí nua a thabhairt isteach, nó teacht ar theicnící iomadúla chun neural a fheabhsú. oiliúint líonra. Ach maidir le héifeachtacht nó cruinneas faighimid príomhfhachtóir a d'athraigh réimsí Fís Ríomhaireachta nó Próiseála Teanga Nádúrtha. San alt seo, míneoidh mé cad é an Fhoghlaim Aistrithe agus cúpla cás úsáide.

Grianghraf le Doug Linstedt ar Unsplash

Nóta: An chuid is mó de na rudaí a deirim anseo d’fhoghlaim mé é ón gcúrsa Deep Learning for Coders a mhúin Jeremy Howard in Ollscoil San Francisco.

Nuair a thugaimid aghaidh ar fhadhb a éilíonn Machine Learning a chur i bhfeidhm lena réiteach, agus roghnaímid líonra domhain neural a úsáid, mar an chéad tasc beidh orainn an ailtireacht is oiriúnaí a roghnú dár gcás ar leith. Chomh luath agus a dhéantar an cinneadh dearaidh seo, tugaimid aghaidh ar an gceist maidir lena pharaiméadair (meáchain agus claontacht) a thionscnamh do gach ciseal inár líontán. Go dtí le déanaí, ba é an nós imeachta is gnách na paraiméadair seo a thionscnamh go randamach laistigh de raon beag, chun cuidiú ar bhealach éigin leis an algartam atá i gceannas ar na luachanna seo a choigeartú sa phróiseas oiliúna. Mar phointe tosaigh níl sé dona (níos fearr i gcónaí ná iad a thosú go nialas) ach bhí sé i gcónaí ina ábhar le go leor spáis le feabhsú.

An chéad tairbhí mór: Computer Vision

Samhlaigh ar feadh nóiméad go bhfuil fadhb againn maidir le haicmiú íomhá, agus muid ag idirdhealú a dhéanamh idir póir chait.

The Brady Bunch, leagan cat

Cad a tharlaíonn má thosaímid in ionad paraiméadair ár líonra a thosú go randamach trí na luachanna a fhaightear tar éis an bhun-ailtireacht chéanna a oiliúint le sraith ollmhór íomhánna lipéadaithe ina raibh cait ann cheana féin (i measc rudaí eile)? Ar an mbealach seo bheimis ag aistriú an eolais a fuarthas i dtasc níos cineálacha go dtí ár gcás ar leith, agus ní thosóimis go hiomlán ón tús.

Sin a fhaighimid agus muid ag glacadh le samhlacha a cuireadh oiliúint orthu roimhe seo thar tacar sonraí ollmhór ImageNet, a bhfuil níos mó ná 14 milliún íomhá ann agus beagnach 22,000 lipéad éagsúil faoi láthair. B’fhéidir gurb é an cás is cáiliúla ná ailtireacht ResNet, buaiteoir an chomórtais aitheantais íomhá a rinne ImageNet in 2015. Tabharfaidh an fhíric an ailtireacht chéanna a úsáid leis na paraiméadair chéanna leis an tsamhail réamh-oilte an cumas dár líonra a lán rudaí a aithint. ón tús, rud a thabharfaidh le tuiscint freisin tréimhse oiliúna an-ghearr. Chiallaigh an úsáid seo de shonraí ImageNet mar phointe tosaigh léim ollmhór i réimse an Fhís Ríomhaireachta.

Sampla de shonraí ImageNet

Mar a luadh cheana, is é an rud a dhéanfaimid ar an gcéad dul síos ná an bhun-ailtireacht a roghnú, atá ag brath ar an bhfadhb áirithe atá le réiteach agus ar ár n-eolas ar na teicnící is fearr atá ann don chás ar leith (tuilleadh ar an ábhar seo níos déanaí ailt). Cuirfimid tús leis an ailtireacht seo le luachanna na bparaiméadar ón tsamhail réamh-oilte, mar sin beidh ár dtorthaí deiridh níos fearr agus bainfear amach i bhfad níos luaithe iad. Is é an chéad rud eile ná an ciseal aschuir a bhaint den bhun-ailtireacht agus sraitheanna breise a chur ag gabháil leis, ionas gur féidir linn an tsamhail bhunaidh a aisghabháil d’fhonn í a chur in oiriúint dár gcás sonrach.

Sa sampla pórtha cait úsáidfimid samhail ResNet réamh-oilte ar shonraí ImageNet mar phointe tosaigh; ansin bain an ciseal aschuir atá freagrach as cinneadh a dhéanamh an raibh cat nó iasc againn (nó rud éigin eile), agus ar deireadh péire sraitheanna deiridh a chur i gceangal le tasc na samhla tosaigh a athdhíriú, ag díriú ar aicmiú na bpór cat de réir na ndifríochtaí a breathnaíodh. eatarthu.

Sampla (Mathworks)

Cleas a d’fhoghlaim mé ón gcúrsa Fast.ai: agus torthaí foghlama aistrithe á gcur i bhfeidhm is féidir feabhas mór a chur orainn má dhéanaimid oiliúint ar ár múnla ar dtús le leaganacha laghdaithe de na híomhánna bunaidh, agus ina dhiaidh sin déanaimid oiliúint air le híomhánna níos mó. Feabhsaítear na torthaí toisc gur cosúil gur tacar sonraí difriúil atá i súile ár líonra. Tugtar méid forásach ar an teicníc seo, agus oibríonn sí ar íosmhéid íomhá de 64x64 picteilín.

Straitéis oiliúna don líonra neural le foghlaim aistrithe

Is féidir linn nós imeachta beagnach cineálach a leanúint agus muid ag traenáil aon líonra a úsáideann foghlaim aistrithe. Cuirfimid straitéis dhá chéim i bhfeidhm:

Sa chéad chéim déanfaimid na paraiméadair a bhaineann leis an mbun-ailtireacht a reo. Bheadh ​​sé rud beag áiféiseach na paraiméadair ó na chéad shraitheanna a athoiriúnú ar an mbealach céanna le paraiméadair na cinn nua-bhreise, mar is ar éigean a fheabhsóimid cumas an tsamhail bhunaidh cruthanna simplí a bhrath, mar shampla trasnáin nó grádáin (rud atá bainte amach cheana féin ag an gcéad chiseal). Roghnóimid ráta foghlama iomchuí chun na paraiméadair sna sraitheanna breise a choigeartú (ní ró-ard chun ascalaithe a chosc, ná ró-íseal d’fhonn fanacht go deo a sheachaint). Beidh an t-am oiliúna beag mar níl mórán paraiméadair ann le hoiriúnú; ba cheart go mbeadh cúpla tréimhse (atriall iomlán ar na sonraí go léir) leordhóthanach.

Sa dara céim déanfaimid iarracht an tsamhail a fheabhsú trí choigeartú breá a reáchtáil. Is é an chéad rud a dhéanfaimid ná na paraiméadair ó na bunsraitheanna a nochtadh chun a luachanna a choigeartú beagán. Roghnóimid raon don uasráta foghlama trí na sraitheanna éagsúla ionas gur ar éigean a athraíonn meáchain na mbonn-sraitheanna, agus beidh corrlach modhnóireachta níos mó ag na meáchain deiridh (cé go mbeidh sé níos lú ná sa chéad chéim). Déanfaimid ár líontán a oiliúint le haghaidh tuilleadh eochracha; go bunúsach go dtí go n-éireoidh an earráid bhailíochtaithe go seasta.

Foghlaim a Aistriú le haghaidh Próiseála Teanga Nádúrtha

Ba é an chúis ba mhó taobh thiar de na feabhsuithe móra a baineadh amach cúpla bliain ó shin sa réimse Próiseála Teanga Nádúrtha (NLP) ná Aistriú Foghlama.

Tosaímid ó bhonn: de ghnáth beidh ár tacar sonraí teoranta laistigh d’ábhar ar leith, agus ní bheidh sé mór go leor chun ligean dúinn an chastacht atá taobh thiar den teanga a thuiscint.

In 2018 d’fhoilsigh Jeremy Howard agus Sebastian Ruder páipéar ag tabhairt isteach ULMFiT (Fine-Modeling Universal Language Tuning), modh cineálach chun an Fhoghlaim Aistrithe a chur i bhfeidhm ar aon fhadhb NLP, ag tabhairt chun cinn sa réimse seo na dul chun cinn a baineadh amach roimhe seo i réimse Fís Ríomhaireachta. An iarmhairt: na torthaí is fearr a chonacthas go dtí seo (le feabhas cruinnis 18-24%) i roinnt tacar sonraí clasaiceach, mar an ceann a úsáideadh chun athbhreithnithe scannáin IMDB a aicmiú go dearfach agus diúltach.

Níl próiseáil teanga nádúrtha chomh simplí sin

Seo a leanas na céimeanna a glacadh don sampla seo agus fadhbanna eile dá samhail:

1. Roghnaigh samhail réamh-oilte (nó cruthaigh agus traenáil ceann nua) i dtasc téacs níos cineálacha mar phointe tosaigh. In NLP úsáidfimid an rud ar a dtugtar samhail teanga, a dhéanann iarracht, mar shampla, an chéad fhocal eile in abairt a thuar, mar a fheicimid i méarchláir thuarthacha. Éilíonn an tasc seo eolas domhain ar an teanga agus ar an domhan timpeall orainn; ní leor oibriú le n-gram (focail a bhíonn le chéile de ghnáth) mar a rinneadh roimhe seo chun an cumas a fháil chun abairtí a leanúint. Ach… cad a tharlóidh má chuireann muid Deep Learning i bhfeidhm ag baint úsáide as tacar sonraí níos mó cosúil le carn mór alt a tógadh ó Wikipedia? Is cosúil gur smaoineamh maith é! Ní bheidh sé an-úsáideach an chéad fhocal eile a thuar dár dtasc deiridh aicmithe, ach trína bhaint amach beidh eolas an-luachmhar againn ar an teanga agus ar an réaltacht ina gcuirtear i bhfeidhm í. I bhfad níos fearr ná tosú le paraiméadair randamacha, nach bhfuil?

Ní dhéanfar an chéad chéim seo arís agus arís eile fiú má athraíonn ár bhfadhb nó ár bhfearann, fad is a úsáidtear an teanga chéanna.

2. Déan an tsamhail teanga a bheachtú trí Fhoghlaim Aistrithe a chur i bhfeidhm, d’fhonn ceann nua a chruthú atá go maith chun an chéad fhocal eile a thuar ach laistigh dár bhfearann ​​sonrach; sa chás seo athbhreithnithe ar scannáin. Cuirfimid an glan lenár tacar sonraí, ar a dtugtar sprioc-chorpas freisin, agus cuirfimid comharthaíocht i bhfeidhm (deighilt an téacs ina aonaid nó comharthaí íosta), normalú agus uimhriú (bí cúramach le comharthaí speisialta). Moltar na sonraí go léir atá ar fáil a úsáid, lena n-áirítear samplaí tástála; ós rud é nach gá a gcuid lipéad (a úsáidfear lena n-aicmiú) chun an chéad fhocal eile a thuar. Beimid ag teacht leis na samplaí go léir agus cúlchiste mar shampla 10% den iomlán chun an tsamhail a bhailíochtú.

Ní gá an tsamhail iomlán a choinneáil; is leor é leis an ionchódóir, agus sin an chuid a d’fhoghlaim an teanga (agus ní an ceann a ghineann an chéad fhocal eile).

Go dtí seo tá foghlaim féin-mhaoirsithe againn, gan aon ghá samplaí lipéadaithe ag an duine a úsáid, ós rud é go bhfuil iad sa tacar sonraí féin cheana féin. Foghlaimeoidh an tsamhail inár gcás conas a scríobhtar léirmheasanna scannáin, fiú gan a fhios a bheith dearfach nó diúltach.

3. Cruthaigh an t-aicmitheoir sonrach dár dtasc áirithe (chun idirdhealú a dhéanamh idir athbhreithnithe dearfacha agus diúltacha), ag aistriú an méid a d’fhoghlaim an tsamhail roimhe seo (bheadh ​​an tsamhail seo bailí d’aon aicmitheoir eile bunaithe ar na sonraí céanna).

Íomhá aistrithe ó fast.ai.

Sa chéad chéim ní dhéanfaimid traenáil ach ar na sraitheanna atá i gceangal. Leanfaimid orainn ag traenáil sa dara céim ach gan an líonra iomlán a dhíspreagadh ag an am céanna mar a rinneamar maidir le haicmiú íomhánna; ar dtús déanfaimid na sraitheanna deireanacha den bhun-ailtireacht a dhíspreagadh agus déanfaimid oiliúint orthu ar feadh tamaill… ansin díghlasálfaidh muid cúpla sraith eile agus traenálfaimid giota eile… agus mar sin de go dtí go scaoilfimid amach é go hiomlán agus go gcuirfimid oiliúint air uair amháin eile.

Beidh an tsamhail a thiocfaidh as seo tar éis an phointe seo in ann a fháil amach an bhfuil athbhreithniú dearfach nó diúltach :)

Conclúid

Nuair a oibrímid ar fhadhb foghlama meaisín a bhaineann le híomhánna nó le téacs, bíonn sé áisiúil i gcónaí machnamh a dhéanamh ar Fhoghlaim Aistrithe chun ár bparaiméadar líonra neural a thionscnamh.

Chun fadhbanna atá frámaithe sna réimsí seo a réiteach, comhaireamh muid le go leor samhlacha réamh-oilte a bheidh an-úsáideach dúinn; ní mór dúinn ach an ceann ceart a roghnú:

  • Fís Ríomhaireachta: samhlacha do PyTorch, Keras
  • Próiseáil Teanga Nádúrtha: Claochladáin ([*] BERT, GPT-2,…), ULMFiT, srl.
Ernie, Elmo agus Bert

Is teicníc réasúnta nua í an Fhoghlaim Aistrithe, le go leor le feabhsú sna réimsí roimhe seo (bíonn samhlacha nua le feiceáil gach seachtain), agus fós le hiniúchadh agus le saothrú i roinnt réimsí eile. Is cinnte gur ábhar é a leanfaidh tú go dlúth agus is fiú é a imscrúdú má oibríonn tú le líonraí neural :)

PS- Féach ar na leabhair nótaí Python seo le haghaidh samplaí iomlána ag úsáid fastai: Aicmiú íomhá + Aicmiú athbhreithnithe IMDB.

Tá súil agam gur thaitin leat é! Liostáil le #yottabytes ionas nach gcailleann tú ailt mar an gceann seo :)