Mašīnmācība. Kā mašīnmācīšanās palīdz bankām un maksājumu sistēmām mašīnmācības pakalpojumiem

Azure Machine Learning pakalpojums pašlaik ir pieejams publiskajā priekšskatījumā ikvienam, kam ir Azure konts (vai vismaz izmēģinājuma piekļuve). Ja jums rodas jautājums, kāpēc es vienmēr esmu bijis tik sajūsmā par šo tehnoloģiju, apskatiet manu emuāra ierakstu pirms mēneša vai lasiet tālāk par šo ziņu, kurā es to visu apskatīšu.

Īsāk sakot, lai veiktu paredzamos analītiskos uzdevumus, izmantojot Azure Machine Learning, jums vienkārši jāveic šīs darbības:

Augšupielādējiet vai importējiet tiešsaistē jebkuru pašreizējo vai uzkrāto datus(piem., jūsu klienta demogrāfiskie dati un viņa kopējie izdevumi)
Veidojiet un apstipriniet modelis(piemēram, prognozējiet izmaksas, pamatojoties uz demogrāfiskajiem datiem)
Izveidojiet tīmekļa pakalpojumu, kas izmanto jūsu modeļus ātrai darbībai prognozes reāllaikā (izlemiet, kurus piedāvājumus sniegt jaunam klientam, pamatojoties uz viņa demogrāfiskajiem datiem)

Azure ML pakalpojums (pazīstams arī kā Pasavas projekts) attēlo divi konceptuāli komponenti: eksperimentiem Un Tīmekļa pakalpojumi un viens izstrādes rīks, ko sauc ML studija. Varat uzaicināt citus cilvēkus, kuriem ir konts Microsoft (Live ID) sadarbībai jūsu darba vidē ( darba vietas) ar ML Studio, viņiem pat nav jāmaksā par Azure abonementu, lai strādātu ar jums.

Eksperimenti var attēlot kā plūsmas konfigurācijas ( datu plūsma) ko jūs vēlētos darīt ar savu informāciju un modeļiem. Jūs kā Azure ML datu zinātnieks koncentrējaties uz eksperimentiem un visu savu laiku programmā ML Studio varat pavadīt, tikai pārbūvējot eksperimentus, mainot parametrus, algoritmus, validācijas kritērijus, periodiski veicot izmaiņas datos un tā tālāk. ML Studio ir tīmekļa lietojumprogramma, un tās izskats ir līdzīgs Azure pārvaldības portālam (raksta tapšanas laikā 2014. gada vidus). Interfeiss izskatās tīrs, jauks un labi darbojas ne tikai IE, bet arī Firefox un Chrome, lai gan ar dažiem brīdinājumiem, taču šī ir tikai pirmā priekšskatījuma versija.

ML Studio ir vieta, kur jūs sākat darbu, izlemjot, kurus datu avotus vēlaties izmantot: augšupielādētās datu kopas vai reāllaika datus, kas pieejami, izmantojot ML Studio programmu. lasītājs no tīmekļa lapas, OData, SQL Azure, Microsoft Azure, Hive vai Azure blobiem. Pēc tam, iespējams, vajadzēs izveidot dažus Datu transformācijas, piemēram, grupēšana, kolonnu pārdēvēšana, sapludināšana, dublēšanas atcelšana vai ļoti noderīga binning/diskretizācijas darbība. Turklāt varat izmantot citas, interesantākas transformācijas, piemēram, filtrus ierobežotai un bezgalīgai ievades reakcijai ( Ierobežots un Bezgalīga ievades atbilde) kuras izmanto signālu apstrādē. Tos var arī plašāk piemērot ekonomiskajiem datiem, kurus var uzskatīt par sarežģītiem viļņiem (piemēram, īpaši laika rindas). Tā ir daļa no darba sezonalitātes noteikšana un bieži vien ir saistīts ar muzikālajām frekvencēm līdzīgu frekvenču meklēšanu šajās sezonalitātēs. Turklāt, ja jūs tikko sākat savu projektu un neesat īsti pārliecināts, kuru datu sleju iekļaut, automātiskās funkciju atlases filtri ( Funkciju izvēle) var jums noderēt, piedāvājot labu mērījumu korelāciju izvēli. Tomēr praksē turpmākajās darbībās kolonnu kopu vēlaties norādīt manuāli, lai nodrošinātu maksimālu precizitāti.

Tagad mēs pāriesim pie tā, ko esam gaidījuši: reālas mašīnmācības veikšana - ko nozīmē modeļa inicializācija (definēšana), apmācība ( Vilciens) modelē dažus datus, Pārbauda ( Novērtēt) modeļa veiktspēju un tā derīgumu un, ja viss ir kārtībā, punktu skaitu ( Rezultāts) modeļi (uz tā pamata veic prognozes). Azure ML piedāvā daudzus algoritmus Klasifikācijas uzdevumus, tostarp daudzklase Un Divu šķiru lēmumu meži, lēmumu džungļi(izstrādājis Microsoft Research), Loģistiskā regresija, neironu tīkli, kā arī Divu klašu vidējie perceptroni, Bayes Point Machine, pastiprināti lēmumu koki Un Atbalstiet vektora mašīnas (SVM). Klasterizācija izmanto standarta K-Means pieejas variantu. Regresijas ietver Bajesa lineārie, palielināti lēmumu koki, lēmumu meži, noteikti Lineārā regresija, Neironu tīkla regresija, kārtas Un Puasona regresija. Un tas ir tikai 1. versijā.

Jūs varat izmantot noderīgu Statistikas funkcijas savos eksperimentos, tai skaitā vispārīgas elementāras, piemēram, noviržu aprēķināšana. Izmēģiniet to pats, sāciet, vienkārši norādot uzdevumu Aprakstošā statistika jūsu datiem un vizualizēt ( Vizualizācija) rezultāti (uzdevumos izmantojiet savienojuma punktus). Izbaudiet elementus boxplots iegūtajās vizualizācijās - kaut kas, kas jau sen trūkst visos Microsoft BI rīkos, pat Excel ...

Viens lielisks piemērs tam, kā Azure ML nodrošina jūsu eksperimentos ārējo izpēti, ir atrodams uzdevumu sadaļā. Teksta analīze. Uzdevums Nosaukta entītijas atpazīšanaļaus apstrādāt ievadīto tekstu (sauc stāsti piemēram, e-pasta adreses, drukāti situāciju apraksti vai tvīti) un izņemiet no tiem nosaukumus, automātiski klasificējiet tos kā Cilvēki, vietas vai Organizācijas. Ir arī atbalsts Vowpal Wabbit projektam, kuru atbalsta Yahoo un Microsoft Research. Varat to izmantot, lai pēc pieprasījuma iegūtu entītiju jaucējus. Es ceru uz vairāk rīku un iespēju šajā jomā nākotnē, jo Microsoft acīmredzami ir glabājis milzīgu daudzumu zināšanu Bing.

Deep R valodas atbalsts

Turklāt iekšpusē varat izmantot Azure ML. Manuprāt, šodien Azure ML satur aptuveni 410 iepriekš instalētas pakotnes papildus R 3.1.0 (pārsteidzoši, jaunākā versija). Paketēs ietilpst ggplot2(Jā!), plyr Un dplyr, automašīna, datu kopas, HMisc, MASS un visas pārējās visbiežāk izmantotās datu ieguves pakotnes. patīk rpart, nnet, izdzīvošana, boot utt.

Ja vēlaties atrast pakotņu sarakstu, kas ir iekļautas Azure ML, vienkārši izveidojiet nelielu eksperimentu, piemēram, šeit parādīto, palaidiet R kodu un saglabājiet iegūto CSV savā datorā. 1. ailē tiks parādītas visas iekļautās paketes.

Ko darīt, ja jūsu iecienītākā R pakete (piemēram, ROCR vai nleqslv) nav sarakstā? Faktiski dokumentācija var jūs mulsināt. Tajā teikts, ka "pašlaik" nav iespējams instalēt savas pakotnes, tomēr dokumentācijā ir aprakstīts risinājums, kas palīdz iekļaut pakotni, izmantojot zip failu. Šīs saites apakšā varat atrast šīs pieejas aprakstu, kurā parādīts, kā pieteikties install.packages() izmantojot saiti uz uzdevumam nodoto failu Izpildiet R skriptu.

Manuprāt, galvenais, lai saprastu, cik svarīgi ir, ka R ir daļa no Azure ML, ir ne tikai tas, ka platforma nodrošina piekļuvi de facto statistikas un analītikas valodai (lingua-franca), bet arī tas, cik ātri un nesāpīgi tā ir. Jūsu datu apstrādes laikā. Tas ir īpaši pamanāms uz fona, ka R pati par sevi nav tik ērts rīks datu manipulēšanai. Tāpēc tā vietā, lai izmantotu ievērotas RODBC(iespējots) savā R skriptā, iespējams, vēlēsities apsvērt iespēju izmantot Azure ML visiem smagajiem datu apstrādes uzdevumiem (atvainojiet, fani plyr) un nosūtiet datus R skriptam kā Azure ML datu kopu datu tabula, kas kļūst pieejams kā R datu rāmis. Dati maģiski parādīsies jūsu skriptā kā objekts, ko sauc datu kopa. Varat pievienot vairākus datu avotus.

Es vēl neesmu pabeidzis veiktspējas testus, taču viss, kas var uzlabot R veiktspēju lielās datu kopās, ir apsveicams. Turklāt šīs funkcijas izskatās kā acīmredzama mākoņdatošanas pakalpojumu sniedzēja priekšrocība salīdzinājumā ar parasto risinājumu. Un es varu iedomāties, ka Microsoft izmanto vairākus trikus, lai uzlabotu veiktspēju, kad datu kopas no Azure ir saistītas ar Azure ML pakalpojumu, pat ja pašlaik tiek ņemts vērā 10 GB ierobežojums.

Izmantojot vai bez R, varat veikt darba eksperimentu, ko varat izmantot kā darba elementu savā tīmekļa lietojumprogrammā. Iedomājieties, ka tikko esat izveidojis ieteikumu sistēmu. Runājot par Azure ML noteikumiem, jums ir eksperiments, kurā tiek izmantots vērtēšanas uzdevums. Jūs definējat, kurš no ievades portiem ir jāizmanto Publicēt ievadi par jūsu tīmekļa pakalpojumu un attiecīgi to, kas būtu jāņem vērā Publicēt izvadi. Uzdevuma kontūrā tie tiks attēloti kā mazas zaļas un zilas lodes. Jūs vēlreiz palaižat eksperimentu un izmantojat Studio ML, lai to publicētu kā Azure ML tīmekļa pakalpojums. Tagad jūs varat patērēt rezultātus, izmantojot Azure ML REST API kā vienkāršu tīmekļa pakalpojumu vai beigu punkts OData. Šis API piedāvā Pieprasījumu atbildes pakalpojums (RRS) sinhronai piekļuvei ar zemu latentumu prognožu veikšanai un asinhronai izpildei Pakešu izpildes pakalpojums (BES) lai pārkvalificētu modeli ar, piemēram, jūsu nākotnes svaigajiem datiem. Šis API piedāvā automātiski ģenerētu parauga kodu, ko varat vienkārši kopēt un ielīmēt, lai izmantotu Python, R vai C# lietojumprogrammā vai jebkur citur, jo tas viss ir balstīts uz REST un JSON.

Ir pieejama forša maza testēšanas lapa, kas ļaus ievadīt vajadzīgās vērtības jaunam pakalpojumam un veikt testa prognozi.

Pakalpojumā ir arī papildu iespējas, kas paredzētas praktiskai lietošanai, piemēram, neļaujot Microsoft automātiski atjaunināt kādu no jūsu eksperimenta komponentiem (uzdevumiem utt.), kuru mainīšana var mainīt vai pat sabojāt jūsu darbu. Pareizs lēmums, Microsoft ir tāds, ar ko nepatīk saskarties jebkuram IT speciālistam, kurš uztur tīmekļa sistēmas. Varat pārbaudīt pakalpojuma atjauninājumus iestudējot un konfigurēt drošību, izmantojot API piekļuves atslēgu.

Cena

Cik tas viss maksā? Ņemot vērā priekšskatījuma versijas cenas, tā izskatās ļoti pievilcīga. Ir divu veidu izmaksas, stundas skaitļošana ( stundā aktīvais aprēķins) un samaksa par tīmekļa pakalpojumu API zvaniem ( katram tīmekļa pakalpojuma API zvanam), abi izmaksu veidi ir proporcionāli. Stundas samaksa ir zemāka, ja izmantojat ML Studio (0,38 ASV dolāri stundā), un nedaudz augstāka ražošanā, izmantojot ML API pakalpojumu (0,75 ASV dolāri stundā). API izsaukumi netiek skaitīti, kamēr izmantojat ML Studio, un ražošanas laikā tie maksā 0,18 $ par 1000 prognozēm. Ja kas, tas ir interesants un ārkārtīgi vienkāršs cenu noteikšanas modelis, atšķirībā no citiem, kas ir bijuši Microsoft. Man ir ļoti interesanti uzzināt, ko mani izstrādātāju klienti domā par to, ka pastāv lieliska iespēja efektīvi tālākpārdot Azure ML kā daļu no savas tīmekļa lietojumprogrammas, veicot tikai minimālas uzturēšanas pūles, pašam neveidojot visu sistēmu. .

Kur sākt?

Kur sākt? Apmeklējiet vietni azure.microsoft.com, abonējiet un izveidojiet darbvietu Jaunums/Datu pakalpojumi/mašīnmācība. Pēc tam dodieties uz paneli mērinstrumentu panelis un noklikšķiniet uz saites Pierakstieties ML Studio. Pārskatot uzdevumus, kas definēs Eksperimentu, es ieteikšu izvēlēties vienu no daudzajiem piemēriem, izveidot tā kopiju un palaist to. Ja tas darbojas, veiciet iepriekš norādītās darbības, lai publicētu to kā savu pirmo prognožu tīmekļa pakalpojumu.

Protams, nepalaidiet garām mūsu gaidāmos videoklipus un rakstus par šo tēmu: kļūstiet par vietnes dalībnieku, lai saņemtu biļetenu ar plašāku informāciju. Ja vēlaties ātri sākt darbu, apskatiet mūsu datu ieguves apmācību, jo īpaši datu ieguves moduļus, jo šie jēdzieni ir īpaši gadījumi, ievade Un izvades kolonnas noteikti noderēs, strādājot ar Azure ML.

Es novēlu jums izbaudīt mašīnmācīšanos!

Ikdienā mums jātiek galā ar grāmatvedības un klientu pieprasījumu apstrādes uzdevumiem. Gadu gaitā esam uzkrājuši lielu skaitu dokumentētu risinājumu un domājām, kā šo zināšanu apjomu izmantot. Mēs mēģinājām izveidot zināšanu bāzi, izmantot Service Desk iebūvēto meklēšanu, taču visas šīs metodes prasīja daudz pūļu un resursu. Rezultātā mūsu darbinieki biežāk izmantoja interneta meklētājus, nevis savus risinājumus, ko, protams, mēs nevarējām tā atstāt. Un mēs esam nākuši palīgā tehnoloģijām, kuru pirms 5-10 gadiem nebija, bet tagad tās tiek plaši izmantotas. Tas ir par to, kā mēs izmantojam mašīnmācīšanos, lai atrisinātu klientu problēmas. Mēs izmantojām mašīnmācīšanās algoritmus, lai atrastu līdzīgus incidentus, kas jau notikuši pagātnē, lai piemērotu to risinājumus jauniem incidentiem.

Palīdzības dienesta operatora uzdevums

Palīdzības dienests (Service Desk) - sistēma lietotāju pieprasījumu ierakstīšanai un apstrādei, kas satur tehnisko kļūmju aprakstus. Palīdzības dienesta operatora uzdevums ir apstrādāt šos zvanus: viņš sniedz norādījumus par problēmu novēršanu vai novērš tos personīgi, izmantojot attālo piekļuvi. Tomēr vispirms ir jāizstrādā recepte problēmas novēršanai. Šajā gadījumā operators var:

Izmantojiet zināšanu bāzi.
Izmantojiet Service Desk iebūvēto meklēšanu.
Pieņemiet lēmumu pats, pamatojoties uz savu pieredzi.
Izmantojiet tīkla meklētājprogrammu (Google, Yandex utt.).

Kāpēc ir nepieciešama mašīnmācība

Kādi ir visattīstītākie programmatūras produkti, kurus varam izmantot:

Apkalpošanas lete platformā 1C: Enterprise. Ir tikai manuāls meklēšanas režīms: pēc atslēgvārdiem vai izmantojot pilna teksta meklēšanu. Ir sinonīmu vārdnīcas, iespēja aizstāt burtus vārdos un pat izmantot loģiskos operatorus. Tomēr šie mehānismi ir praktiski bezjēdzīgi ar tādu datu apjomu, kāds mums ir - ir daudz rezultātu, kas apmierina vaicājumu, bet nav efektīvas kārtošanas pēc atbilstības. Ir zināšanu bāze, kuras atbalsts prasa papildu pūles, un meklēšanu tajā apgrūtina saskarnes neērtības un nepieciešamība izprast tās kataloģizāciju.
JIRA no Atlasijas. Slavenākais rietumu servisa galds ir sistēma ar uzlabotu, salīdzinot ar konkurentiem, meklēšanu. Ir pielāgoti paplašinājumi, kas integrē BM25 meklēšanas ranžēšanas funkciju, ko Google izmantoja savā meklētājprogrammā līdz 2007. gadam. BM25 pieeja ir balstīta uz vārdu “svarīguma” novērtēšanu trāpījumos, pamatojoties uz to sastopamības biežumu. Jo retāks ir atbilstošais vārds, jo vairāk tas ietekmē rezultātu kārtošanu. Tas ļauj nedaudz uzlabot meklēšanas kvalitāti, kad liels apjoms pieprasījumus, tomēr sistēma nav pielāgota krievu valodas apstrādei un kopumā rezultāts ir neapmierinošs.
Interneta meklētājprogrammas. Pati risinājumu meklēšana aizņem vidēji 5 līdz 15 minūtes, kamēr netiek garantēta atbilžu kvalitāte, kā arī to pieejamība. Gadās, ka garā diskusijā forumā ir vairākas garas instrukcijas, un neviena no tām neder, un pārbaude prasa veselu dienu (galu galā tas var aizņemt ilgu laiku bez rezultātu garantijas).

Galvenās grūtības meklēšanā pēc zvanu satura ir tādas, ka būtībā vienādu darbības traucējumu simptomi ir aprakstīti ar dažādiem vārdiem. Turklāt aprakstos bieži ir slengs, gramatikas kļūdas un pasta sūtīšanas veidi, kā Lielākā daļa pieteikumu tiek saņemti pa e-pastu. Mūsdienu palīdzības dienesta sistēmas pakļaujas šādām grūtībām.

Kādu risinājumu mēs nonācām pie mums?

Vienkārši sakot, meklēšanas uzdevums izklausās šādi: jaunam ienākošajam pieprasījumam ir jāatrod no arhīva pēc nozīmes un satura līdzīgākie pieprasījumi un jāizdod tiem piešķirtie risinājumi. Rodas jautājums – kā iemācīt sistēmai izprast apelācijas vispārējo nozīmi? Atbilde ir datora semantiskā analīze. Mašīnmācīšanās rīki ļauj izveidot zvanu arhīva semantisko modeli, izvelkot semantiku no teksta aprakstiem atsevišķi vārdi un veseli pieprasījumi. Tas ļauj mums skaitliski novērtēt lietojumprogrammu tuvuma mērījumu un atlasīt tuvākās atbilstības.

Semantika ļauj ņemt vērā vārda nozīmi atkarībā no tā konteksta. Tas ļauj saprast sinonīmus, noņemt vārdu neskaidrību.

Tomēr pirms mašīnmācības izmantošanas teksti ir iepriekš jāapstrādā. Lai to izdarītu, esam izveidojuši algoritmu ķēdi, kas ļauj iegūt katra zvana satura leksisko bāzi.

Apstrāde sastāv no zvanu satura attīrīšanas no nevajadzīgiem vārdiem un simboliem un satura sadalīšanas atsevišķās leksēmās - marķieros. Tā kā apelācijas tiek nosūtītas e-pastā, atsevišķs uzdevums ir iztīrīt pasta veidlapas, kas atšķiras atkarībā no vēstules. Lai to izdarītu, esam izstrādājuši savu filtrēšanas algoritmu. Pēc tās piemērošanas mums paliek vēstules teksta saturs bez ievadvārdiem, apsveikumiem un parakstiem. Pēc tam no teksta tiek noņemtas pieturzīmes, un datumi un cipari tiek aizstāti ar īpašām atzīmēm. Šis vispārināšanas paņēmiens uzlabo semantisko attiecību starp marķieriem iegūšanas kvalitāti. Pēc tam vārdi iziet cauri lematizācijai – vārdu ievešanai normālā formā, kas arī uzlabo kvalitāti, pateicoties vispārināšanai. Pēc tam tiek izslēgtas runas daļas ar zemu semantisko slodzi: prievārdi, starpsaucieni, daļiņas utt. Pēc tam visas burtu zīmes tiek filtrētas vārdnīcās (krievu valodas nacionālais korpuss). Punktu filtrēšanai tiek izmantotas IT terminu un slengu vārdnīcas.

Apstrādes rezultātu piemēri:

Mēs izmantojam kā mašīnmācības rīku Rindkopas vektors (word2vec) ir dabisko valodu semantiskās analīzes tehnoloģija, kas balstās uz vārdu izkliedētu vektora attēlojumu. Izstrādāja Mikolov et al sadarbībā ar Google 2014. gadā. Darbības princips ir balstīts uz pieņēmumu, ka līdzīgos kontekstos atrodamajiem vārdiem ir līdzīga nozīme. Piemēram, vārdi "internets" un "savienojums" bieži tiek atrasti līdzīgos kontekstos, piemēram, "Internets 1C serverī pazuda" vai "Savienojums 1C serverī pazuda". Rindkopas vektors analizē teikumu teksta datus un secina, ka vārdi "internets" un "pieslēgums" ir semantiski tuvi. Jo augstāka ir šādu secinājumu atbilstība, jo vairāk teksta datu tiks izmantots algoritmā.

Iedziļinoties detaļās:

Pamatojoties uz apstrādāto saturu, katrai apelācijai tiek apkopoti “vārdu maisi”. Vārdu maiss ir tabula, kas atspoguļo katra vārda sastopamības biežumu katrā trāpījumā. Rindas ir dokumentu numuri, bet kolonnas ir vārdu numuri. Krustojumā ir skaitļi, kas parāda, cik reižu šis vārds parādās dokumentā.

Šeit ir piemērs:

pazūd interneta serveris 1C
Zaudēts savienojums serveris 1C
rudens serveris 1C

Un šādi izskatās vārdu maiss:

Izmantojot bīdāmo logu, tiek noteikts katra apgrozībā esošā vārda konteksts (tā tuvākie kaimiņi pa kreisi un pa labi) un sastādīts apmācības paraugs. Pamatojoties uz to, mākslīgais neironu tīkls iemācās paredzēt vārdus apgrozībā atkarībā no to konteksta. Semantiskās pazīmes, kas iegūtas no zvaniem, veido daudzdimensionālus vektorus. Mācīšanās gaitā vektori izvēršas telpā tā, ka to pozīcija atspoguļo semantiskās attiecības (tuvās atrodas tie, kas pēc nozīmes ir tuvi). Kad tīkls apmierinoši atrisina prognozēšanas problēmu, var teikt, ka tas ir veiksmīgi ieguvis pretenziju semantisko nozīmi. Vektora attēlojumi ļauj aprēķināt leņķi un attālumu starp tiem, kas palīdz skaitliski novērtēt to tuvuma mēru.

Kā mēs atkļūdojām produktu

Tā kā mākslīgo neironu tīklu apmācībai ir daudz iespēju, radās uzdevums atrast optimālās apmācības parametru vērtības. Tas ir, tie, kuros modelis visprecīzāk noteiks tās pašas tehniskās problēmas, kas aprakstītas dažādos vārdos. Sakarā ar to, ka algoritma precizitāti ir grūti novērtēt automātiski, esam izveidojuši atkļūdošanas saskarni manuālai kvalitātes novērtēšanai un analīzes rīkus:

Lai analizētu mācību kvalitāti, mēs izmantojām arī semantisko attiecību vizualizāciju, izmantojot T-SNE, dimensiju samazināšanas algoritmu (pamatojoties uz mašīnmācīšanos). Tas ļauj attēlot daudzdimensiju vektorus plaknē tā, lai attālums starp atskaites punktiem atspoguļotu to semantisko tuvumu. Piemēri atspoguļos 2000 trāpījumu.

Zemāk ir labas modeļu apmācības piemērs. Varat redzēt, ka daži zvani ir sagrupēti klasteros, kas atspoguļo to vispārējo tēmu:

Nākamā modeļa kvalitāte ir daudz zemāka nekā iepriekšējā. Modelis ir nepietiekami apmācīts. Vienotais sadalījums norāda, ka semantisko attiecību detaļas tika apgūtas tikai vispārīgi, kas jau tika atklāts manuālajā kvalitātes novērtējumā:

Visbeidzot, modeļa pārkvalifikācijas grafika demonstrācija. Lai gan ir dalījums tēmās, modelis ir ļoti zemas kvalitātes.

Mašīnmācības ieviešanas ietekme

Pateicoties mašīnmācīšanās tehnoloģiju izmantošanai un mūsu pašu teksta tīrīšanas algoritmiem, mēs ieguvām:

Papildinājums standarta nozares informācijas sistēmai, kas ievērojami ietaupa laiku, meklējot risinājumus ikdienas apkalpošanas dienesta uzdevumiem.
Samazināta atkarība no cilvēka faktora. Pēc iespējas ātrāk lietojumprogrammu var atrisināt ne tikai tas, kurš to jau ir atrisinājis, bet arī tas, kurš ar problēmu nemaz nav pazīstams.
Klients saņem labāku servisu, ja agrāk inženierim nepazīstamas problēmas risināšana prasīja no 15 minūtēm, tad tagad līdz 15 minūtēm, ja kāds šo problēmu jau ir atrisinājis iepriekš.
Izpratne par to, ka pakalpojumu kvalitāti var uzlabot, paplašinot un uzlabojot problēmu aprakstu un risinājumu datubāzi. Mūsu modelis tiek pastāvīgi pārkvalificēts, jo kļūst pieejami jauni dati, kas nozīmē, ka tā kvalitāte un gatavo risinājumu skaits pieaug.
Mūsu darbinieki var ietekmēt modeļa īpašības, pastāvīgi piedaloties meklēšanas un risinājumu kvalitātes novērtēšanā, kas ļauj to nepārtraukti optimizēt.
Rīks, ko var padarīt sarežģītāku un attīstīt, lai iegūtu lielāku vērtību no pieejamās informācijas. Turklāt plānojam partnerībā iesaistīt citus ārpakalpojumu sniedzējus un modificēt risinājumu, lai atrisinātu līdzīgas problēmas mūsu klientiem.

Līdzīgu izsaukumu meklēšanas piemēri (saglabāta autoru pareizrakstība un pieturzīmes):

Ienākošo zvanu	Līdzīgākā apelācija no arhīva	% līdzības
"Re: PC Diagnostics PC 12471 tiek atsāknēts pēc zibatmiņas diska pievienošanas. Pārbaudiet žurnālus. Diagnosticējiet, saprotiet, kas ir problēma."	“Dators tiek restartēts, kad ir pievienots USB zibatmiņas disks, dators tiek restartēts. pk 37214 Pārbaudiet, kāda ir problēma. Datoram garantija.	61.5
"Pēc strāvas izslēgšanas iekšējais serveris netiks sāknēts. BSOD"	“Pēc servera restartēšanas serveris neielādē pīkstienus”	68.6
"Kamera nedarbojas"	"Kameras nedarbojas"	78.3
“RE: Sikspārņu vēstules netiek nosūtītas, mape ir pilna.	Re: Pasts nav pieņemts Mapes pārpilde programmā THE Bat! mape virs 2 GB	68.14
“Kļūda, startējot 1C — nevar iegūt licences servera sertifikātu. Es pievienoju ekrānu. (dators 21363)”	1C CRM nesākas, 1C nesākas datoros 2131 un 2386, šāda kļūda: Nevar iegūt licences servera sertifikātu. Nevarēja atrast licences serveri automātiskās meklēšanas režīmā.	64.7

Sākotnēji risinājums arhitektoniski tika plānots šādi:

Programmatūras risinājums ir pilnībā uzrakstīts Python 3. Bibliotēka, kas ievieš mašīnmācīšanās metodes, ir daļēji rakstīta c / c ++, kas ļauj izmantot optimizētas metožu versijas, kas paātrina aptuveni 70 reižu salīdzinājumā ar tīrajām Python implementācijām. Šobrīd risinājuma arhitektūra izskatās šādi:

Papildus tika izstrādāta un integrēta apmācības modeļu kvalitātes analīzes un parametru optimizācijas sistēma. Tika izstrādāts arī atgriezeniskās saites interfeiss ar operatoru, kas ļauj viņam novērtēt katra risinājuma izvēles kvalitāti.

Šo risinājumu var piemērot liels skaits uzdevumi, kas saistīti ar tekstu, neatkarīgi no tā, vai tas ir:

Dokumentu semantiskā meklēšana (pēc dokumenta satura vai atslēgvārdiem).
Komentāru sentimenta analīze (emocionāli iekrāsota vārdu krājuma identificēšana tekstos un viedokļu emocionālā izvērtēšana saistībā ar tekstā minētajiem objektiem).
Tekstu kopsavilkuma izvilkšana.
Ēkas ieteikumi (Sadarbības filtrēšana).

Risinājums ir viegli integrējams ar dokumentu vadības sistēmām, jo tā darbībai nepieciešama tikai datu bāze ar tekstiem.

Mēs ar prieku iepazīstināsim ar mašīnmācīšanās tehnoloģijām IT jomas kolēģus un klientus no citām nozarēm, sazinieties ar mums, ja produkts ir ieinteresējis.

Produktu attīstības virzieni

Risinājums atrodas alfa testēšanas stadijā un tiek aktīvi izstrādāts šādās jomās:

Mākoņpakalpojuma izveide
Modeļa bagātināšana, pamatojoties uz tehniskā atbalsta risinājumiem publiskajā telpā un sadarbībā ar citiem ārpakalpojumu uzņēmumiem
Izkliedētās risinājuma arhitektūras izveide (dati paliek pie klienta, savukārt modeļa izveide un pieprasījumu apstrāde notiek mūsu serverī)
Modeļa paplašināšana citās mācību jomās (medicīna, tiesības, iekārtu apkope utt.)

Mūsdienās interese par datu zinātniekiem ir sasniegusi tādu līmeni, ka par Datu zinātnieku sevi nesauktu tikai pats pazemīgākais cilvēks, ja vismaz pāris reizes ir pat trenējis loģistikas regresiju vai koku ansambļus. Datu analīze un jo īpaši mašīnmācīšanās nav tikai izdomāti vārdi. Šī ir īsta maģija, kas var pārveidoties pasaule, un pakalpojumā Yandex jūs to patiešām varat sajust, satikt cilvēkus, kuri šajā ziņā ir spēcīgi, iemācīties un iemācīties darīt daudzas jaunas lietas.

Ja jūs jau saprotat, ka apmācības modeļi klasifikācijai, regresijai, klasterizācijai, ranžēšanai ir izmērāms ieguvums pakalpojumiem, kas izmanto šos modeļus, un to galalietotājiem, ka modelis ne tikai "paredz mērķi", bet optimizē kādu metriku, kas ir svarīga saskaņojieties ar biznesa mērķiem, tad jūs noteikti par mums interesēsit. Ja jums vēl nav bijis jāpiedalās saiknes veidošanā starp mašīnmācīšanos un biznesa vajadzībām, bet jūs to ļoti vēlētos, arī šī vakance ir jūsu uzmanības vērta.

Uzņēmumā Yandex.Taxi tiek veidota grupa mašīnmācīšanās metožu ieviešanai lielākajā taksometru servisā Krievijā. Mums ir vajadzīgi analītiķi, kas:

mīl datu analīzi un zina mašīnmācīšanās pamatprincipus un metodes (var atšķirt pārmērīgu ietilpību no nepietiekamas, logregresiju no SVM, pastiprināšanu no maisīšanas, precizitāti no precizitātes);
saprast, kāpēc analītiķim nepieciešama matemātiskā statistika;
vēlas, lai viņu darbs ietekmētu miljoniem braucienu, ko mūsu lietotāji veic katru nedēļu.

Obligātās prasības:

matemātiskās statistikas un varbūtību teorijas zināšanas;
zināšanas par populārākajām supervizētās mācību metodēm (lineārie modeļi, koku ansambļi, kNN, naivais līču klasifikators) un izpratne par to, kad tās ir lietderīgi pielietot un kā diagnosticēt savu darbu;
zināšanas par mašīnmācībā bieži izmantotajiem kvalitātes rādītājiem, to atšķirību izpratne, spēja interpretēt dažādas metrikas vērtības;
labs tehniskais pamats: pārliecināta Python lietošana un pārzināšana ar bibliotēkām darbam ar datiem - numpy, scipy, matplotlib, pandas, sklearn, pieredze xgboost un vowpal wabbit lietošanā;
zināšanas angliski tehniskās literatūras lasīšanas līmenī.

Laipni lūdzam:

augstākā matemātikas vai tehniskā izglītība;
pieredze problēmu risināšanā datu analīzes un mašīnmācīšanās jomā;
pieredze lietišķās matemātiskās statistikas pielietošanā, piemēram, mērķa rādītāju ticamības intervālu novērtēšanā, A/B testēšanas rezultātu statistiskā nozīmība;
izpratne par to, kā novērtēt mašīnmācīšanās modeļa ieviešanas iespējamo ekonomisko ietekmi un kā ar šo efektu saistīt kvalitātes rādītājus;
izpratne par modeļu kvalitātes novērtēšanu bezsaistē (uz vēsturiskajiem datiem) un tiešsaistē (ražošanā);
zināšanas par Linux;
iepazans ar Map Reduce;
zināšanas par klasiskajiem algoritmiem un datu struktūrām;
SQL zināšanas;
spēja lasīt C++ kodu;
pieredze līdzīgā amatā.

Reiz es jums stāstīju, kā apmeklēju mašīnmācības kursu vietnē Coursera. Kursu pasniedz Endrjū Ngs, kurš visu izskaidro tik vienkāršos vārdos, ka pat čaklākais students sapratīs diezgan sarežģītu materiālu. Kopš tā laika mašīnmācības tēma man ir kļuvusi tuva, un es periodiski aplūkoju projektus gan Big Data jomā (lasi iepriekšējo sleju), gan mašīnmācības jomā.

Papildus lielajam skaitam jaunuzņēmumu, kas kaut kur savā iekšienē izmanto mašīnmācīšanās algoritmus, jau ir pieejami vairāki pakalpojumi, kas piedāvā mašīnmācīšanos kā pakalpojumu! Tas nozīmē, ka tie nodrošina API, ko varat izmantot savos projektos, vienlaikus neiedziļinoties tajā, kā dati tiek analizēti un prognozēti.

Google Prediction API

Viens no pirmajiem, kas piedāvāja mašīnliecību kā pakalpojumu, bija Google! Pietiek jau ilgu laiku ikviens var izmantot Google Prediction API (burtiski "API prognozēm"). Līdz noteiktam datu apjomam varat tos izmantot pilnīgi bez maksas, vienkārši izveidojot kontu Google Prediction API. Kādas ir prognozes? Uzdevums var būt dažāds: pēc pieejamajiem datiem noteikt kāda parametra nākotnes vērtību vai noteikt, vai objekts pieder kādam no veidiem (piemēram, teksta valoda: krievu, franču, angļu).

Pēc reģistrācijas jums ir pieejama pilnvērtīga RESTful API, uz kuras pamata jūs varat izveidot, teiksim, ieteikuma sistēmu, atklāt surogātpastu un aizdomīgas darbības, analizēt lietotāju uzvedību un daudz ko citu. Jau ir parādījušies interesanti projekti, kas veidoti, pamatojoties uz intensīvu Google Prediction API izmantošanu, piemēram, Pondera Solutions, kas izmanto Google mašīnmācīšanos, lai izveidotu krāpšanas apkarošanas sistēmu.

Kā eksperimentu varat izmantot gatavus datu modeļus: valodu identifikatorus, lai izveidotu sistēmu, kas nosaka, kādā valodā tiek rakstīts ienākošais teksts, vai noskaņojuma identifikatorus, lai automātiski noteiktu lietotāju atstāto komentāru noskaņojumu. Es domāju, ka nākotnē mēs runāsim par Google Prediction API sīkāk.

BigML

Šodien vēlos pieskarties vēl vienam līdzīgam projektam, kas man iekrita acīs salīdzinoši nesen - BigML. Faktiski tas nodrošina tieši tādu pašu Rest API savam ML dzinējam, taču ar vienu priekšrocību, kas ir svarīga iesācējam - diezgan vizuāla interfeisa klātbūtne. Un pēdējais fakts ievērojami vienkāršo uzdevumu sākt, kad jums ir jānoskaidro, kas ir kas no nulles.

Izstrādātāji ir darījuši visu, lai mājsaimniece varētu tikt galā ar sistēmu. Reģistrējoties jūsu rīcībā ir vairāki avota datu piemēri, tostarp mācību grāmatās bieži izmantotā Fišera īrisu datu kopa, kas tiek uzskatīta par klasiku klasifikācijas problēmas risināšanā. Komplektā ir aprakstīti 150 trīs dažādu veidu īrisu ziedi ar īpašību aprakstu. Uz šo datu pamata iespējams uzbūvēt sistēmu, kas pēc ievadītajiem parametriem noteiks, vai zieds pieder kādai no sugām.

Eksperimentējiet

Visas darbības tiek veiktas skaidrā admin panelī (nianses neaprakstīšu, viss būs ārkārtīgi pieejams).

Mēs atlasām CSV failu, kurā kā datu avots (avots) tiek saglabātas rindas, kas apraksta dažādu veidu ziedu īpašības.
Tālāk mēs izmantojam šos datus, lai izveidotu datu kopu, norādot, ka būs jāparedz ziedu veids. BigML automātiski parsēs failu un pēc tā analīzes izveidos dažādus grafikus, vizualizējot datus.
Pamatojoties uz šo datu kopu, ar vienu klikšķi tiek izveidots modelis, uz kura balstīsies prognozes. Turklāt BigML atkal vizualizē modeli, izskaidrojot tā darba loģiku. Jūs pat varat eksportēt rezultātu kā Python vai jebkuras citas valodas skriptu.
Pēc tam, kad modelis ir gatavs, kļūst iespējams veikt prognozes (Prognozes). Un dariet to dažādos režīmos: nekavējoties iestatiet visus zieda parametrus vai atbildiet uz sistēmas jautājumiem, kas, pamatojoties uz situāciju, jautās tikai to, kas tai nepieciešams.

To pašu varētu izdarīt bez lietotāja interfeisa, bet sazinoties ar BigML caur BigMLer konsoles aplikāciju vai caur REST API, sazinoties no konsoles ar parasto curl.

Divi galvenie uzdevumi

BigML un Google Prediction API iekšienē nav nekā pārdabiska. Un viedie izstrādātāji varēs paši ieviest līdzīgus dzinējus, lai nemaksātu trešo pušu pakalpojumus (un neaugšupielādētu tajos datus, kurus bieži nevar augšupielādēt).

Jēdziens "mašīnmācība" jums, visticamāk, nāks vairāk nekā vienu reizi. Lai gan to bieži izmanto kā sinonīmu mākslīgais intelekts, patiesībā mašīnmācība ir viens no tās elementiem. Tajā pašā laikā abas koncepcijas radās Masačūsetsas Tehnoloģiju institūtā 50. gadu beigās.

Šodien jūs katru dienu saskaraties ar mašīnmācīšanos, lai gan jūs to nezināt. Siri un Google balss asistenti, seju atpazīšana Facebook un Windows 10, ieteikumi Amazon, tehnoloģijas, kas neļauj robotizētajām automašīnām ietriekties šķēršļos, tiek radīti, pateicoties mašīnmācības progresam.

Mašīnmācīšanās sistēmas joprojām ir ļoti tālu no cilvēka smadzenēm, taču tām jau ir iespaidīgi sasniegumi, piemēram, cilvēku uzvešana šahā, galda spēle ej un poker.

Dažu pēdējo gadu laikā mašīnmācības attīstība ir saņēmusi strauju stimulu, pateicoties vairākiem tehnoloģiskiem sasniegumiem, pieejamās skaitļošanas jaudas pieaugumam un apmācības datu pārpilnībai.

Pašmācības programmatūra

Tātad, kas ir mašīnmācība? Sāksim ar to, kas tas nav. Tās nav parastas datorprogrammas, kas rakstītas ar roku.

Atšķirībā no tradicionālās programmatūras, kas lieliski izpilda instrukcijas, bet nav spējīga improvizēt, mašīnmācīšanās sistēmas būtībā programmējas pašas, izstrādājot instrukcijas pašas, apkopojot zināmo informāciju.

Klasisks piemērs ir modeļa atpazīšana. Parādiet mašīnmācībai pietiekami daudz attēlu ar suņiem ar apzīmējumu “suns” un kaķiem, kokiem un citiem objektiem, kas apzīmēti ar apzīmējumu “nav suns”, un laika gaitā tā sāks labi atpazīt suņus. Un tāpēc viņai nebūs precīzi jāpaskaidro, kā viņi izskatās.

Surogātpasta filtrs jūsu e-pasta programmā ir labs piemērs mašīnmācībai darbībā. Pēc simtiem miljonu nevēlamu un nepieciešamo ziņojumu paraugu apstrādes sistēma ir apmācīta izcelt tipiskās surogātpasta e-pasta pazīmes. Viņa to nedara perfekti, bet diezgan efektīvi.

Mācīšana ar un bez skolotāja

Šāda veida mašīnmācīšanos sauc par uzraudzīto mācīšanos. Tas nozīmē, ka kāds algoritmu ieviesa ar milzīgu apmācību datu apjomu, pārskatot rezultātus un pielāgojot iestatījumus, līdz tika sasniegta vēlamā klasifikācijas precizitāte datiem, kurus sistēma vēl nebija “redzējusi”. Tas ir tāpat kā e-pasta programmā nospiest pogu “nav surogātpasts”, kad filtrs nejauši pārtver vajadzīgo ziņojumu. Jo biežāk to darāt, jo precīzāks kļūst filtrs.

Tipiski uzraudzīti mācību uzdevumi ir klasifikācija un prognozēšana (vai regresijas analīze). Surogātpasta un attēlu atpazīšana ir klasifikācijas uzdevumi, un akciju cenu prognozēšana ir klasisks regresijas piemērs.

Neuzraudzītas mācīšanās laikā sistēma skenē milzīgus datu apjomus, atceroties, kā izskatās "parastie" dati, lai varētu atpazīt anomālijas un slēptos modeļus. Mācības bez uzraudzības ir noderīgas, ja jūs precīzi nezināt, ko meklējat, un tādā gadījumā sistēma var būt spiesta jums palīdzēt.

Nepārraudzītas mācību sistēmas var atklāt modeļus milzīgā datu apjomā daudz ātrāk nekā cilvēki. Tāpēc bankas tos izmanto, lai atklātu krāpnieciskus darījumus, mārketinga speciālisti, lai identificētu klientus ar līdzīgiem atribūtiem, un drošības programmatūra, lai atpazītu ļaunprātīgas darbības tīklā.

Nepārraudzītu mācību problēmu piemēri ir klasteru veidošana un asociācijas noteikumu atrašana. Pirmais tiek izmantots, jo īpaši klientu segmentēšanai, un ieteikumu izdošanas mehānismi ir balstīti uz asociācijas noteikumu meklēšanu.

Mašīnmācības ierobežojumi

Katra mašīnmācīšanās sistēma izveido savu saišu diagrammu, kas attēlo kaut ko līdzīgu “melnajai kastei”. Jūs nevarēsit precīzi noskaidrot, kā klasifikācija tiek veikta, veicot inženiertehnisko analīzi, taču tam nav nozīmes, galvenais, lai tā darbojas.

Tomēr mašīnmācīšanās sistēma ir tikai tik laba, cik precīzi ir apmācības dati: ja ievadīsiet to ar “atkritumiem”, rezultāts būs atbilstošs. Ja apmācība ir nepareiza vai apmācības izlases lielums ir pārāk mazs, algoritms var radīt nepareizus rezultātus.

HP nokļuva nepatikšanās 2009. gadā, kad HP MediaSmart klēpjdatora tīmekļa kameras sejas atpazīšanas sistēma nespēja atpazīt afroamerikāņu sejas. Un 2015. gada jūnijā sliktas kvalitātes Google fotoattēlu algoritms divus melnādainos amerikāņus nosauca par “gorillām”.

Vēl viens piemērs ir bēdīgi slavenais Microsoft Tay Twitter robots, ar kuru 2016. gadā tika eksperimentēts, lai noskaidrotu, vai mākslīgais intelekts var “izlikties” par cilvēku, mācoties no reāliem cilvēku ziņojumiem. Nepilnas dienas laikā Twitter troļļi Taju pārvērta par bēdīgi slavenu ksenofobi – lūk, tipisks bojātu treniņu datu piemērs.

Terminu vārdnīca

Mašīnmācība ir tikai mākslīgā intelekta aisberga gals. Citi ar to cieši saistīti termini ir neironu tīkli, dziļa mācīšanās un kognitīvā skaitļošana.

Neironu tīkls.Šī ir datora arhitektūra, kas atdarina smadzeņu neironu struktūru; katrs mākslīgais neirons savienojas ar citiem. Neironu tīkli ir veidoti slāņos; neironi vienā slānī padod datus daudziem neironiem nākamajā un tā tālāk, līdz tiek sasniegts izvades slānis. Tieši pēdējā slānī tīkls izsaka savus minējumus - teiksim, kā izskatās šis suņa formas objekts -, pievienojot atbildei ticamības vērtējumu.

Ir dažādi neironu tīklu veidi, lai atrisinātu dažāda veida problēmas. Tīklus ar daudziem slāņiem sauc par dziļajiem tīkliem. Neironu tīkli ir viens no svarīgākajiem mašīnmācības rīkiem, taču ne vienīgais.

Dziļa mācīšanās. Tā būtībā ir mašīnmācīšanās uz steroīdiem — izmantojot daudzslāņu (dziļus) tīklus, lai pieņemtu lēmumus, pamatojoties uz neprecīzu vai nepilnīgu informāciju. Dziļās apmācības sistēma DeepStack pagājušā gada decembrī pārspēja 11 profesionāli spēlētāji pokerā, pārrēķinot stratēģiju pēc katra derību raunda.

Kognitīvā skaitļošana.Šis ir termins, ko IBM izdomājuši veidotāji superdators Vatsons. IBM saskata atšķirību starp kognitīvo skaitļošanu un mākslīgo intelektu tajā, ka pirmais nevis aizstāj cilvēka prātu, bet gan papildina to, piemēram, palīdzot ārstiem noteikt precīzākas diagnozes, finanšu konsultantiem - izdot vairāk. informēti ieteikumi, juristi - lai ātrāk atrastu piemērotus precedentus utt.

Tāpēc, neraugoties uz visu mākslīgo intelektu apgrūtināto jucekli, nav pārspīlēts teikt, ka mašīnmācība un ar to saistītās tehnoloģijas patiešām maina pasauli ap mums un tik ātri, ka mašīnas gandrīz pilnībā apzinās sevi.

- Dens Tainans. Kas ir mašīnmācība? Programmatūra, kas iegūta no datiem. informācijas pasaule. 2017. gada 9. augusts

Maskavā tiek veidots neironu tīkls, lai atpazītu ūdens skaitītāju rādījumus no fotogrāfijām

Maskavā notiek eksperiments, lai izveidotu elektronisku pakalpojumu, kura pamatā ir neironu tīkli. Galvaspilsētas Informācijas tehnoloģiju departaments strādā pie algoritma, kas vienkāršos ūdens skaitītāju rādījumu nosūtīšanu. Izstrādātāji plāno iemācīt pakalpojumam automātiski pēc fotoattēla noteikt, ko rāda skaitītājs.

Neironu tīklu plānots apmācīt ātru un precīzu rādījumu atpazīšanā līdz šī gada beigām. Lai to izdarītu, tai jāapstrādā vairāki tūkstoši karstā un aukstā skaitītāju fotogrāfiju. auksts ūdens, ko nosūtīs paši pilsētnieki, kuri piekrita piedalīties eksperimentā.

Pēc apmācības pabeigšanas neironu tīkls spēs atpazīt skaitļus visos attēlos, ko cilvēka acs var atšķirt. Ja kļūdu līmenis joprojām ir augsts, sistēmai tiks parādīti papildu fotoattēli.

Pamatojoties uz šo neironu tīklu, var parādīties pakalpojums, kas ļaus neievadīt skaitītāja datus manuāli. Sistēma automātiski atpazīs rādījumus un nodos tos Vienotajam informācijas un norēķinu centram maksājumu dokumentu noformēšanai.

MoneyCare izmanto mašīnmācīšanos, lai prognozētu aizdevuma apstiprināšanu

Neatkarīgs aizdevumu brokeris MoneyCare ir izveidojis prognozēšanas modeli, pamatojoties uz Microsoft Azure Machine Learning mākoņpakalpojumu. Risinājums ļauj novērtēt bankas pozitīvas atbildes iespējamību uz aizdevuma pieprasījumu.

Lai uzlabotu kredīta pieteikumu konvertēšanu, uzņēmums nolēma samazināt personas datu apjomu līdz nepieciešamajam minimumam, kā arī izveidot modeli, kas prognozē pozitīvas atbildes iespējamību no bankas. Minimālās datu kopas noteikšanu un prototipa uzbūvi MoneyCare uzticēja Columbus ekspertiem.

Izvēloties mašīnmācīšanās platformu, MoneyCare izvēlējās mākoņpakalpojumu Azure Machine Learning, kas ļauj ātri izveidot un izvietot pilna funkcionalitātes prognozēšanas modeļus kā analītikas risinājumus.

Projekta pirmajā posmā Azure Machine Learning tika izveidots klasifikatora prototips, kura uzdevums ir atlasīt vairāk nekā 60% aizdevuma pieteikumu ar apstiprināšanas varbūtību vairāk nekā 80%. Šajā gadījumā tika izmantotas tādas metodes kā diskriminantu analīze, regresijas analīze, klasterizācija, uz atdalāmību balstīta klasifikācija, kā arī dimensiju samazināšanas algoritmi.

Projekta otrais posms bija MoneyCare darbinieku apmācības par darba principiem un kopīgs prototipa pilnveidošanas seminārs. Tika veiktas konsultācijas par modeļu iestatīšanu, tipiskiem mašīnmācīšanās uzdevumiem un tika noteikti nākamie soļi prototipa uzlabošanai.

Murmanskas apgabala valdība dokumentu pārvaldībā izmantos mašīnmācīšanos

Sanktpēterburgas Valsts universitātes Programmēšanas tehnoloģiju katedra kopā ar uzņēmumu Digital Design ir izpētījusi iespēju izmantot mašīnmācīšanās algoritmus elektroniskajās dokumentu pārvaldības sistēmās. Pētījuma objekts bija Murmanskas apgabala valdības EDMS. Kā datubāze tika izmantoti vairāk nekā 250 tūkstoši depersonalizētu oficiālās korespondences dokumentu.

Tika pārbaudīta iespēja EDMS izmantot viedos algoritmus, kas atkārto neironu tīkla principus. Šāda tīkla galvenie uzdevumi ir noteikt dokumenta kategoriju, automātiski aizpildīt tā galvenos atribūtus, noteikt, pamatojoties uz pievienotā faila teksta analīzi, visticamākos izpildītājus un izveidot tiem instrukciju tekstus.

Konstatēts, ka, izmantojot viedos algoritmus, iespējams automatizēt dokumentu šķirošanu pēc pievienoto failu satura un katrai kategorijai sastādīt semantisko kodolu, meklēt līdzīgus vai identiskus dokumentus, noteikt atsevišķu dokumentu atribūtu atkarības no citiem, un pat automatizēt varbūtības modeļa izveidi atribūtu vērtību prognozēšanai. Pētījuma gaitā bija iespējams sasniegt 95 procentu precizitāti dokumenta kategorijas noteikšanā pēc teksta satura. Nākamajā posmā testēšana tiks veikta šaurai Murmanskas apgabala valdības EDMS galveno lietotāju grupai, kas apstrādā lielu dokumentu apjomu.

"Hlynov" ir optimizējis bankomātu apkalpošanu

Khlynov Bank ir mainījusi bankomātu pakalpojumu, izmantojot mašīnmācīšanās pakalpojumus no Microsoft Azure mākoņa. Rezultātā banka varēja izmantot iepriekš "iesaldētos" 250 miljonus rubļu.

Tā kā bankas klientu tīkls nemitīgi attīstās, ir nepieciešamas jaunas pieejas klientu līdzekļu uzglabāšanā un darbā ar tiem. Projekta sākumā vidējais mēneša atlikums Khlynov kartēs bija aptuveni 800 miljoni rubļu. Trešdaļa šīs naudas tika rezervēta bankomātos karšu īpašnieku izņemšanai.

Mašīnmācīšanās pakalpojumu izmantošana no Microsoft Azure mākoņa ļāva bankai samazināt rezervētās skaidras naudas apjomu bankomātos līdz 16-20% no vidējā mēneša atlikuma kartēs: tas palielinājās līdz 1,2 miljardiem rubļu, un rezervētā summa sasniedza 200 - 230 miljoni rubļu. Atbrīvotos līdzekļus banka varēja izmantot citiem operatīviem uzdevumiem, īpaši klientu kreditēšanai.

Kopīgi ar Rubicon integratoru izveidotais algoritms, izmantojot mašīnmācīšanās metodes, ļāva bankai samazināt ikmēneša skaidras naudas iekasēšanas braucienu skaitu vairāk nekā 1,5 reizes. Katrs no šiem braucieniem maksā 3 tūkstošus rubļu, un par katru tūkstoti transportēto rubļu tiek piemērota komisijas maksa 0,026% apmērā.

Tuvākajā nākotnē Khlynov Bank plāno ieviest papildu prognozējošos analītikas rīkus no Microsoft Azure mākoņa, lai produktīvi izmantotu informāciju, kas uzkrāta vairāk nekā 25 gadu laikā, strādājot ar klientiem.

Gazprom Neft izmantos Yandex mākslīgo intelektu

Gazprom Neft un Yandex parakstīja līgumu par sadarbību daudzsološu projektu īstenošanā naftas un gāzes nozarē. Izmantojot Lielās tehnoloģijasdati, mašīnaapmācību un mākslīgo intelektu, uzņēmumi plāno urbt akas, simulēt naftas pārstrādes tehnoloģiskos procesusun optimizēt citus ražošanas procesus.

Līgums paredz neatkarīgu esošo tehnoloģisko risinājumu pārbaudi, ko veic Yandex Data Factory speciālisti, kopīgu pētniecības un tehnoloģisko projektu izstrādi un ieviešanu, kā arī zinātniskās un tehniskās informācijas, zināšanu apmaiņu un darbinieku apmācību.

Naftas un gāzes nozare ir viena no perspektīvākajām jauno tehnoloģiju izmantošanas ziņā, jo tajā ir uzkrāts liels datu apjoms un jau sen tiek izmantoti vienkārši risinājumi ražošanas un biznesa optimizēšanai. Tādējādi ir radītas labas iespējas taustāma efekta gūšanai no mašīnmācībā un mākslīgajā intelektā balstītu risinājumu ieviešanas.