Reklamos internete vartotojų segmentavimas taikant latentinį Dirichlė paskirstymo modelį

Similar documents
Nullity of the second order discrete problem with nonlocal multipoint boundary conditions

CS Lecture 18. Topic Models and LDA

Hilbert Schmidt component analysis

Sparse Stochastic Inference for Latent Dirichlet Allocation

On the anticrowding population dynamics taking into account a discrete set of offspring

The minimizer for the second order differential problem with one nonlocal condition

A general biochemical kinetics data fitting algorithm for quasi-steady-state detection

Algebraic and spectral analysis of local magnetic field intensity

NUOTOLINIŲ KURSŲ OPTIMIZAVIMAS

Method of marks for propositional linear temporal logic

VILNIUS UNIVERSITY LIJANA STABINGIENĖ IMAGE ANALYSIS USING BAYES DISCRIMINANT FUNCTIONS

A discrete limit theorem for the periodic Hurwitz zeta-function

The Euler Mascheroni constant in school

Prognosis of radionuclides dispersion and radiological measurements in Lithuania after the accident at Fukushima Daiichi nuclear

Analysis of genetic risk assessment methods

Analyzing Burst of Topics in News Stream

Topic Modelling and Latent Dirichlet Allocation

CALCULATION OF ELECTROMAGNETIC WAVE ATTENUATION DUE TO RAIN USING RAINFALL DATA OF LONG AND SHORT DURATION

VILNIUS UNIVERSITY. Alma Molytė INVESTIGATION OF COMBINATIONS OF VECTOR QUANTIZATION METHODS WITH MULTIDIMENSIONAL SCALING

S. Tamošiūnas a,b, M. Žilinskas b,c, A. Nekrošius b, and M. Tamošiūnienė d

Transformations of formulae of hybrid logic

Topic Models. Advanced Machine Learning for NLP Jordan Boyd-Graber OVERVIEW. Advanced Machine Learning for NLP Boyd-Graber Topic Models 1 of 1

Radial basis function method modelling borehole heat transfer: the practical application

Lecture 13 : Variational Inference: Mean Field Approximation

Content-based Recommendation

A Unified Posterior Regularized Topic Model with Maximum Margin for Learning-to-Rank

LDA with Amortized Inference

MATHEMATICAL MODELS FOR SCIENTIFIC TERMINOLOGY AND THEIR APPLICATIONS IN THE CLASSIFICATION OF PUBLICATIONS

IPSJ SIG Technical Report Vol.2014-MPS-100 No /9/25 1,a) 1 1 SNS / / / / / / Time Series Topic Model Considering Dependence to Multiple Topics S

Skaitinis tekėjimo greičio ir sienelės temperatūros kitimo modeliavimas horizontaliame plokščiame kanale esant termogravitacijos jėgų poveikiui

Weather Forecasting Using ANFIS and ARIMA MODELS. A Case Study for Istanbul

Vango algoritmo analizė

R. Plukienė a, A. Plukis a, V. Remeikis a, and D. Ridikas b a Institute of Physics, Savanorių 231, LT Vilnius, Lithuania

Streaming Variational Bayes

Probablistic Graphical Models, Spring 2007 Homework 4 Due at the beginning of class on 11/26/07

Topic Models. Material adapted from David Mimno University of Maryland INTRODUCTION. Material adapted from David Mimno UMD Topic Models 1 / 51

Lietuvių šnekos balsių aprašymo autoregresijos modeliu adekvatumo tyrimas

THE EIGENVALUE PROBLEM FOR DIFFERENTIAL OPERATOR WITH NONLOCAL INTEGRAL CONDITIONS

Large-Scale Social Network Data Mining with Multi-View Information. Hao Wang

Topic Models and Applications to Short Documents

Collaborative User Clustering for Short Text Streams

arxiv: v2 [cs.ir] 14 May 2018

Optimal Segmentation of Random Sequences

Incorporating Social Context and Domain Knowledge for Entity Recognition

Short Term Wind Speed Forecasting with ANN in Batman, Turkey

Introduction to Bayesian inference

DIELECTRIC PROPERTIES OF AURIVILLIUS-TYPE Bi 4-x O 12. Ti 3 CERAMICS

LR Seimo narių elgsenos tyrimas, naudojant klasterinę analizę ir daugiamačių skalių metodą

Deep Poisson Factorization Machines: a factor analysis model for mapping behaviors in journalist ecosystem

Online but Accurate Inference for Latent Variable Models with Local Gibbs Sampling

8 laboratorinis darbas Klasterinė ir diskriminantinė analizė

THe use of mathematical models for modelling sulphur dioxide sorption on materials produced from fly ashes

Probabilistic Latent Semantic Analysis

1 Kompiuterių aritmetika ir algoritmai. 2 Tiesinių lygčių sistemų sprendimo metodai: 3 Duomenų aproksimacija: 4 Tikrinių reikšmių uždavinys.

Query-document Relevance Topic Models

Scaling Neighbourhood Methods

Applying LDA topic model to a corpus of Italian Supreme Court decisions

METHODS FOR GENERATION OF RANDOM NUMBERS IN PARALLEL STOCHASTIC ALGORITHMS FOR GLOBAL OPTIMIZATION

Parameters Estimation in Modelling of Gas-Gap in RBMK Type Reactor Using Bayesian Approach

Kurso tikslai. 1 Įgyti galimybę skaitiškai spręsti taikomuosius uždavinius; 2 Įvertinti skirtingus skaitinius sprendimo metodus (žinant jų

Learning Word Representations by Jointly Modeling Syntagmatic and Paradigmatic Relations

You Lu, Jeff Lund, and Jordan Boyd-Graber. Why ADAGRAD Fails for Online Topic Modeling. Empirical Methods in Natural Language Processing, 2017.

Markov Topic Models. Bo Thiesson, Christopher Meek Microsoft Research One Microsoft Way Redmond, WA 98052

Display Advertising Optimization by Quantum Annealing Processor

Document and Topic Models: plsa and LDA

Note 1: Varitional Methods for Latent Dirichlet Allocation

Latent Dirichlet Conditional Naive-Bayes Models

ADAPTYVIOSIOS TECHNOLOGIJOS TAIKYMAS SANDĖLIO UŽDAVINIUI SPRĘSTI

Online Bayesian Passive-Aggressive Learning"

GARSĄ SUGERIANČIŲ MEDŽIAGŲ IŠDĖSTYMO VIETŲ ĮTAKA SKAIČIUOJANT SALĖS AIDĖJIMO TRUKMĘ SKIRTINGOMIS FORMULĖMIS

Research of the Grid-Tied Power System Consisting of Wind Turbine and Boiler GALAN

A Probabilistic Clustering-Projection Model for Discrete Data

Multivariate Data Clustering for the Gaussian Mixture Model

Probabilistic Local Matrix Factorization based on User Reviews

Latent Dirichlet Allocation Introduction/Overview

Adaptive Integration of Stiff ODE

Bayesian Contextual Multi-armed Bandits

DIRBTINIO INTELEKTO METODŲ TAIKYMAS KREDITO RI- ZIKOS VERTINIME

Online Bayesian Passive-Agressive Learning

Web Search and Text Mining. Lecture 16: Topics and Communities

INTERPRETING THE PREDICTION PROCESS OF A DEEP NETWORK CONSTRUCTED FROM SUPERVISED TOPIC MODELS

A Continuous-Time Model of Topic Co-occurrence Trends

Generative Clustering, Topic Modeling, & Bayesian Inference

Comparative Summarization via Latent Dirichlet Allocation

A. Žukauskaitė a, R. Plukienė a, A. Plukis a, and D. Ridikas b

Nonnegative Matrix Factorization and Probabilistic Latent Semantic Indexing: Equivalence, Chi-square Statistic, and a Hybrid Method

On the average diameter of directed loop networks

Generalized Zero-Shot Learning with Deep Calibration Network

Iterative Laplacian Score for Feature Selection

Collapsed Gibbs Sampling for Latent Dirichlet Allocation on Spark

Collaborative Topic Modeling for Recommending Scientific Articles

GLOBALUSIS OPTIMIZAVIMAS SU SIMPLEKSINIAIS POSRIČIAIS

SUPERVISED MULTI-MODAL TOPIC MODEL FOR IMAGE ANNOTATION

OCCASIONAL PAPER SERIES. No 6 / 2015 A NOTE ON THE BOOTSTRAP METHOD FOR TESTING THE EXISTENCE OF FINITE MOMENTS

Orthogonal Nonnegative Matrix Factorization: Multiplicative Updates on Stiefel Manifolds

Ekonometrinių modelių pritaikymas OMXV indekso pokyčių prognozavimui

arxiv: v1 [cs.db] 14 May 2017

Stochastic Variational Inference for the HDP-HMM

Trajectory Analysis and Semantic Region Modeling Using A Nonparametric Bayesian Model Xiaogang Wang,, Keng Teck Ma,, Gee-Wah Ng,, and Eric Grimson

HTM: A Topic Model for Hypertexts

Transcription:

Lietuvos matematikos rinkinys ISSN 0132-2818 Lietuvos matematikų draugijos darbai, ser. B www.mii.lt/lmr/ 56 t., 2015, 1 6 Reklamos internete vartotojų segmentavimas taikant latentinį Dirichlė paskirstymo modelį Darius Aliulis, Vytautas Janilionis Kauno technologijos universitetas, Matematikos ir gamtos mokslų fakultetas Studentų 50, LT-51386 Kaunas E. paštas: darius.aliulis@ktu.edu, vytautas.janilionis@ktu.lt Santrauka. Vartotojų segmentavimas yra vienas iš aktualiausių reklamos internete uždavinių. Darbe šio uždavinio sprendimui siūloma taikyti adaptyvų latentinį Dirichlė paskirstymo modelį, kuris tinka ir didžiųjų duomenų rinkinių analizei. Pasiūlyti reklamų priskyrimo segmentams kriterijai ir ištirtos segmentavimo kokybės metrikų priklausomybės nuo segmentų skaičiaus. Raktiniai žodžiai: latentinis Dirichlė paskirstymas, Bajeso metodas, didžiųjų duomenų rinkinių analizė, vartotojų segmentavimas, reklama internete. Įvadas Reklama internete yra labai sparčiai auganti paslaugų sritis. Lyginant su kitomis reklamos rūšimis, ji leidžia efektyviausiai pasiekti vartotojus. Vienas iš aktualiausių jos uždavinių yra tikslinės reklamos pateikimas konkrečiam vartotojų segmentui. Vartotojų elgsena internete grįstoje reklamoje (angl. behavioral targeting), vartotojų segmentavimo uždavinio sprendimui, dažniausiai taikomi klasikiniai klasterizavimo metodai [9]. Paskutiniais metais paskelbti keli darbai, kuriuose siūloma naudoti teksto turinio analizės modelius [8, 7, 4], tačiau tyrimai atlikti tik su mažu segmentų kiekiu, mažomis imtimis ir neatsižvelgta į mažų segmentų, pvz., turinčių tik vieną vartotoją, įtaką rezultatams. Šio tyrimo objektas reklamos internete vartotojų segmentavimo modeliai ir reklamų priskyrimo segmentams kriterijai. Tyrimo tikslas pritaikyti adaptyvų latentinį Dirichlė paskirstymo modelį reklamos internete vartotojų segmentavimui, pasiūlyti reklamų priskyrimo vartotojų segmentams kriterijus ir ištirti segmentavimo kokybės metrikų priklausomybes nuo segmentų skaičiaus. 1 Latentinis Dirichlė paskirstymo modelis Tarkime, turime D reklamos internete vartotojų. Juos reikia suskirstyti į K segmentų pagal jų interneto paieškos užklausas, kurios sudarytos iš V ilgio žodyno žodžių. Vartotojų užklausų žodžiai aprašomi generuojančiu latentiniu Dirichlė paskirstymo modeliu [2]: 1. Kiekvienam vartotojų segmentui k {1,...,K} sugeneruojamas V ilgo žodžių tikimybių vektorius β k Dir(η), čia η simetrinio Dirichlė skirstinio apriorinis parametras.

2 D. Aliulis, V. Janilionis 2. Kiekvienam vartotojui d {1,...,D}, kuris apibrėžiamas jo pateiktų interneto paieškos užklausų žodžių vektoriumi w d = {w d1,...,w dn }: sugeneruojamas K ilgio vartotojo priskyrimo segmentams tikimybių vektorius θ d Dir(α). Kiekvienam vartotojo d pateiktų užklausų žodžiui w dn,n {1,...,N}: sugeneruojamas žodžio segmento numeris, pasiskirstęs pagal polinominį skirstinį z dn Multi(θ d ), z dn {1,...,K}; sugeneruojamas užklausos žodis w dn Multi(β zdn ), w dn {1,...,V}. Latentinio Dirichlė paskirstymo modelio pilnoji tikimybė [2]: p(θ,β,z,w α,η) = ( K D ( N )) p(β k η) p(θ d α) p(z dn θ d )p(w dn z dn,β zdn ). k=1 d=1 Nežinomų aposteriorinio skirstinio parametrų θ, β, z įvertinimui taikomas variacinis Bajeso metodas [2, 5]. Aposteriorinio skirstinio kintamieji yra susieti, tačiau variacinio skirstinio (1) kintamieji yra nepriklausomi ir kiekvienas yra susietas su skirtingu variaciniu parametru (λ, γ, φ) [2, 5]: k=1 d=1 n=1 ( ) K D N q(θ,z,β) = q(β k λ k ) q(θ d γ d ) q(z dn φ dn ). (1) Latentinio Dirichlė paskirstymo modelio tikėtinumo funkcija ir jos skaičiavimo algoritmas pateiktas [2]. Variacinio Bajeso metodo iteracija: 1. Kiekvienam segmentui k {1,...,K} ir žodyno žodžiui v {1,...,V}, skaičiuojama λ (t+1) kv = η + D N d=1 n=1 1(w dn = v)φ (t) dnk. 2. Kiekvienam vartotojui d {1,...,D} skaičiuojama γ (t+1) dk = α k + N n=1 φ(t) dnk. Kiekvienam vartotojo pateiktų paieškos užklausų žodžiui n {1,...,N} skaičiuojamaφ (t+1) dnk exp { Ψ ( γ (t+1) ) ( (t+1)) ( V )} dk +Ψ λ kw dn Ψ v=1 λ(t+1) kv, čia Ψ yra digama funkcija (pirmoji funkcijos log Γ išvestinė). Šiame darbe interneto vartotojų segmentavimui pasiūlyta taikyti adaptyvų variacinį Bajeso metodą [5], kuris leidžia modelį taikyti didžiųjų duomenų rinkinių analizei. Variacinis parametras λ apskaičiuojamas pagal n=1 λ (t+1) = ( 1 t 0,3) λ (t) +t 0,3 λ(t). (2) Taikant stochastinius optimizavimo metodus parametrų vertinimui dažnai naudojami mini-paketai λ (t+1) kv = η + D S S N s=1 n=1 1(w sn = v)φ (t) snk, S > 1, (3) čia S yra vartotojų skaičius t mini-pakete.

Reklamos internete vartotojų segmentavimas taikant latentinį Dirichlė PM 3 2 Segmentavimo kokybės metrikos Toliau naudojami šie žymėjimai: A = {a 1,a 2,...,a I } yra reklamų aibė; U i = {u i1,u i2,...,u imi } yra aibė vartotojų, kuriems parodyta reklama a i ; ϕ(u ij ) yra a i reklamos parodymų skaičius j-ajam vartotojui; δ(u ij ) yra reklamos a i paspaudimų skaičius, kuriuos atliko j-asis vartotojas; m i yra skaičius vartotojų, kuriems buvo parodyta reklama a i. Segmentavimo kokybės vertinimui naudojamos šios metrikos: Tikslumas (P) apibūdina į kokią dalį reklamos a i parodymų g k segmento vartotojai sureaguos paspaudimais. u P(a i g k ) = ij g k (U δ(u i) ij) u ij g k (U ϕ(u i) ij). (4) čia g k (U i ) yra reklamos a i segmento vartotojai. Atkuriamumas (R) apibūdina kokią dalį reklamos a i paspaudimų atlieka g k segmentui priskirti vartotojai: R(a i g k ) = u ij g k (U δ(u i) ij) mi j=1 δ(u. (5) ij) F-matas (F) yra tikslumo ir atkuriamumo harmoninis vidurkis: F(a i g k ) = 2 P(a i g k ) R(a i g k ) P(a i g k )+R(a i g k ). (6) Darbe pasiūlyta reklamos a i priskyrimui segmentams naudoti F-matą arba segmentų aibę apriboti pagal vidutinį atkuriamumą g (τ,ν) (a i ) = argmax τ( a i g k (ν) ), (7) g k (ν) čia k {1,2,...,K}, τ {P,R,F}, ν {1,2}, g k (1) {g k } yra visų reklamos a i segmentų aibė, g k (2) {g k R(g k ) R(G(U i ))} yra segmentų aibės apribojimas pagal vidutinį atkuriamumą, R(G(U i )) yra reklamos a i segmentų atkuriamumo vidurkis. 3 Tyrimo rezultatai Panaudojus didžiųjų duomenų rinkinių analizės programines priemones BIDMach [3] ir Apache Spark [1] sukurta programa, kuria atlikti tyrimai su realiais reklamos internete duomenimis [6]. Po duomenų filtravimo (pašalinti pateikę labai mažai užklausų arba nepaspaudę nei vienos reklamos vartotojai, neindentifikuoti vartotojai ir t. t.) duomenų rinkinyje liko 66 462 376 reklamų parodymų ir paspaudimų įrašai, D = 5647787 skirtingi vartotojai, I = 105745 skirtingos reklamos. Matome (1(c) pav.), kad reklamas priskiriant segmentams pagal tikslumą (4) ir netaikant apribojimų, kai K = 160, vidutinė atkuriamumo (5) reikšmė yra mažesnė už 19,6%, kai K = 800 mažesnė už 18,3%, o priskiriant pagal F-matą (6), kai K = 800, vidutinė atkuriamumo reikšmė yra 28,6%, o vidutinė tikslumo reikšmė yra 61,4% (1(a) pav.). Kai taikomas apribojimas pagal vidutinį atkuriamumą ir Liet. matem. rink. LMD darbai, ser. B, 56, 2015, 1 6.

4 D. Aliulis, V. Janilionis (a) (b) (c) (d) 1 pav. Reklamos internete vartotojų segmentavimo kokybės metrikų priklausomybės nuo segmentų skaičiaus. naudojamas tikslumo kriterijus (1(d) pav.), kai K = 800, vidutinė atkuriamumo reikšmė yra 31,4%, o vidutinė tikslumo reikšmė yra 52,9% (1(b) pav.). 2 pav. pateikti I = 105 745 reklamų tikslumo (4) ir atkuriamumo (5) metrikų dvimačio pasiskirstymo tankio branduoliniai įverčiai ir marginalios histogramos, kai branduolio funkcija yra Gauso, K = 800. Reklamos segmentams priskiriamos pagal: (a) tikslumą, kai netaikomi apribojimai, (b) tikslumą, kai taikomas apribojimas pagal vidutinį atkuriamumą, (c) pagal F-matą, kai netaikomi apribojimai. 4 Išvados Sudarytas adaptyvus latentinis Dirichlė paskirstymo modelis leidžia geriau segmentuoti interneto vartotojus naudojant jų paieškos užklausų duomenis. Pasiūlyti reklamų priskyrimo segmentams kriterijai, įvertinantys mažų segmentų įtaką rezultatams. Atliktas tyrimas su realiais interneto vartotojų paieškos užklausų, reklamų parodymų ir paspaudimų duomenimis parodė, kad tikslumo kriterijus netinka reklamų priskyrimui segmentams, kai netaikomi apribojimai, nes tuomet gaunama maža vidutinė atkuriamo reikšmė. Abibendrinant rezultatus galima teikti, kad sprendžiant reklamos internete vartotojų segmentavimo uždavinį ir siekiant geresnės segmentavimo kokybės, reikia taikyti F-mato kriterijų, kai netaikomas apribojimas pagal vidutinį atkuriamumą arba tikslumo kriterijų, kai taikomas apribojimas pagal vidutinį atkuriamumą.

Reklamos internete vartotojų segmentavimas taikant latentinį Dirichlė PM 5 P(ai g * (P, 1) (a i)) 100% 95% 65% 35% 5% P(ai g * (P, 2) (a i)) 100% 95% 65% 35% 5% 5% 35% 65% 95% R(a i g * (P, 1) (a i )) 100% 5% 35% 65% 95% R(a i g * (P, 2) (a i )) 100% (a) (b) P(ai g * (F, 1) (a i)) 100% 95% 65% 35% 5% 5% 35% 65% 95% R(a i g * (F, 1) (a i )) 100% (c) 2 pav. Tikslumo ir atkuriamumo metrikų dvimačio pasiskirstymo tankio branduoliniai įverčiai, kai K = 800. Literatūra [1] M. Armbrust, R.S. Xin, C. Lian, Y. Huai, D. Liu, J.K. Bradley, X. Meng, T. Kaftan, M.J. Franklin, A. Ghodsi and M. Zaharia. Spark SQL: Relational data processing in Spark. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, SIGMOD 15, pp. 1383 1394, New York, NY, USA, 2015. ACM. ISBN 978-1-4503-2758-9. [2] D.M. Blei, A.Y. Ng and M.I. Jordan. Latent Dirichlet allocation. J. Mach. Learn. Res., 3:993 1022, March 2003. ISSN 1532-4435. [3] J. Canny and H. Zhao. Big data analytics with small footprint: squaring the cloud. In Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 95 103. ACM, 2013. [4] X. Gong, X. Guo, R. Zhang, X. He and A. Zhou. Search behavior based latent semantic user segmentation for advertising targeting. In 2013 IEEE 13th International Conference on Data Mining (ICDM), pp. 211 220, Dec 2013. [5] M. Hoffman, D.M. Blei and F. Bach. Online learning for latent dirichlet allocation. Adv. Neur. Inf. Proc. Syst., 23:856 864, 2010. [6] KDD Cup. KDD Cup 2012 Track2 Dataset (interaktyvus) [žiūrėta 2015-06-25]. Adresas internete: http://www.kddcup2012.org/c/kddcup2012-track2. [7] S. Tu and C. Lu. Topic-based user segmentation for online advertising with latent dirichlet allocation. In L. Cao, J. Zhong and Y. Feng(Eds.), Advanced Data Mining and Liet. matem. rink. LMD darbai, ser. B, 56, 2015, 1 6.

6 D. Aliulis, V. Janilionis Applications, volume 6441 of Lect. Not. Comp. Sci., pp. 259 269. Springer, Berlin, Heidelberg, 2010. ISBN 978-3-642-17312-7. [8] X. Wu, J. Yan, N. Liu, S. Yan, Y. Chen and Z. Chen. Probabilistic latent semantic user segmentation for behavioral targeted advertising. In Proceedings of the Third International Workshop on Data Mining and Audience Intelligence for Advertising, ADKDD 09, pp. 10 17, New York, NY, USA, 2009. ACM. ISBN 978-1-60558-671-7. [9] J. Yan, N. Liu, G. Wang, W. Zhang, Y. Jiang and Z. Chen. How much can behavioral targeting help online advertising? In Proceedings of the 18th International Conference on World Wide Web, WWW 09, pp. 261 270, New York, NY, USA, 2009. ACM. ISBN 978-1-60558-487-4. SUMMARY User segmentation in online advertising using latent dirichlet allocation D. Aliulis, V. Janilionis User segmentation is one the most important problems in online advertiting. The use of online latent Dirichlet allocation model for analysing big datasets for this purpose is proposed in this paper. The relationship between the number of segments and segmentation quality metrics is analized and criteria for assigning ads to user segments are proposed. Keywords: latent Dirichlet allocation, bayesian method, big data analytics, user segmentation, online advertising.