• 1. TÉCNICAS DE RECOMENDACIÓN YARGUMENTACIÓN
  • 2. AGENDA• Técnicas de recomendación• Collaborative Filtering• Content-based• Knowledge-based• Híbridas• Técnicas de argumentación• Predicciones• Recomendaciones
  • 3. COLLABORATIVE FILTERING• Valoraciones de todos los usuarios como características delos ítems• Perfil de usuario• En base a las valoraciones del propio usuario• Recomendaciones o predicciones• Por similaridad/probabilidad entre usuarios• Por similaridad/probabilidad entre ítems[Schafer, 2007]
  • 4. COLLABORATIVE FILTERING• Universo• Valoraciones de U de los ítems en I• Entrada• Valoraciones de u de los ítems en I• Proceso• Identificar usuarios en U similares a u y extrapolar sus valoracionesde i[Burke, 2002]
  • 5. COLLABORATIVE FILTERING• Predicciones• Valor numérico que representa la opinión anticipada del usuariopara el ítem no valorado. Conocido como Individual Scoring.• Recomendaciones• Lista de N ítems que se corresponden con las preferencias delusuario. Conocido como Top-N recommendation o Rank Scoring.[Vozalis, 2003]
  • 6. PREDICCIONES [Zanker, 2010]
  • 7. PREDICCIONES [Zanker, 2010]
  • 8. 9 Collaborative Filtering Recommender Systems293RECOMENDACIONES(Table 1). Without loss of generality, a ratings matrix consists of a table where eachrow represents a user, each column represents a specific movie, and the number at theintersection of a row and a column represents the user’s rating value. The absence of arating score at this intersection indicates that user has not yet rated the item.Table 1. A MovieLens ratings matrix. Amy rated the movie Sideways a 5. Matt has not seenThe Matrix Speed SidewaysBrokeback The M atrix M ountain Amy1 25 M att35 4 Paul 5 52 1 Cliff5 55 5The term user refers to any individual who provides ratings to a system. Most often,we use this term to refer to the people using a system to receive information (e.g.,recommendations) although it also refers to those who provided the data (ratings)used in generating this information. Collaborative filtering systems produce predictions or recommendations for a
  • 9. RECOMENDACIONES• kNN
  • 10. RECOMENDACIONES• Similaridad EuclidianaMahalanobisMinkowskiCoseno
  • 11. RECOMENDACIONES[Vozalis, 2003]
  • 12. PROBLEMAS• Sparsity• Default Voting• Insertar valoraciones por default• User Average Scheme[Vozalis, 2003]
  • 13. PROBLEMAS• Sparsity• Singular Value Decomposition (SVD) [Amatriain, 2011]
  • 14. COLLABORATIVE FILTERING• Escenarios para su utilización:• Ítems que no requieran una exactitud semántica con las preferenciasdel usuario• Ítems con características heterogéneas y múltiples dominios• Cuando se tengan valoraciones de los ítems• Cuando no se conozcan las necesidades del usuario pero si suspreferencias
  • 15. CONTENT-BASED• Los ítems se definen por sus características• Género, año de publicación, autor, no. de páginas.• Palabras clave.• Perfil de (interés de) usuario• Características de los ítems valorados por el usuario.• Recomendaciones• Comparación del ítem no valorado con el perfil de (interés de)usuario.
  • 16. CONTENT-BASED• Universo• Características de los ítems en I• Entrada• Características de los ítems en I valorados por u• Proceso• Generar un clasificador que represente la conducta de valoracionesde u y usarlo sobre cada i no valorado.[Burke, 2002]
  • 17. CONTENT-BASED• Técnicas1. Representación de ítems2. Creación del perfil (de interés) de usuario - Clasificador3. Similaridad de (1) con (2)
  • 18. 10.1.1 I tem RepresentationCONTENT-BASEDItems that can be recommended to the user are often stored in a database table. Table10.1 shows a simple database with records (i.e., “rows”) that describe threerestaurants. The column names (e.g., Cuisine or Service) are properties of restaurants.These properties are also called “attributes,” “characteristics,” “fields,” or “variables”in different publications. Each record contains a value for each attribute. A unique• Representación de ítemsitems with the same name to be distinguished andidentifier, ID in Table 10.1, allowsserves as a key to retrieve the other attributes of the record.Table 10.1. A restaurant database IDName Cuisine Service Cost 10001 Mike’s Pizza Italian Counter Low 10002 Chris’s Cafe FrenchTable Medium 10003 Jacques Bistro FrenchTable HighThe database depicted in Table 10.1 could be used to drive a web site that lists andTable 10.2. Part of a newspaper articlerecommends restaurants. This is an example of structured data in which there is asmall number Fine-Tuning Energy item is described by the same set of attributes, and Lawmakers of attributes, each Planthere is a known set of values that theCalifornias may have. In this case, manyall but SACRAMENTO, Calif. -- With attributes energy reserves remaining machine depleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov.learning algorithms may be used to learn a user profile, or a menu interface can easily Gray Davis says will put the state in the power business for "a long time to come."be created to allow a user to create a profile. The next section of this chapter The proposal involves partially taking over Californias two largest utilities anddiscusses several approachesof up to 10 years toprofile from structured data. signing long-term contracts to creating a user buy electricity from wholesalers. Of course, a web page typically has more information than is shown in Table 10.1,such as a texttexts such asof the restaurant, a restaurant of unstructured data. UnlikeUnrestricted description news articles are examples review, or even a menu. Thesemay easily be storedare no attribute fields in thewell-defined values. Furthermore,bestructured data, there as additional names with database and a web page can[Pazzani, 2007]created with templatesnatural language text fields (as wellthe text field includingthe full complexity of to display the may be present in as the structured data).
  • 19. CONTENT-BASED• Representación de ítems• Vector Space Model (VSM)• Keyword-based VSM• Synset-based VSM• Semantic analysis• Ontologies• Explicit Semantic Analysis (ESA)
  • 20. REPRESENTACIÓN DE ÍTEMS• Vector Space Model• Representación espacial de las características del ítem• Aplicado a ítems de tipo texto o con características textuales• NO-ESTRUCTURADO
  • 21. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • Basado en técnicas de recuperación de información • TF-IDF (Term Frequency – Inverse Document Frecuency)
  • 22. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • En base a observaciones empíricas, se observan 3 supuestos: • IDF assumption: Los términos poco frecuentes no son menos relevantes que los frecuentes. • TF assumption: Múltiples ocurrencias de un término en un documento no con menos relevantes que las ocurrencias simples. • Normalization assumption: Los documentos largos no se prefieren sobre los cortos. [Lops, 2011]
  • 23. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM Table 10.2. Part of a newspaper articleLawmakers Fine-Tuning Energy PlanSACRAMENTO, Calif. -- With Californias energy reserves remaining all butdepleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov.Gray Davis says will put the state in the power business for "a long time to come."The proposal involves partially taking over Californias two largest utilities andsigning long-term contracts of up to 10 years to buy electricity from wholesalers. Unrestricted texts such as news articles are examples of unstructured data. Unlike structured data, there are no attribute names with well-defined values. Furthermore, the full complexity of natural language may be present in the text field including polysemous words (the same word may have several meanings) and synonyms (different words may have the same meaning). For example, in the article in Table 10.2, “Gray” is a name rather than a color, and “power” and “electricity” refer to the same underlying concept.Many domains are best represented by semi-structured data in which there are some attributes with a set of restricted values and some free-text fields. A common approach to dealing with free text fields is to convert the free text to a structured representation. For example, each word may be viewed as an attribute, with a Boolean value indicating whether the word is in the article or with an integer value
  • 24. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • Stemming • Ocurrencia de palabras tomando la raíz del término • Computación, Computadora, Computólogo, Cómputo
  • 25. REPRESENTACIÓN DE ÍTEMS• Synset-based VSM• Utiliza los synsets de WordNet• Mismos cálculos que Keyword-based VSM• Los pesos de los términos del mismo synset forman un elemento delvector• Los 3 supuestos aplican de la misma forma• Propósito:• Dar tratamiento a la sinonimia y polisemia
  • 26. REPRESENTACIÓN DE ÍTEMS• Semantic Analysis• Adición de información semántica a las representaciones de losítems• Uso de Ontologías
  • 27. REPRESENTACIÓN DE ÍTEMS• Explicit Semantic Analysis• Añade información de fuentes de conocimiento externas comoWikipedia, Open Directory Project (ODP) y Yahoo! Web Directory.• Cada concepto de la ontología se encuentra ligado a un enlace de lafuente externa[Gabrilovich, 2011]
  • 28. CONTENT-BASED• Creación del perfil (de interés) de usuario• Vector Space Model(VSM)• Support Vector Machine (SVM)• Métodos probabilísticos (Naïve Bayes)• Relevance Feedback (Rochio’s Algorithm)
  • 29. CREACIÓN DEL PERFIL DE USUARIO• Vector Space Model• Mismo caso que el VSM para la representación de ítems• Vector con las características de todos los ítems valorados por elusuario
  • 30. CREACIÓN DEL PERFIL DE USUARIO• Support Vector Machine• Encontrar una función (hiperplano lineal, límite de decisión) quesepare los datos con un margen maximizado.
  • 31. CREACIÓN DEL PERFIL DE USUARIO• Support Vector Machine
  • 32. CREACIÓN DEL PERFIL DE USUARIO• Métodos probabilísticos (Naïve Bayes)Multinomial Event Model
  • 33. CREACIÓN DEL PERFIL DE USUARIO• Relevance Feedback (Rochio’s Algorithm)• Similar al VSM• Crea un vector prototipo para compararlo con el vector decaracterísticas del ítem
  • 34. CONTENT-BASED• Similaridad Euclidiana MahalanobisMinkowski Coseno
  • 35. CONTENT-BASED• Escenarios para su utilización:• Ítems con contenido textual (Objetos de conocimiento)• Ítems con descripciones textuales• Ítems que con el mismo conjunto de características y valoresdiscretos para cada rasgo (Sin heterogeneidad de ítems)• Cuando sea necesario relacionar un ítem con una categoría
  • 36. KNOWLEDGE-BASED• Se basa en inferencias sobre las necesidades y preferenciasdel usuario• Diferencia• Utiliza conocimiento funcional• Como un determinado ítem cumple una necesidad específica• El perfil de usuario debe ser una estructura deconocimiento que soporte la inferencia[Burke, 2002]
  • 37. KNOWLEDGE-BASED• Universo• Características de los ítems en I• Conocimiento sobre como estos ítems cumplen las necesidades delos usuarios (Reglas de inferencia)• Entrada• Descripción de los intereses o necesidades de u• Proceso• Inferir una relación entre i y las necesidades de u[Burke, 2002]
  • 38. KNOWLEDGE-BASED• Association Rule Mining• Identifica colecciones de dos o mas elementos con un númerorepetitivo de transacciones que los contienen.• Itemset = Colecciones (Milk, Beer, Diaper)• Support count = Ocurrencias/Transacciones• Frequent itemset = Colecciones con Support count superior o igual alumbral• Association rule = X -> Y (Milk, Diaper) -> Beer• Se hacen N combinaciones y se comparan con el umbral mínimo detransacciones. [Amatriain, 2011]
  • 39. KNOWLEDGE-BASED• Rule-based classifier• Se basa en el uso de las reglas de asociación• If … then …
  • 40. KNOWLEDGE-BASEDExample Example• Rule-based classifierKnow le d ge Ba se :Know le d ge Ba se :P Pr oduct ca t a lo gue : Pow e r shot XYW e ight LH S e ight WLH SRH SRH S Popref.BrandCanon C1: 25 TRUE 25C1: TRUEBrand = Brand pref. = BrandBrand Br =<Lower focal length 35C2: 20 Motives 20 Landscape =Low. foc. Length =<C2: =MotivesLandscapeLow. foc. LengtLo 2828 Upper focal length 140 Upost C3: 15 TRUE 15C3:TRUEPrice =< Max Price =< Max c Max. cost Max. Price420 EURPrCur r e nt use r : Cur r e nt use r : Lum ixLuUse r m ode l Use r m ode l BrandPanasonicBr( r e quir e m e nt s) quir e m e nt s)( re Lower focal length 28 LoMotivesMotives LandscapeLandscape Upper focal length 112Up Brand preferenceBrand preference CanonCanon Price319 EURPrMax. costMax. cost 350 EUR350 EUR - 59 -
  • 41. KNOWLEDGE-BASED• Rule-based classifier• Rank 1. Lumix 35/60• Rank 2. Powershot 25/60[Zanker, 2010]
  • 42. KNOWLEDGE-BASED• Escenarios para su utilización:• Cuando se han obtenido las reglas asociativas mediante el análisisprevio del dominio• Cuando no se tienen valoraciones de los ítems• Cuando se cuente con información de las necesidades del usuario ydel dominio de los ítems
  • 43. HÍBRIDAS• Métodos de hibridación• Weighted• Switching• Cascade• Mixed• Feature Augmentation[Burke, 2002]
  • 44. HÍBRIDAS• Weighted[Zanker, 2010]
  • 45. HÍBRIDAS• Switching• Por ejemplo:• Si hay pocas valoraciones• Usar Knowledge-based• Si no• Usar Collaborative Filtering[Zanker, 2010]
  • 46. HÍBRIDAS• Cascade [Zanker, 2010]
  • 47. HÍBRIDAS• Mixed• Las recomendaciones de distintos recomendadores se presentan almismo tiempo• Feature Augmentation• La salida de un recomendador es la entrada del siguiente.
  • 48. COMBINACIONES[Burke, 2002]
  • 49. ARGUMENTACIÓN• Predicciones• Data-Explorative Model• El usuario puede observar los datos sobre los cuales se hizo lapredicción.• No se basa en el proceso matemático para la obtención de la predicción.• Process-Explorative Model• Se explica el proceso matemático tras la predicción.• Diagrama de flujos• Argumentative Model• Utiliza técnicas de argumentación lógica para soportar la predicción.
  • 50. ARGUMENTACIÓN• Recomendaciones • Estilos de recomendación • Por tipo de elementos (user x feature x item) • Por visualización
  • 51. ARGUMENTACIÓN• Por tipo de elemento[Papadimitriou, 2011]
  • 52. ARGUMENTACIÓN• Por tipo de elemento[Papadimitriou, 2011]
  • 53. ARGUMENTACIÓN• Por tipo de visualización• Keyword Style Explanation• Neighbor Style Explanation• Influence Style Explanation [Bilgic, 2005]
  • 54. REFERENCIAS[Burke, 2002]Burke, Robin. «Hybrid Recommender Systems: Survey and Experiments.» User Modeling and User-Adapted Interaction, nº 12 (2002): 331-370.[Schafer, 1999]Schafer, J. B., J. Konstan, y J. Riedl. «Recommender Systems in E-Commerce.» Proceedings of the First ACM Conference on Electronic Commerce. Denver, Colorado, 1999. 158-166.[Pasquale, 2011] Lops, Pasquale, Marco de Gemmis, y Giovanni Semeraro. «Content-based Recommender Systems: State of the Art and Trends.» En Recommender Systems Handbook, de Francesco Ricci, Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105. Springer Science+Bussiness Media, 2011.[Pazzani, 2007]Pazzani, Michael J., y Daniel Billsus. «Content-based Recommendation Systems.» En Personalization, The Adaptative Web: Methods and Strategies of Web, de Peter Brusilovsky, Alfred Kobsa y Wolfgang Nejdl, 325-341. Springer-Verlag Berlin Heidelberg, 2007.
  • 55. REFERENCIAS[Gabrilovich, 2007] Gabrilovich, E., Markovitch, S.: Computing SemanticRelatedness Using Wikipedia-based Explicit SemanticAnalysis. In: M.M. Veloso (ed.) Proceedings of the 20thInternational Joint Conference on Artificial Intelligence, pp.1606–1611 (2007)[Schafer, 2007] Schafer, J. B., Frankowski, D., Herlocker, J. y S. Shilad.«Collaborative Filtering Recommender Systems.» EnPersonalization, The Adaptative Web: Methods andStrategies of Web, de Peter Brusilovsky, Alfred Kobsa yWolfgang Nejdl, 325-341. Springer-Verlag BerlinHeidelberg, 2007.[Vozalis, 2003] Vozalis, E., y K. G. Margaritis. «Analysis of RecommenderSystems Algorithms.» 6th Hellenic European Conference onComputer Mathematics & its Applications HERCMA. Atenas,Grecia, 2003.
  • 56. REFERENCIAS[Zanker, 2010]Zanker, M., y D. Jannach. «Introduction toRecommender Systems.» Tutorial at ACM Symposiumon Applied Computing. Sierre, Suiza, 2010.[Amatriain, 2011] Amatriain, X., Jaimes, A., Oliver, N. y Pujol, J. M. «DataMining Methods for Recommender Systems» EnRecommender Systems Handbook, de Francesco Ricci,Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105.Springer Science+Bussiness Media, 2011.[Papadimitriou, 2011] Papadimitriou, Alexis, Panagiotis Symeonidis, yYannis Manolopoulos. «A generalized taxonomy ofexplanations styles for traditional and socialrecommender systems.» Data Mining and KnowledgeDiscovery , 2011: 1-29.
  • 57. REFERENCIAS[Bilgic, 2005] Bilgic, M., y R. J. Mooney. «Explaining Recommendations: Satisfaction vs. Promotion.» International Conference on Intelligent User Interfaces. San Diego, California, 2005.
    Please download to view
  • All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
    ...

    Técnicas de recomendación y argumentación

    by hugo-o-alejandres

    on

    Report

    Category:

    Technology

    Download: 0

    Comment: 0

    971

    views

    Comments

    Description

    Descripción de las técnicas de recomendación y argumentación utilizadas en los distintos tipos de Sistemas de Recomendación
    Download Técnicas de recomendación y argumentación

    Transcript

    • 1. TÉCNICAS DE RECOMENDACIÓN YARGUMENTACIÓN
  • 2. AGENDA• Técnicas de recomendación• Collaborative Filtering• Content-based• Knowledge-based• Híbridas• Técnicas de argumentación• Predicciones• Recomendaciones
  • 3. COLLABORATIVE FILTERING• Valoraciones de todos los usuarios como características delos ítems• Perfil de usuario• En base a las valoraciones del propio usuario• Recomendaciones o predicciones• Por similaridad/probabilidad entre usuarios• Por similaridad/probabilidad entre ítems[Schafer, 2007]
  • 4. COLLABORATIVE FILTERING• Universo• Valoraciones de U de los ítems en I• Entrada• Valoraciones de u de los ítems en I• Proceso• Identificar usuarios en U similares a u y extrapolar sus valoracionesde i[Burke, 2002]
  • 5. COLLABORATIVE FILTERING• Predicciones• Valor numérico que representa la opinión anticipada del usuariopara el ítem no valorado. Conocido como Individual Scoring.• Recomendaciones• Lista de N ítems que se corresponden con las preferencias delusuario. Conocido como Top-N recommendation o Rank Scoring.[Vozalis, 2003]
  • 6. PREDICCIONES [Zanker, 2010]
  • 7. PREDICCIONES [Zanker, 2010]
  • 8. 9 Collaborative Filtering Recommender Systems293RECOMENDACIONES(Table 1). Without loss of generality, a ratings matrix consists of a table where eachrow represents a user, each column represents a specific movie, and the number at theintersection of a row and a column represents the user’s rating value. The absence of arating score at this intersection indicates that user has not yet rated the item.Table 1. A MovieLens ratings matrix. Amy rated the movie Sideways a 5. Matt has not seenThe Matrix Speed SidewaysBrokeback The M atrix M ountain Amy1 25 M att35 4 Paul 5 52 1 Cliff5 55 5The term user refers to any individual who provides ratings to a system. Most often,we use this term to refer to the people using a system to receive information (e.g.,recommendations) although it also refers to those who provided the data (ratings)used in generating this information. Collaborative filtering systems produce predictions or recommendations for a
  • 9. RECOMENDACIONES• kNN
  • 10. RECOMENDACIONES• Similaridad EuclidianaMahalanobisMinkowskiCoseno
  • 11. RECOMENDACIONES[Vozalis, 2003]
  • 12. PROBLEMAS• Sparsity• Default Voting• Insertar valoraciones por default• User Average Scheme[Vozalis, 2003]
  • 13. PROBLEMAS• Sparsity• Singular Value Decomposition (SVD) [Amatriain, 2011]
  • 14. COLLABORATIVE FILTERING• Escenarios para su utilización:• Ítems que no requieran una exactitud semántica con las preferenciasdel usuario• Ítems con características heterogéneas y múltiples dominios• Cuando se tengan valoraciones de los ítems• Cuando no se conozcan las necesidades del usuario pero si suspreferencias
  • 15. CONTENT-BASED• Los ítems se definen por sus características• Género, año de publicación, autor, no. de páginas.• Palabras clave.• Perfil de (interés de) usuario• Características de los ítems valorados por el usuario.• Recomendaciones• Comparación del ítem no valorado con el perfil de (interés de)usuario.
  • 16. CONTENT-BASED• Universo• Características de los ítems en I• Entrada• Características de los ítems en I valorados por u• Proceso• Generar un clasificador que represente la conducta de valoracionesde u y usarlo sobre cada i no valorado.[Burke, 2002]
  • 17. CONTENT-BASED• Técnicas1. Representación de ítems2. Creación del perfil (de interés) de usuario - Clasificador3. Similaridad de (1) con (2)
  • 18. 10.1.1 I tem RepresentationCONTENT-BASEDItems that can be recommended to the user are often stored in a database table. Table10.1 shows a simple database with records (i.e., “rows”) that describe threerestaurants. The column names (e.g., Cuisine or Service) are properties of restaurants.These properties are also called “attributes,” “characteristics,” “fields,” or “variables”in different publications. Each record contains a value for each attribute. A unique• Representación de ítemsitems with the same name to be distinguished andidentifier, ID in Table 10.1, allowsserves as a key to retrieve the other attributes of the record.Table 10.1. A restaurant database IDName Cuisine Service Cost 10001 Mike’s Pizza Italian Counter Low 10002 Chris’s Cafe FrenchTable Medium 10003 Jacques Bistro FrenchTable HighThe database depicted in Table 10.1 could be used to drive a web site that lists andTable 10.2. Part of a newspaper articlerecommends restaurants. This is an example of structured data in which there is asmall number Fine-Tuning Energy item is described by the same set of attributes, and Lawmakers of attributes, each Planthere is a known set of values that theCalifornias may have. In this case, manyall but SACRAMENTO, Calif. -- With attributes energy reserves remaining machine depleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov.learning algorithms may be used to learn a user profile, or a menu interface can easily Gray Davis says will put the state in the power business for "a long time to come."be created to allow a user to create a profile. The next section of this chapter The proposal involves partially taking over Californias two largest utilities anddiscusses several approachesof up to 10 years toprofile from structured data. signing long-term contracts to creating a user buy electricity from wholesalers. Of course, a web page typically has more information than is shown in Table 10.1,such as a texttexts such asof the restaurant, a restaurant of unstructured data. UnlikeUnrestricted description news articles are examples review, or even a menu. Thesemay easily be storedare no attribute fields in thewell-defined values. Furthermore,bestructured data, there as additional names with database and a web page can[Pazzani, 2007]created with templatesnatural language text fields (as wellthe text field includingthe full complexity of to display the may be present in as the structured data).
  • 19. CONTENT-BASED• Representación de ítems• Vector Space Model (VSM)• Keyword-based VSM• Synset-based VSM• Semantic analysis• Ontologies• Explicit Semantic Analysis (ESA)
  • 20. REPRESENTACIÓN DE ÍTEMS• Vector Space Model• Representación espacial de las características del ítem• Aplicado a ítems de tipo texto o con características textuales• NO-ESTRUCTURADO
  • 21. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • Basado en técnicas de recuperación de información • TF-IDF (Term Frequency – Inverse Document Frecuency)
  • 22. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • En base a observaciones empíricas, se observan 3 supuestos: • IDF assumption: Los términos poco frecuentes no son menos relevantes que los frecuentes. • TF assumption: Múltiples ocurrencias de un término en un documento no con menos relevantes que las ocurrencias simples. • Normalization assumption: Los documentos largos no se prefieren sobre los cortos. [Lops, 2011]
  • 23. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM Table 10.2. Part of a newspaper articleLawmakers Fine-Tuning Energy PlanSACRAMENTO, Calif. -- With Californias energy reserves remaining all butdepleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov.Gray Davis says will put the state in the power business for "a long time to come."The proposal involves partially taking over Californias two largest utilities andsigning long-term contracts of up to 10 years to buy electricity from wholesalers. Unrestricted texts such as news articles are examples of unstructured data. Unlike structured data, there are no attribute names with well-defined values. Furthermore, the full complexity of natural language may be present in the text field including polysemous words (the same word may have several meanings) and synonyms (different words may have the same meaning). For example, in the article in Table 10.2, “Gray” is a name rather than a color, and “power” and “electricity” refer to the same underlying concept.Many domains are best represented by semi-structured data in which there are some attributes with a set of restricted values and some free-text fields. A common approach to dealing with free text fields is to convert the free text to a structured representation. For example, each word may be viewed as an attribute, with a Boolean value indicating whether the word is in the article or with an integer value
  • 24. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • Stemming • Ocurrencia de palabras tomando la raíz del término • Computación, Computadora, Computólogo, Cómputo
  • 25. REPRESENTACIÓN DE ÍTEMS• Synset-based VSM• Utiliza los synsets de WordNet• Mismos cálculos que Keyword-based VSM• Los pesos de los términos del mismo synset forman un elemento delvector• Los 3 supuestos aplican de la misma forma• Propósito:• Dar tratamiento a la sinonimia y polisemia
  • 26. REPRESENTACIÓN DE ÍTEMS• Semantic Analysis• Adición de información semántica a las representaciones de losítems• Uso de Ontologías
  • 27. REPRESENTACIÓN DE ÍTEMS• Explicit Semantic Analysis• Añade información de fuentes de conocimiento externas comoWikipedia, Open Directory Project (ODP) y Yahoo! Web Directory.• Cada concepto de la ontología se encuentra ligado a un enlace de lafuente externa[Gabrilovich, 2011]
  • 28. CONTENT-BASED• Creación del perfil (de interés) de usuario• Vector Space Model(VSM)• Support Vector Machine (SVM)• Métodos probabilísticos (Naïve Bayes)• Relevance Feedback (Rochio’s Algorithm)
  • 29. CREACIÓN DEL PERFIL DE USUARIO• Vector Space Model• Mismo caso que el VSM para la representación de ítems• Vector con las características de todos los ítems valorados por elusuario
  • 30. CREACIÓN DEL PERFIL DE USUARIO• Support Vector Machine• Encontrar una función (hiperplano lineal, límite de decisión) quesepare los datos con un margen maximizado.
  • 31. CREACIÓN DEL PERFIL DE USUARIO• Support Vector Machine
  • 32. CREACIÓN DEL PERFIL DE USUARIO• Métodos probabilísticos (Naïve Bayes)Multinomial Event Model
  • 33. CREACIÓN DEL PERFIL DE USUARIO• Relevance Feedback (Rochio’s Algorithm)• Similar al VSM• Crea un vector prototipo para compararlo con el vector decaracterísticas del ítem
  • 34. CONTENT-BASED• Similaridad Euclidiana MahalanobisMinkowski Coseno
  • 35. CONTENT-BASED• Escenarios para su utilización:• Ítems con contenido textual (Objetos de conocimiento)• Ítems con descripciones textuales• Ítems que con el mismo conjunto de características y valoresdiscretos para cada rasgo (Sin heterogeneidad de ítems)• Cuando sea necesario relacionar un ítem con una categoría
  • 36. KNOWLEDGE-BASED• Se basa en inferencias sobre las necesidades y preferenciasdel usuario• Diferencia• Utiliza conocimiento funcional• Como un determinado ítem cumple una necesidad específica• El perfil de usuario debe ser una estructura deconocimiento que soporte la inferencia[Burke, 2002]
  • 37. KNOWLEDGE-BASED• Universo• Características de los ítems en I• Conocimiento sobre como estos ítems cumplen las necesidades delos usuarios (Reglas de inferencia)• Entrada• Descripción de los intereses o necesidades de u• Proceso• Inferir una relación entre i y las necesidades de u[Burke, 2002]
  • 38. KNOWLEDGE-BASED• Association Rule Mining• Identifica colecciones de dos o mas elementos con un númerorepetitivo de transacciones que los contienen.• Itemset = Colecciones (Milk, Beer, Diaper)• Support count = Ocurrencias/Transacciones• Frequent itemset = Colecciones con Support count superior o igual alumbral• Association rule = X -> Y (Milk, Diaper) -> Beer• Se hacen N combinaciones y se comparan con el umbral mínimo detransacciones. [Amatriain, 2011]
  • 39. KNOWLEDGE-BASED• Rule-based classifier• Se basa en el uso de las reglas de asociación• If … then …
  • 40. KNOWLEDGE-BASEDExample Example• Rule-based classifierKnow le d ge Ba se :Know le d ge Ba se :P Pr oduct ca t a lo gue : Pow e r shot XYW e ight LH S e ight WLH SRH SRH S Popref.BrandCanon C1: 25 TRUE 25C1: TRUEBrand = Brand pref. = BrandBrand Br =<Lower focal length 35C2: 20 Motives 20 Landscape =Low. foc. Length =<C2: =MotivesLandscapeLow. foc. LengtLo 2828 Upper focal length 140 Upost C3: 15 TRUE 15C3:TRUEPrice =< Max Price =< Max c Max. cost Max. Price420 EURPrCur r e nt use r : Cur r e nt use r : Lum ixLuUse r m ode l Use r m ode l BrandPanasonicBr( r e quir e m e nt s) quir e m e nt s)( re Lower focal length 28 LoMotivesMotives LandscapeLandscape Upper focal length 112Up Brand preferenceBrand preference CanonCanon Price319 EURPrMax. costMax. cost 350 EUR350 EUR - 59 -
  • 41. KNOWLEDGE-BASED• Rule-based classifier• Rank 1. Lumix 35/60• Rank 2. Powershot 25/60[Zanker, 2010]
  • 42. KNOWLEDGE-BASED• Escenarios para su utilización:• Cuando se han obtenido las reglas asociativas mediante el análisisprevio del dominio• Cuando no se tienen valoraciones de los ítems• Cuando se cuente con información de las necesidades del usuario ydel dominio de los ítems
  • 43. HÍBRIDAS• Métodos de hibridación• Weighted• Switching• Cascade• Mixed• Feature Augmentation[Burke, 2002]
  • 44. HÍBRIDAS• Weighted[Zanker, 2010]
  • 45. HÍBRIDAS• Switching• Por ejemplo:• Si hay pocas valoraciones• Usar Knowledge-based• Si no• Usar Collaborative Filtering[Zanker, 2010]
  • 46. HÍBRIDAS• Cascade [Zanker, 2010]
  • 47. HÍBRIDAS• Mixed• Las recomendaciones de distintos recomendadores se presentan almismo tiempo• Feature Augmentation• La salida de un recomendador es la entrada del siguiente.
  • 48. COMBINACIONES[Burke, 2002]
  • 49. ARGUMENTACIÓN• Predicciones• Data-Explorative Model• El usuario puede observar los datos sobre los cuales se hizo lapredicción.• No se basa en el proceso matemático para la obtención de la predicción.• Process-Explorative Model• Se explica el proceso matemático tras la predicción.• Diagrama de flujos• Argumentative Model• Utiliza técnicas de argumentación lógica para soportar la predicción.
  • 50. ARGUMENTACIÓN• Recomendaciones • Estilos de recomendación • Por tipo de elementos (user x feature x item) • Por visualización
  • 51. ARGUMENTACIÓN• Por tipo de elemento[Papadimitriou, 2011]
  • 52. ARGUMENTACIÓN• Por tipo de elemento[Papadimitriou, 2011]
  • 53. ARGUMENTACIÓN• Por tipo de visualización• Keyword Style Explanation• Neighbor Style Explanation• Influence Style Explanation [Bilgic, 2005]
  • 54. REFERENCIAS[Burke, 2002]Burke, Robin. «Hybrid Recommender Systems: Survey and Experiments.» User Modeling and User-Adapted Interaction, nº 12 (2002): 331-370.[Schafer, 1999]Schafer, J. B., J. Konstan, y J. Riedl. «Recommender Systems in E-Commerce.» Proceedings of the First ACM Conference on Electronic Commerce. Denver, Colorado, 1999. 158-166.[Pasquale, 2011] Lops, Pasquale, Marco de Gemmis, y Giovanni Semeraro. «Content-based Recommender Systems: State of the Art and Trends.» En Recommender Systems Handbook, de Francesco Ricci, Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105. Springer Science+Bussiness Media, 2011.[Pazzani, 2007]Pazzani, Michael J., y Daniel Billsus. «Content-based Recommendation Systems.» En Personalization, The Adaptative Web: Methods and Strategies of Web, de Peter Brusilovsky, Alfred Kobsa y Wolfgang Nejdl, 325-341. Springer-Verlag Berlin Heidelberg, 2007.
  • 55. REFERENCIAS[Gabrilovich, 2007] Gabrilovich, E., Markovitch, S.: Computing SemanticRelatedness Using Wikipedia-based Explicit SemanticAnalysis. In: M.M. Veloso (ed.) Proceedings of the 20thInternational Joint Conference on Artificial Intelligence, pp.1606–1611 (2007)[Schafer, 2007] Schafer, J. B., Frankowski, D., Herlocker, J. y S. Shilad.«Collaborative Filtering Recommender Systems.» EnPersonalization, The Adaptative Web: Methods andStrategies of Web, de Peter Brusilovsky, Alfred Kobsa yWolfgang Nejdl, 325-341. Springer-Verlag BerlinHeidelberg, 2007.[Vozalis, 2003] Vozalis, E., y K. G. Margaritis. «Analysis of RecommenderSystems Algorithms.» 6th Hellenic European Conference onComputer Mathematics & its Applications HERCMA. Atenas,Grecia, 2003.
  • 56. REFERENCIAS[Zanker, 2010]Zanker, M., y D. Jannach. «Introduction toRecommender Systems.» Tutorial at ACM Symposiumon Applied Computing. Sierre, Suiza, 2010.[Amatriain, 2011] Amatriain, X., Jaimes, A., Oliver, N. y Pujol, J. M. «DataMining Methods for Recommender Systems» EnRecommender Systems Handbook, de Francesco Ricci,Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105.Springer Science+Bussiness Media, 2011.[Papadimitriou, 2011] Papadimitriou, Alexis, Panagiotis Symeonidis, yYannis Manolopoulos. «A generalized taxonomy ofexplanations styles for traditional and socialrecommender systems.» Data Mining and KnowledgeDiscovery , 2011: 1-29.
  • 57. REFERENCIAS[Bilgic, 2005] Bilgic, M., y R. J. Mooney. «Explaining Recommendations: Satisfaction vs. Promotion.» International Conference on Intelligent User Interfaces. San Diego, California, 2005.
  • Fly UP