Deep Learning Specialization on Coursera

如何从query log中挖掘、发现有价值或可能感兴趣的知识?

+2 投票

给定搜索引擎或微博一段时间的query log(包含:timestamp, user signature, query),如何挖掘、发现有价值或可能感兴趣的知识?如:

  1. 命名实体识别
  2. query expansion
  3. query分类
  4. 主题识别
  5. 热词抽取
  6. ... ...

欢迎大家分享、讨论!

时间: 2012年 5月 12日 分类:机器学习 作者: fandywang (2,370 基本)
编辑 2012年 5月 12日 作者:fandywang
对问题定义稍微做一些修改:

给定搜索引擎或社交媒体一段时间的user interaction 形如 (query/tag, user signature, resource, timestamp),可以做哪些挖掘?如何挖掘?

这里将微博泛化为社交媒体包括社交网络如facebook,微博如twitter,资源共享如flickr等;而将query log变成了具有更普适含义的用户交互,这里对于搜索引擎来说,主要的交互来自于query log,这种交互是隐式交互;而随着Web 2.0的兴起,用户可以voting,可以收藏,可以打标签等,这些和query log具有类似的表现形式,特别是对资源标注tag(类似收藏夹管理和共享),但却可以直接在页面上体现出,所以称为显式交互。

 

接着,我们需要定义可以做哪些挖掘,在定义之前需要先给出一个业内普遍接受的分类,并在该分类体系下给出具体的挖掘任务,从而保证完整性:

1. 内容挖掘:这里可以分为同构对象的挖掘:比如query/tag分类或聚类;也包括异构对象的挖掘,对于资源,利用query或tag来帮助其抽取热词,识别主题,甚至结合tag作为用户知识库结合背景知识库辅助各种序列标注模型来进行命名实体识别等。query或tag的扩展可以利用同构对象的相似度,或取出同个/相似cluster中相近的对象,也可利用关联的resource甚至user等作为额外的维度,利用他们的相似度来传递相似形。

2. 结构挖掘:通过将query/tag和User还有resource连边,形成了3步图(相对之前的2步图),同一种类型的对象之间没有连边(或连接的边大部分是刻画他们的相似性或closeness,属于内容挖掘范畴),通过各种SNA(social network analysis)或复杂网络分析来确定图结构和途中重要的对象;

3. 使用挖掘:一般围绕用户展开,比如专家或领域达人的发掘,针对用户的tag推荐,resource推荐等;和内容挖掘相比,这里的输入是待推荐的data space和一个给定的对象,往往待推荐的data space中包含的对象和给定的对象是异构的,如待推荐的是tag或resource,而给定的是user。同时上面提到的异构对象内容挖掘主要是利用其它对象来作为给定对象空间的一个补充,例如用标注的tag作为当前resource一种特定的关联知识来进行内容挖掘。使用挖掘不仅可以用到基于内容的推荐,这属于内容挖掘的范畴,用来解决冷启动等问题;还有基于协同过滤等,这属于结构挖掘的范畴(各种voting等也可以归入此范畴),往往两者相结合。

上述讨论的没有涉及timestamp,如果加入时态影响,对于内容挖掘,可以是热点趋势分析等;对于结构挖掘是community社区的evolution(演化),对于使用挖掘就是推荐主题的迁移或专家的更新(他的关注点或研究方向发生了变化)。这就有了更多可做的东西。此外,也可以添加空间,这点对于移动互联网,特别是LBS等服务的兴起也可以根据上述3类对挖掘任务进行归纳,这里就不做详细展开。

总的来说,随着各种新媒体和新应用的产生,赋予了query log挖掘新的生命,不仅要考虑新的数据下,新的使用习惯和新的context (时间,空间,设备,心情,所做的任务)等可以做的挖掘任务不同,即使对于相同挖掘任务,其前提假设和要求也会不同,所以必须数据驱动或应用驱动的来解决问题。

1个回答

+2 投票
还有比较实用的如:

1. User Pattern:如query内容与时间、地点的关系等

2. Collaborative Recommendation:根据用户的query log,找到相似用户,协同推荐
已回复 2012年 5月 13日 作者: jaimely (340 基本)
NLPJob

Text Summarization

Keyword Extraction

Text Processing

Word Similarity

Best Coursera Course

Best Coursera Courses

Elastic Patent

本站架设在 DigitalOcean 上, 采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.