社交网站的数据挖掘与分析(原书第2版)【文字版】((美)拉塞尔(MatthewA.Russell)著苏统华等译)

书:pan.baidu.com/s/1BfkJHHKsp9ehsUcr55ZzXA?pwd=0ffp

  1. 社交网站数据的价值
    • 社交网站数据如同深埋地下的“金矿”,通过挖掘这些数据,可以发现哪些人正通过社交媒介进行联系,以及他们之间的互动模式和关系网络。
  2. 数据挖掘的目标
    • 本书旨在揭示如何获取、分析和汇总散落于社交网站(包括Facebook、Twitter、LinkedIn、Google+、GitHub、邮件、网站和博客等)的数据,并通过可视化手段找到有用的信息。
  3. 使用工具和技术
    • 借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具,可以更有效地挖掘主流社交网站的数据。
  4. 高级文本挖掘技术
    • 使用高级文本挖掘技术(如聚类和TF-IDF)来提取人类语言数据中有价值的知识,帮助理解用户的言论和态度。
  5. 构建兴趣图谱
    • 通过发现GitHub上人、编程语言和代码工程间的亲密性,可以构建兴趣图谱,揭示不同用户或项目之间的关联和兴趣点。
  6. 交互式可视化
    • 利用D3.js进行交互式可视化,可以充分发挥HTML5和JavaScript工具包的灵活特性,使数据更加直观易懂。
  7. Twitter数据挖掘
    • 以“问题-解决方案-讨论”的方式详细讲解了深入挖掘Twitter数据的实用技术,包括探索热门话题、发现人们的谈论内容等,并提供代码示例。
  8. 社交图谱分析
    • 在挖掘Facebook等社交网站时,通过分析社交图谱联系,可以了解用户之间的关系网络、粉丝页面等信息。
  9. 数据聚类
    • 在挖掘LinkedIn等数据时,可以使用数据聚类等技术来分组职位、聚类同行,揭示职业领域内的关系和趋势。
  10. 自然语言处理
    • 使用自然语言处理技术来理解人类语言、总结博客内容等,可以帮助从文本数据中提取有价值的信息。
  11. 邮件数据挖掘
    • 分析邮件数据可以了解谁和谁说什么以及说的频率等信息,有助于揭示用户之间的通信模式和关系。
  12. 数据清洗和规整
    • 书中还详细介绍了如何使用Python等工具进行数据清洗和规整,以确保数据的准确性和一致性,为后续的数据分析提供基础。

这些原文观点或内容摘要涵盖了《社交网站的数据挖掘与分析(原书第2版)》中关于社交网站数据挖掘的重要论述和见解。如需更多具体原文内容,请直接查阅原著。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注