书:pan.baidu.com/s/1BfkJHHKsp9ehsUcr55ZzXA?pwd=0ffp
- 社交网站数据的价值:
- 社交网站数据如同深埋地下的“金矿”,通过挖掘这些数据,可以发现哪些人正通过社交媒介进行联系,以及他们之间的互动模式和关系网络。
- 数据挖掘的目标:
- 本书旨在揭示如何获取、分析和汇总散落于社交网站(包括Facebook、Twitter、LinkedIn、Google+、GitHub、邮件、网站和博客等)的数据,并通过可视化手段找到有用的信息。
- 使用工具和技术:
- 借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具,可以更有效地挖掘主流社交网站的数据。
- 高级文本挖掘技术:
- 使用高级文本挖掘技术(如聚类和TF-IDF)来提取人类语言数据中有价值的知识,帮助理解用户的言论和态度。
- 构建兴趣图谱:
- 通过发现GitHub上人、编程语言和代码工程间的亲密性,可以构建兴趣图谱,揭示不同用户或项目之间的关联和兴趣点。
- 交互式可视化:
- 利用D3.js进行交互式可视化,可以充分发挥HTML5和JavaScript工具包的灵活特性,使数据更加直观易懂。
- Twitter数据挖掘:
- 以“问题-解决方案-讨论”的方式详细讲解了深入挖掘Twitter数据的实用技术,包括探索热门话题、发现人们的谈论内容等,并提供代码示例。
- 社交图谱分析:
- 在挖掘Facebook等社交网站时,通过分析社交图谱联系,可以了解用户之间的关系网络、粉丝页面等信息。
- 数据聚类:
- 在挖掘LinkedIn等数据时,可以使用数据聚类等技术来分组职位、聚类同行,揭示职业领域内的关系和趋势。
- 自然语言处理:
- 使用自然语言处理技术来理解人类语言、总结博客内容等,可以帮助从文本数据中提取有价值的信息。
- 邮件数据挖掘:
- 分析邮件数据可以了解谁和谁说什么以及说的频率等信息,有助于揭示用户之间的通信模式和关系。
- 数据清洗和规整:
- 书中还详细介绍了如何使用Python等工具进行数据清洗和规整,以确保数据的准确性和一致性,为后续的数据分析提供基础。
这些原文观点或内容摘要涵盖了《社交网站的数据挖掘与分析(原书第2版)》中关于社交网站数据挖掘的重要论述和见解。如需更多具体原文内容,请直接查阅原著。