基于熟人社交网络的文本与图像数据挖掘
本文是研究生课程《Data Mining》的大作业,希望通过对熟人社交网络(QQ空间)中的文本和图像进行挖掘,得出在熟人社交网络中,发什么样的内容更容易吸引朋友们的关注(点赞、评论、浏览量)以及通过这些数据进行用户画像的构建。我们对文本内容、文本情绪、图像内容、图像摄影水平、发送时间等数据进行量化,并使用多种机器学习方法进行拟合。经过大量的数据爬取、清洗、分类、挖掘等工作,但受限于理论知识、技术、硬件、时间等原因,最后,我们不得不承认————似乎没啥有用的信息…
摘要:与微博、知乎、贴吧等公众的网络社区不同的是,朋友圈、QQ空间等网络社区是以相互熟识的朋友、亲戚、同学等为基础建立起来的,因此,我们称这类社区为“熟人社交网络”(与之相对的,称为陌生人社交网络)。在熟人社交网络中,由于用户之间除了线上的交流之外,往往还有线下的更为直接的接触,这使得熟人社交网络与陌生人社交网络中的交流方式变得不同。随着互联网的飞速发展,普通用户越来越需要在熟人社交网络中树立一个良好的印象,通过发送“动态”来引起好友们的关注。本文以QQ空间中采集得到的真实数据为基础,使用热度来衡量每一条动态的受欢迎程度,从而对熟人社交网络中如何产生更受欢迎的动态进行了建模和分析,并提出了一种基于用户在熟人社交网络中发表的文本、图像等数据构建用户画像的方法。
关键字:熟人社交网络、自然语言处理、图像处理、用户画像
Abstract:Wechat moods and QQ zone are different from public online communities like Weibo, Zhihu and Baidu tieba for they are built on the basis of friends, relatives and classmates who are familiar with each other. Therefore, we call this type of community an acquaintance social network , which is opposed to a stranger social network. In the acquaintance social network, expect for online communication, there often exists more direct offline contact, which makes the communication methods of acquaintance social network and the stranger social network different. With the rapid development of the Internet, ordinary users need to establish a good impression in the social network of acquaintances, and send moods to attract the attention of friends. Based on the real data collected in the QQ zone, this paper uses the heat to measure the popularity of each ”mood”, and thus models and analyzes how to produce more popular ”moods” in the acquaintance social network, and proposes a method for constructing user portrait based on text, image and other data published by user in acquaintance social network.
Keywords: acquaintance social network, natural language processing, image processing, user portrait
全文地址:Text and Image Data Mining Based on Acquaintance Social Network
附:
通过对QQ空间中添加好友的时间等信息的爬取,反向推出用户在每个时间点的好友,生成图的结构,并通过动画的形式表现出用户添加好友以及QQ群的过程。(其中每个节点为好友头像,QQ群头像统一以一只猫的照片表示)
2.项目核心代码
点击量:1552
1 条评论
硕士一年级课程设计合集(软件工程) – 小麦冬 · 2019年3月30日 下午1:37
[…] 博客及原文地址: Text and Image Data Mining Based on Acquaintance Social Network […]