基于Python的手机舆情系统(4)
3.2.1数据存储数据分析
现在几乎全部的资讯网站,都已发表文章的形式向读者传递信息。文章可以让读者更全面的认识到事物,不同于简讯,简讯只是让我们看到了表面而没有让读者更深入的了解到许多细节性的东西。而发表文章就大有不同了,让读者更全面、更细致的去了解一个产品或者一种事物。现如今这种方式也已经被大多数人认可并采用。同时也很注重信息全面的重要性。
所以决定,主要对这些网站的一些文章作为抓取的对象,抓取文章的标题、时间、网站来源、文章内容并存入数据库。
3.2.2数据库编码
数据库编码问题一直是一个让人头疼的问题,数据库编码出现的错误也肯定直接关系到数据是否能正确存储。要确定数据存储的高效性和正确性,就一定要保证数据库编码合理。
| character_set_client | | character_set_connection | | character_set_database | | character_set_filesystem | | character_set_results | | character_set_server | | character_set_system |
上述则是数据库所有编码选项,大部分资料说明应该把所有编码格式编码为utf-8。但经过实际操作全部编码改为utf-8后,出现中文字符无法插入数据库的问题。所以最终的编码格式改为:
| character_set_client | gbk | character_set_connection | gbk | character_set_database | utf8 | character_set_filesystem | binary | character_set_results | gbk | character_set_server | utf8 | character_set_system | utf8
3.2.2数据库建表
12
每个网站的信息记录都是一张独立的表,以免存在一个表中数据量过大,数据库表一出错,就导致全部瘫痪。这样我们就有很高的操作性,虽然多表查询会直接影响数据查询的效率。但相比较下,稳定性远远比查询效率高重要的多。所以选择舍去查询效率,留下系统稳定性。
表3.1 中关村在线数据存储表(zol)
Field Name zol_id zol_title zol_url zol_time zol_content
表3.2 新浪数据存储表(sina)
Field Name sina_id sina_title sina_url sina_time Field Type int varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 Field Type int varchar varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 sina_content varchar
表3.3 手机世界数据存储表(3533_)
Field Name 3353_id 3353_title 3353_url 3353_time Field Type int varchar varchar varchar Size 11 100 100 100 10000 13
Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 3353_content varchar
表3.4 泡泡手机数据存储表(pcpop)
Field Name pcpop_id pcpop_title pcpop_url pcpop_time Field Type int varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 pcpop_content varchar
表3.5 手机之家数据存储表(imobile)
Field Name imobile_id imobile_title imobile_url imobile_time imobile_content
表3.6 手机中国数据存储表(cnmo)
Field Name cnmo_id cnmo_title cnmo_url cnmo_time cnmo_content
Field Type Size int varchar varchar varchar varchar 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 Field Type Size int varchar varchar varchar varchar 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 14
表3.7 网易手机数据存储表(163_)
Field Name 163_id 163_title 163_url 163_time 163_content
表3.8 it168手机数据存储表(it168)
Field Name it168_id it168_title it168_url it168_time it168_content
Field Type Size int varchar varchar varchar varchar 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 Field Type int varchar varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容
15
第4章 系统功能设计与实现
在系统分析和设计阶段,系统开发工作主要是集中在逻辑、功能和技术设计上,系统实施阶段要继承此前面各个阶段的工作成果,将技术设计转化为物理实现,因此系统实施的成果是系统分析和设计阶段的结晶。
系统模块设计如图4.1所示:
图4.1 模块功能图
第4.1节 用户登录
程序运行效果图如图4.2所示:
16
…… 此处隐藏:1354字,全部文档内容请下载后查看。喜欢就下载吧 ……相关推荐:
- [资格考试]机械振动与噪声学部分答案
- [资格考试]空调工程课后思考题部分整合版
- [资格考试]电信登高模拟试题
- [资格考试]2018年上海市徐汇区中考物理二模试卷(
- [资格考试]坐标转换及方里网的相关问题(椭球体、
- [资格考试]语文教研组活动记录表
- [资格考试]广东省2006年高应变考试试题
- [资格考试]LTE学习总结—后台操作-数据配置步骤很
- [资格考试]北京市医疗美容主诊医师和外籍整形外科
- [资格考试]中学生广播稿400字3篇
- [资格考试]CL800双模站点CDMA主分集RSSI差异过大
- [资格考试]泵与泵站考试复习题
- [资格考试]4个万能和弦搞定尤克里里即兴弹唱(入
- [资格考试]咽喉与经络的关系
- [资格考试]《云南省国家通用语言文字条例》学习心
- [资格考试]标准化第三范式
- [资格考试]GB-50016-2014-建筑设计防火规范2018修
- [资格考试]五年级上册品社复习资料(第二单元)
- [资格考试]2.对XX公司领导班子和班子成员意见建议
- [资格考试]关于市区违法建设情况的调研报告
- 二0一五年下半年经营管理目标考核方案
- 2014年春八年级英语下第三次月考
- 北师大版语文二年级上册第十五单元《松
- 2016国网江苏省电力公司招聘高校毕业生
- 多渠道促家长督导家长共育和谐 - 图文
- 2018 - 2019学年高中数学第2章圆锥曲线
- 竞争比合作更重要( - 辩论准备稿)课
- “案例积淀式”校本研训的实践与探索
- 新闻必须客观vs新闻不必客观一辩稿
- 福师大作业 比较视野下的外国文学
- 新编大学英语第二册1-7单元课文翻译及
- 年产13万吨天然气蛋白项目可行性研究报
- 河南省洛阳市2018届高三第二次统一考试
- 地下车库建筑设计探讨
- 南京大学应用学科教授研究方向汇编
- 2018年八年级物理全册 第6章 第4节 来
- 毕业论文-浅析余华小说的悲悯性 - 以《
- 2019年整理乡镇城乡环境综合治理工作总
- 广西民族大学留学生招生简章越南语版本
- 故宫旧称紫禁城简介




