0%

Lab1

Write a Python program to calculate the ROI (Return of investment) with the steps below

  • Create a variable earning and assign it value to 3765432.

  • Create the variable invest and assign it value to 1000000.

  • Create the variable roi and assign the formula
    $roi = \frac{Earnings - Invest}{Invest}$
    You can find more Markdown syntax about writing mathematical expressions here

  • Display the result

1
2
3
4
5
Earnings = 3765432
Invest = 1000000
roi = (Earnings - Invest)/Invest
print(roi)
#2.765432
阅读全文 »

1. SQL概述

1.1 SQL分类

SQL语言在功能上分为3大类:

  1. DDL(Data Defination Languages,数据定义语言)
1
CREATE,DROP,ALTER等
  1. DML(Data Manipulation Language,数据操作语言)
1
INSERT,DELETE,UPDATE,SELECT等
  1. DCL(Data Control Language,数据控制语言)
1
GRANT,REVOKE,COMMIT,ROLLBACK,SAVEPOINT等

1.2 SQL大小写规范

  • MySQL在win环境下大小写不敏感
  • MySQL在Linux环境下大小写敏感
  • 规范:
    • 数据库名,表名,表别名,字段名,字段别名都小写
    • SQL关键字,函数名,绑定变量都大写
阅读全文 »

训练模型

试用gensim自带的Lee语料库来训练模型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
from pprint import pprint as print
from gensim.models.fasttext import FastText as FT_gensim
from gensim.test.utils import datapath

#设置文件名
corpus_file = datapath('lee_background.cor')

model = FT_gensim(size = 100)

#建立词汇表
model.build_vocab(corpus_file = corpus_file)

#训练模型
model.train(
corpus_file = corpus_file,epochs = model.epochs,
total_examples = model.corpus_count,total_words = model.corpus_total_words
)

print(model)
1
<gensim.models.fasttext.FastText object at 0x000001B960B8D400>
阅读全文 »

Gensim核心概念

文档(Document)

Gensim中的文档(document)是文本序列(就像python3中的str)类型的对象。

1
document = "Human machine interface for lab abc computer applications"

语料库(Corpus)

一个语料库是许多文档对象的集合。语料库在Gensim中起到两种作用:

  1. 训练模型。模型使用训练语料库来寻找数据中的共同主题(themes and topics),初始化模型的内部参数。
  2. 组织文档。模型训练完后,主题模型可以从新的文档中抽取之前训练语料库中没有的主题。这样的语料库可以为相似性查询(Similarity Queries)建立索引,进行相似性判断,聚类等操作。

实例语料库,由9个文档组成,每个文档都是一个由单个句子组成的字符串。

1
2
3
4
5
6
7
8
9
10
11
text_corpus = [
"Human machine interface for lab abc computer applications",
"A survey of user opinion of computer system response time",
"The EPS user interface management system",
"System and human system engineering testing of EPS",
"Relation of user perceived response time to error measurement",
"The generation of random binary unordered trees",
"The intersection graph of paths in trees",
"Graph minors IV Widths of trees and well quasi ordering",
"Graph minors A survey",
]

代码托管:https://github.com/zhuozhuo233/Gensim-Core-Notes

阅读全文 »

一、项目开发目的

​ 随着互联网信息技术高速发展,近年来网络上的数据可以说是爆炸式增长。如果这这些数据能够被科学地收集起来进行分析,那么对于政府、企业都可以以网络舆情为参考制定自己下一步的战略规划。具体而言,对于政府来说,通过对微博内容进行分析可以进一步了解大众,把握社会舆情风向。针对各种社会风气进行或提倡或批评的指导。对于企业来说,通过对微博内容进行分析可以快速进行用户调研,比起传统的问卷调研来说有着无与伦比的优势,并且还可以监控竞品公司舆情,以此做出全方位的分析并改善自己的产品。

​ 新浪微博上涵盖的信息大到国家战略层面的指示,小到生活中人们的鸡毛琐事。面对这海量数据,针对微博热搜榜进行分析就可以极大程度上缩小数据量,提高对于舆论热点把握的精确性。本项目旨在爬取微博热搜正文及内容,利用贝叶斯算法对于每一条评论文本进行情绪分析,最后可视化呈现情绪评分。实现了对于微博热搜条目的可视化情感分析,以供快速理解舆情。同时,本项目也可以扩展到专门针对特定商品或政策进行情感分析,助力政企直观了解舆情,为下一步的发展提供重要参考。

​ 基于此社会背景及需求,本项目在舆情分析方面做出一小步探索。将爬虫、数据处理、kafka架构、贝叶斯算法建模、pyecharts可视化、flask框架整合运用。作为阶段性总结在此将项目流程以此笔记记录下来。

工程文件:https://github.com/zhuozhuo233/weibotop_sentiment_analysis

阅读全文 »

写在最前

爬虫相关内容的阶段性成果。爬虫技术应用广泛,但若只是爬取到数据而不加以分析那么数据终究只是一堆数据而已,本项目将微博热搜内容爬取后进行情感分析。旨在对于爬虫技术以及数据分析技术进行探索学习^_^

总体流程

(1)数据爬取和处理

1.爬取“吴磊绝杀”对应的微博主要内容cont,对应函数get_weibo_list(url)

2.对爬取到的微博主要内容调用process(test)函数去噪和分词,得到处理后的结果pro_cont

3.将pro_cont转为DataFrame格式,为转为文本向量做准备

4.加载停用词

(2)构建分类模型

1.加载训练集train.txt和测试集test.txt语料库

2.定义训练样本数据

3.构建朴素贝叶斯分类模型

4.测试集数据集检验准确度

5.保存模型

(3)应用模型

1.对指定标题的微博主要内容运用模型预测情绪

项目源代码:https://github.com/zhuozhuo233/weibotop-emotional-analysis/tree/main

阅读全文 »

写在最前

老早就想做的一个项目现在终于有机会开始了,Python相关技术都一段时间没用过了,这次全部记录下来随时看看O(∩_∩)O项目还没做完,慢慢更新中,希望早日完结^—^

一、相关组件

  • Kafka
  • Zookeeper
  • Python
  • Beautiful Soup
  • XPath
  • (待定……)

二、Kafka消息队列测试

阅读全文 »

写在最前

学习一小时、环境搭几天-_-||

许多地方与伪分布式步骤相同,多打快照防止崩溃。简略记录一下以防哪天又崩了方便随时复原

一、搭建准备

1.1 总体流程

  • 准备3台客户机(关闭防火墙、静态ip、主机名称)
  • 安装JDK
  • 配置环境变量
  • 安装Hadoop
  • 配置集群
  • 配置ssh
  • 群起并测试集群
阅读全文 »

一、项目开发目的

当今社会发展迅速,生活节奏也随着经济的发展越来越快,不少年轻人由于工作繁重同时缺少锻炼、饮食作息不规律,生活步入范亚健康化。腰腿疼痛、胃不舒服等症状我们平时都能明显地感受到并加以治疗。而心脏疾病却是难以捕捉,如果没有定期体检的习惯,很难直观地感受到心脏的潜在风险。心脏类疾病的发作迅速,后果严重。Framingham Heart Study(FHS)针对心脏疾病开展了长达70多年的跟踪研究。其中有一项长达26年的大规模研究显示,在全猝死患者中,心源性猝死高达75%。在现实中,我们也经常能看到关于年轻人猝死的新闻。所以本项目旨在对心脏病相关数据进行分析、建模,让大家对于心脏疾病更为了解、更加关注自身的身体健康。主要目的如下:1、对于心脏病相关数据集进行数据清洗、处理、特征筛选。2、使用分析得到的数据进行建模。3、通过网页将心脏病相关数据可视化呈现,并且支持通过输入个人信息查询心脏病患病风险。其中,我主要负责的是数据处理与清洗部分,本文对其他部分仅进行大致阐述。

工程文件:https://github.com/zhuozhuo233/Heart-disease-analysis

阅读全文 »