- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验报告
专业
班级
姓名
学号
实验课程
指导教师
实验日期
同实验者
实验项目
情感语义分析
实验设备及器材
Pycharm2021.1.3,Python3.8.6
实验步骤、数据记录及处理
1. 原始数据分析
京东评论数据集分为好评pos.xls和差评neg,xls两类样本,其中好评样本有10677条,差评有10428条,部分数据情况如图1.1。样本类别较均衡,通过matplotlib可视化,观察样本句子长度分布特点。
由于LSTM的句子长度都是固定的,所以在数据预处理中将句子裁剪为相同长度,根据语料的累积分布情况确定句子长度,此处将样本中90%概率的句子长度作为裁剪后句子的统一长度,即句长为188,如图1.3。
图1.3 数据集句子长度
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
neg = pd.read_excel(./data/neg.xls, header=None)
pos = pd.read_excel(./data/pos.xls, header=None)
df = np.concatenate((pos, neg))
print(df)
#%%句子长度累计分布图
Num_len = [len(str(text)) - 4 for text in df]
print(Num_len)
bins_interval = 10 # 区间长度
bins = range(min(Num_len), max(Num_len)+bins_interval-1, bins_interval) # 分组
print(bins)
plt.xlim(min(Num_len), max(Num_len))
plt.title(Probability-distribution)
plt.xlabel(Interval)
plt.ylabel(Cumulative distribution)
prob, left, rectangle = plt.hist(x=Num_len, bins=bins, density=True, stacked=True, cumulative=True, histtype=step, color=[b]) # 累计分布图
plt.show()
#%%求分位点
import math
def quantile_p(data, p):
data.sort()
pos = (len(data) + 1)*p
#pos = 1 + (len(data)-1)*p
pos_integer = int(math.modf(pos)[1])
pos_decimal = pos - pos_integer
Q = data[pos_integer - 1] + (data[pos_integer] - data[pos_integer - 1])*pos_decimal
return Q
quantile=0.90#选取分位数
Q=quantile_p(Num_len,quantile)
print(\n分位点为%s的句子长度:%d. % (quantile, Q))
2. 数据预处理
import sys
from sklearn.model_selection import train_test_split
import multiprocessing
import numpy as np
from gensim.models import Doc2Vec
from gensim.corpora.dictionary import Dictionary
from gensim.models import Word2Vec
import tensorflow_hub as hub
from keras.preprocessing import sequence
from keras.models import Sequential, model_from_json, Model
from keras.layers.embeddings import Embedding
from keras.layers.recurrent import LSTM
from keras.layers.core import Dense, Dropout, Activation
np.random.seed(1337) # For Reproducibility
import jieb
您可能关注的文档
- 中文分词,词性标注,句法分析.doc
- 关键词提取自然语言处理(1).doc
- 实习报告提纲(按照模版手写) (2).docx
- 普通地质学重点.docx
- 数学试题二年级.pdf
- 2021.6月四级写作押题班模板.pdf
- 六年级数学课堂练习试题.pdf
- 01.英语一新题型导学讲义.pdf
- TtqG_水生态保护与修复.pdf
- 12讲通关中考数学几何模型(费马点,胡不归,阿氏圆).pdf
- 国有企业党支部书记2024年组织生活会个人“四个带头”对照检查材料范文.docx
- 2024年党员干部民主生活会、组织生活会对照检查材料(四个带头)参考范文2篇.docx
- 2024年度组织生活会和民主评议党员大会实施方案参考范文(含:5个附件表格).docx
- 国有企业党支部书记组织生活会个人对照检查材料(四个带头)供参考.docx
- 浙教版9年级上册数学全册教学课件(2021年11月修订).pptx
- 苏教版8年级上册数学全册教学课件(2021年10月修订).pptx
- 比师大版数学4年级下册全册教学课件.pptx
- 冀教版5年级上册数学全册教学课件.pptx
- 办公室普通党员2024年组织生活会个人对照检查发言材料供参考.docx
- 领导班子成员2025年组织生活会“四个带头”对照检查材料范文.docx
为中小学学生教育成长提供学习参考资料,学习课堂帮助学生教师更好更方便的进行学习及授课,提高趣味性,鼓励孩子自主进行学习,资料齐全,内容丰富。
文档评论(0)