实验报告情感语义分析.doc

下载文档

69
0
约7.83千字
约 7页
2021-12-08 发布于广东
举报
版权申诉
保障服务

实验报告情感语义分析.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实验报告专业班级姓名学号实验课程指导教师实验日期同实验者实验项目情感语义分析实验设备及器材 Pycharm2021.1.3，Python3.8.6 实验步骤、数据记录及处理 1. 原始数据分析京东评论数据集分为好评pos.xls和差评neg,xls两类样本，其中好评样本有10677条，差评有10428条，部分数据情况如图1.1。样本类别较均衡，通过matplotlib可视化，观察样本句子长度分布特点。由于LSTM的句子长度都是固定的，所以在数据预处理中将句子裁剪为相同长度，根据语料的累积分布情况确定句子长度，此处将样本中90%概率的句子长度作为裁剪后句子的统一长度，即句长为188，如图1.3。图1.3 数据集句子长度 import json import numpy as np import pandas as pd import matplotlib.pyplot as plt # 读取数据 neg = pd.read_excel(./data/neg.xls, header=None) pos = pd.read_excel(./data/pos.xls, header=None) df = np.concatenate((pos, neg)) print(df) #%%句子长度累计分布图 Num_len = [len(str(text)) - 4 for text in df] print(Num_len) bins_interval = 10 # 区间长度 bins = range(min(Num_len), max(Num_len)+bins_interval-1, bins_interval) # 分组 print(bins) plt.xlim(min(Num_len), max(Num_len)) plt.title(Probability-distribution) plt.xlabel(Interval) plt.ylabel(Cumulative distribution) prob, left, rectangle = plt.hist(x=Num_len, bins=bins, density=True, stacked=True, cumulative=True, histtype=step, color=[b]) # 累计分布图 plt.show() #%%求分位点 import math def quantile_p(data, p): data.sort() pos = (len(data) + 1)*p #pos = 1 + (len(data)-1)*p pos_integer = int(math.modf(pos)[1]) pos_decimal = pos - pos_integer Q = data[pos_integer - 1] + (data[pos_integer] - data[pos_integer - 1])*pos_decimal return Q quantile=0.90#选取分位数 Q=quantile_p(Num_len,quantile) print(\n分位点为%s的句子长度:%d. % (quantile, Q)) 2. 数据预处理 import sys from sklearn.model_selection import train_test_split import multiprocessing import numpy as np from gensim.models import Doc2Vec from gensim.corpora.dictionary import Dictionary from gensim.models import Word2Vec import tensorflow_hub as hub from keras.preprocessing import sequence from keras.models import Sequential, model_from_json, Model from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM from keras.layers.core import Dense, Dropout, Activation np.random.seed(1337) # For Reproducibility import jieb