网站大量收购独家精品文档,联系QQ:2885784924

实验报告情感语义分析.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验报告 专业 班级 姓名 学号 实验课程 指导教师 实验日期 同实验者 实验项目 情感语义分析 实验设备及器材 Pycharm2021.1.3,Python3.8.6 实验步骤、数据记录及处理 1. 原始数据分析 京东评论数据集分为好评pos.xls和差评neg,xls两类样本,其中好评样本有10677条,差评有10428条,部分数据情况如图1.1。样本类别较均衡,通过matplotlib可视化,观察样本句子长度分布特点。 由于LSTM的句子长度都是固定的,所以在数据预处理中将句子裁剪为相同长度,根据语料的累积分布情况确定句子长度,此处将样本中90%概率的句子长度作为裁剪后句子的统一长度,即句长为188,如图1.3。 图1.3 数据集句子长度 import json import numpy as np import pandas as pd import matplotlib.pyplot as plt # 读取数据 neg = pd.read_excel(./data/neg.xls, header=None) pos = pd.read_excel(./data/pos.xls, header=None) df = np.concatenate((pos, neg)) print(df) #%%句子长度累计分布图 Num_len = [len(str(text)) - 4 for text in df] print(Num_len) bins_interval = 10 # 区间长度 bins = range(min(Num_len), max(Num_len)+bins_interval-1, bins_interval) # 分组 print(bins) plt.xlim(min(Num_len), max(Num_len)) plt.title(Probability-distribution) plt.xlabel(Interval) plt.ylabel(Cumulative distribution) prob, left, rectangle = plt.hist(x=Num_len, bins=bins, density=True, stacked=True, cumulative=True, histtype=step, color=[b]) # 累计分布图 plt.show() #%%求分位点 import math def quantile_p(data, p): data.sort() pos = (len(data) + 1)*p #pos = 1 + (len(data)-1)*p pos_integer = int(math.modf(pos)[1]) pos_decimal = pos - pos_integer Q = data[pos_integer - 1] + (data[pos_integer] - data[pos_integer - 1])*pos_decimal return Q quantile=0.90#选取分位数 Q=quantile_p(Num_len,quantile) print(\n分位点为%s的句子长度:%d. % (quantile, Q)) 2. 数据预处理 import sys from sklearn.model_selection import train_test_split import multiprocessing import numpy as np from gensim.models import Doc2Vec from gensim.corpora.dictionary import Dictionary from gensim.models import Word2Vec import tensorflow_hub as hub from keras.preprocessing import sequence from keras.models import Sequential, model_from_json, Model from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM from keras.layers.core import Dense, Dropout, Activation np.random.seed(1337) # For Reproducibility import jieb

文档评论(0)

钟爱书屋 + 关注
官方认证
服务提供商

为中小学学生教育成长提供学习参考资料,学习课堂帮助学生教师更好更方便的进行学习及授课,提高趣味性,鼓励孩子自主进行学习,资料齐全,内容丰富。

认证主体韵馨科技(深圳)有限公司
IP属地广东
统一社会信用代码/组织机构代码
91440300MA5G40JF61

1亿VIP精品文档

相关文档