如何使用Tensorflow在Python中将Illiad数据集拆分为训练和测试数据？

Z时代
2024-01-10
分类：综合

Tensorflow是Google提供的一种机器学习框架。它是一个开放源代码框架，可与Python结合使用，以实现算法，深度学习应用程序等等。它用于研究和生产目的。

可以使用下面的代码行在Windows上安装'tensorflow'软件包-

pip install tensorflow

Tensor是TensorFlow中使用的数据结构。它有助于连接流程图中的边缘。该流程图称为“数据流程图”。张量不过是多维数组或列表。

可以使用三个主要属性来标识它们-

等级-讲述张量的维数。可以理解为张量的顺序或已定义的张量中的维数。
类型-它告诉与张量元素关联的数据类型。它可以是一维，二维或n维张量。
形状-它是行和列的总数。

我们将使用Illiad的数据集，其中包含来自William Cowper，Edward（德比伯爵）和Samuel Butler的三本翻译作品的文本数据。当给出单行文本时，训练模型以识别翻译器。使用的文本文件已经过预处理。这包括删除文档的页眉和页脚，行号和章节标题。

我们正在使用Google合作实验室来运行以下代码。Google Colab或Colaboratory可以帮助通过浏览器运行Python代码，并且需要零配置和对GPU（图形处理单元）的免费访问。合作已建立在Jupyter Notebook的基础上。

示例

以下是代码片段-

train_data = all_encoded_data.skip(VALIDATION_SIZE).shuffle(BUFFER_SIZE)
validation_data = all_encoded_data.take(VALIDATION_SIZE)
train_data = train_data.padded_batch(BATCH_SIZE)
validation_data = validation_data.padded_batch(BATCH_SIZE)
sample_text, sample_labels = next(iter(validation_data))
print("文本批处理形状为： ", sample_text.shape)
print("标签批次形状为： ", sample_labels.shape)
print("一个文本示例是： ", sample_text[5])
print("标签示例为： ", sample_labels[5])

代码信用-https://www.tensorflow.org/tutorials/load_data/text

输出结果

文本批处理形状为： (64, 18)
标签批次形状为： (64,)
一个文本示例是： tf.Tensor(
[ 20 391 2 11 144 787 2 3498 16 49 2 0 0 0
   0 0 0 0], shape=(18,), dtype=int64)
标签示例为： tf.Tensor(1, shape=(), dtype=int64)

解释

Keras TextVectorization层用于分组/批处理并为矢量化数据提供填充。
需要填充是因为批处理中的示例必须具有相同的大小和形状，但是数据集中的示例可能具有不同的大小。
每一行文字可能包含不同数量的单词。
“ tf.data.Dataset”方法有助于拆分和填充批处理数据集。
“ validation_data”和“ train_data”是批处理数据的集合。
每一批都是一对（许多示例，很多标签），以数组的形式表示。

以上是如何使用Tensorflow在Python中将Illiad数据集拆分为训练和测试数据？的全部内容，来源链接： utcz.com/z/344880.html

如何使用Tensorflow在Python中将Illiad数据集拆分为训练和测试数据？

示例

解释

其他人也看了：