# Первая нейронная сеть

## Введение
Научиться основам построения нейронных сетей.

## Подготовка данных
В качестве входных данных будет выступать чернобелые изображения 3x5 пиксей.

In [None]:
import numpy as np

# Функция для создания изображения цифры
def create_digit_image(digit):
 image = np.zeros((5, 3))
 image[0:5, 0:3] = 1
 if digit == 0:
 image[0:5, 0] = 0
 image[0:5, 2] = 0
 image[0, 0:3] = 0
 image[4, 0:3] = 0
 elif digit == 1:
 image[0:5, 2] = 0
 image[1, 1] = 0
 elif digit == 2:
 image[0, 0:3] = 0
 image[1, 2] = 0
 image[2, 1] = 0
 image[3, 0] = 0
 image[4, 0:3] = 0
 elif digit == 3:
 image[0, 0:3] = 0
 image[0:5, 2] = 0
 image[2, 1] = 0
 image[4, 0:3] = 0
 elif digit == 4:
 image[0:3, 0] = 0
 image[0:5, 2] = 0
 image[2, 0:3] = 0
 elif digit == 5:
 image[0, 0:3] = 0
 image[2, 0:3] = 0
 image[4, 0:3] = 0
 image[1, 0] = 0
 image[3, 2] = 0
 elif digit == 6:
 image[0, 0:3] = 0
 image[2, 0:3] = 0
 image[4, 0:3] = 0
 image[0:5, 0] = 0
 image[3, 2] = 0
 elif digit == 7:
 image[0, 0:3] = 0
 image[1, 2] = 0
 image[2, 1] = 0
 image[3, 0] = 0
 image[4, 0] = 0
 elif digit == 8:
 image[0:5, 0] = 0
 image[0:5, 2] = 0
 image[0, 1] = 0
 image[2, 1] = 0
 image[4, 1] = 0
 elif digit == 9:
 image[0, 0:3] = 0
 image[2, 0:3] = 0
 image[4, 0:3] = 0
 image[0:5, 2] = 0
 image[1, 0] = 0
 return image

# Функция для добавления повреждений
def add_noise(image, noise_level=0.1):
 noisy_image = image.copy()
 x = np.random.randint(0, 5)
 y = np.random.randint(0, 3)
 noisy_image[x, y] = 1
 return noisy_image

# Создание датасета

In [None]:
def create_dataset(num_samples=1000, noise_level=0.1):
 images = []
 labels = []
 for _ in range(num_samples):
 digit = np.random.randint(0, 10)
 image = create_digit_image(digit)
 noisy_image = add_noise(image, noise_level)
 images.append(noisy_image.flatten())
 labels.append(digit)
 return np.array(images), np.array(labels)

# Создание тренировочного и тестового наборов данных

In [None]:
train_images, train_labels = create_dataset(num_samples=1000, noise_level=0.01)
test_images, test_labels = create_dataset(num_samples=200, noise_level=0.01)

## Архитектура модели
Модель будет состоять из трех слоев (входной, скрытый, выходной). В качестве функции активации будет использоваться ReLU (Rectified linear unit). Для задачи классификации будем использовать кросс-энтропийную функцию потерь.

In [None]:
class FirstNeuralNetwork:
 def __init__(self, input_size, hidden_size, output_size):
 self.input_size = input_size
 self.hidden_size = hidden_size
 self.output_size = output_size

 self.W1 = np.random.randn(input_size, hidden_size) * np.sqrt(2.0 / input_size)
 self.b1 = np.zeros((1, hidden_size))
 self.W2 = np.random.randn(hidden_size, output_size) * np.sqrt(2.0 / hidden_size)
 self.b2 = np.zeros((1, output_size))

 def relu(self, Z):
 return np.maximum(0, Z)

 def relu_derivative(self, Z):
 return Z > 0

 def forward(self, X):
 # Входной слой к скрытому слою
 # Входные данные умножаются на матрицу весов (м/у входными и скрытым) и добавляется вектор смещения скрытого слоя
 # \[
 # \mathbf{Z}_1 = \mathbf{X} \mathbf{W}_1 + \mathbf{b}_1
 # \]
 # numpy.dot(a, b, out=None) # Скалярное произведение
 # a: Первый входной массив.
 # b: Второй входной массив.
 # out: Выходной массив, в который будет записан результат. Если не указан, результат будет возвращен как новый массив.
 self.Z1 = np.dot(X, self.W1) + self.b1
 # применяется функция активации ReLU
 # \[
 # \mathbf{A}_1 = \text{ReLU}(\mathbf{Z}_1) = \max(0, \mathbf{Z}_1)
 # \]
 self.A1 = self.relu(self.Z1) # self.A1 = np.tanh(self.Z1)
 # Скрытый слой к выходному слою
 # активация (предыдущий этап) умножается на матрицу весов (м/у скрытым и выходным) и добавляется вектор смещения выходного слоя
 self.Z2 = np.dot(self.A1, self.W2) + self.b2
 # применяется функция активации softmax
 # \[
 # \mathbf{A}_2 = \text{softmax}(\mathbf{Z}_2) = \frac{\exp(\mathbf{Z}_2)}{\sum \exp(\mathbf{Z}_2)}
 # \]
 # numpy.sum(a, axis=None, dtype=None, out=None, keepdims=, initial=, where=)
 # a: Входной массив или объект, который может быть преобразован в массив.
 # axis: Ось или оси по которым вычисляется сумма. Если axis равно None (по умолчанию), сумма вычисляется по всем элементам массива.
 # dtype: Тип данных результата. Если не указан, тип данных результата будет таким же, как и тип данных входного массива.
 # out: Выходной массив, в который будет записан результат. Если не указан, результат будет возвращен как новый массив.
 # keepdims: Если True, размерность результата будет такой же, как и размерность входного массива, но с размером 1 по указанным осям. По умолчанию False.
 # initial: Начальное значение для суммирования. Если не указано, начальное значение будет 0.
 # where: Маска, определяющая, какие элементы массива будут включены в сумму. Если не указано, все элементы массива будут включены.

 self.A2 = np.exp(self.Z2) / np.sum(np.exp(self.Z2), axis=1, keepdims=True)
 return self.A2

 # Кросс-энтропийная функция потерь для задачи классификации определяется следующим образом:
 #
 # \[ L(\mathbf{Y}, \mathbf{\hat{Y}}) = -\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c}) \]
 #
 # где:
 # - \( N \) — количество примеров в наборе данных.
 # - \( C \) — количество классов.
 # - \( \mathbf{Y} \) — матрица истинных меток размером \( N \times C \), где \( y_{i,c} \) равно 1, если пример \( i \) принадлежит классу \( c \), и 0 в противном случае.
 # - \( \mathbf{\hat{Y}} \) — матрица предсказанных вероятностей размером \( N \times C \), где \( \hat{y}_{i,c} \) — предсказанная вероятность того, что пример \( i \) принадлежит классу \( c \).
 #
 # Кросс-энтропийная функция потерь основана на теории информации и измеряет количество информации, необходимой для передачи сообщения. В контексте классификации, она измеряет разницу между предсказанными вероятностями и истинными метками.
 #
 # ### Преимущества
 #
 # 1. **Интерпретируемость**: Кросс-энтропийная функция потерь имеет четкую интерпретацию в терминах теории информации.
 # 2. **Дифференцируемость**: Она является дифференцируемой функцией, что позволяет использовать градиентный спуск для оптимизации.
 # 3. **Эффективность**: Она эффективно работает с вероятностными предсказаниями, что делает её подходящей для задач классификации.
 #
 # ### Недостатки
 #
 # 1. **Чувствительность к плохим предсказаниям**: Кросс-энтропийная функция потерь может быть чувствительна к плохим предсказаниям, особенно если предсказанная вероятность близка к 0 или 1.
 # 2. **Необходимость нормализации**: Предсказанные вероятности должны быть нормализованы, чтобы их сумма была равна 1. Это обычно достигается с помощью функции активации softmax.
 def compute_loss(self, Y, Y_hat):
 # Используется кросс-энтропийная функция потерь
 # \[
 # L(\mathbf{Y}, \mathbf{Y}_{\text{hat}}) = -\frac{1}{m} \sum_{i=1}^{m} \log(\mathbf{Y}_{\text{hat}}[i, \mathbf{Y}[i]])
 # \]
 m = Y.shape[0]
 logprobs = np.log(Y_hat[range(m), Y])
 loss = -np.sum(logprobs) / m
 return loss

 def backward(self, X, Y, Y_hat):
 m = X.shape[0]
 # Выходной слой
 # Градиенты функции потерь
 # \[
 # \mathbf{dZ}_2 = \mathbf{Y}_{\text{hat}} - \mathbf{Y}
 # \]
 dZ2 = Y_hat - np.eye(self.output_size)[Y]
 # Градиенты весов
 # \[
 # \mathbf{dW}_2 = \frac{1}{m} \mathbf{A}_1^T \mathbf{dZ}_2
 # \]
 dW2 = (1 / m) * np.dot(self.A1.T, dZ2)
 # Градиенты смещений
 # \[
 # \mathbf{db}_2 = \frac{1}{m} \sum \mathbf{dZ}_2
 # \]
 db2 = (1 / m) * np.sum(dZ2, axis=0, keepdims=True)

 # Скрытый слой
 # Градиенты функции потерь
 # \[
 # \mathbf{dA}_1 = \mathbf{dZ}_2 \mathbf{W}_2^T
 # \]
 dA1 = np.dot(dZ2, self.W2.T)
 # Градиенты функции потерь
 # \[
 # \mathbf{dZ}_1 = \mathbf{dA}_1 \cdot \text{ReLU}'(\mathbf{Z}_1)
 # \]
 dZ1 = dA1 * self.relu_derivative(self.Z1) # dZ1 = dA1 * (1 - np.power(self.A1, 2))
 # Градиенты весов
 # \[
 # \mathbf{dW}_1 = \frac{1}{m} \mathbf{X}^T \mathbf{dZ}_1
 # \]
 dW1 = (1 / m) * np.dot(X.T, dZ1)
 # Градиенты смещений
 # \[
 # \mathbf{db}_1 = \frac{1}{m} \sum \mathbf{dZ}_1
 # \]
 db1 = (1 / m) * np.sum(dZ1, axis=0, keepdims=True)

 return dW1, db1, dW2, db2

 def update_parameters(self, dW1, db1, dW2, db2, learning_rate):
 # \[
 # \mathbf{W}_1 := \mathbf{W}_1 - \alpha \mathbf{dW}_1
 # \]
 self.W1 -= learning_rate * dW1
 # \[
 # \mathbf{b}_1 := \mathbf{b}_1 - \alpha \mathbf{db}_1
 # \]
 self.b1 -= learning_rate * db1
 # \[
 # \mathbf{W}_2 := \mathbf{W}_2 - \alpha \mathbf{dW}_2
 # \]
 self.W2 -= learning_rate * dW2
 # \[
 # \mathbf{b}_2 := \mathbf{b}_2 - \alpha \mathbf{db}_2
 # \]
 self.b2 -= learning_rate * db2

 def train(self, X, Y, learning_rate=0.01, epochs=1000):
 for epoch in range(epochs):
 Y_hat = self.forward(X)
 loss = self.compute_loss(Y, Y_hat)
 dW1, db1, dW2, db2 = self.backward(X, Y, Y_hat)
 self.update_parameters(dW1, db1, dW2, db2, learning_rate)
 if epoch % 100 == 0:
 print(f'Epoch {epoch}, Loss: {loss}')

 def predict(self, X):
 Y_hat = self.forward(X)
 return np.argmax(Y_hat, axis=1)


## Обучение модели
Код для обучения модели, включая функцию потерь и оптимизатор.


In [None]:
# Инициализация модели
input_size = 5 * 3
hidden_size = 64
output_size = 10
model = networks.SimpleCNeuralNetwork(input_size, hidden_size, output_size) # SimpleNeuralNetwork

# Обучение модели
model.train(train_images, train_labels, learning_rate=0.01, epochs=10000)


## Оценка модели
Код для оценки точности модели на тестовой части датасета.


In [None]:
# Предсказание на тестовых данных
predictions = model.predict(test_images)
accuracy = np.mean(predictions == test_labels)
print(f'Test accuracy: {accuracy}')


## Визуализация результатов
Графики обучения (точность и функция потерь).


In [None]:
# Визуализация нескольких примеров
fig, axes = plt.subplots(1, 5, figsize=(10, 3))
for i, ax in enumerate(axes):
 ax.imshow(test_images[i].reshape(5, 3), cmap='gray')
 ax.set_title(f'True: {test_labels[i]}, Pred: {predictions[i]}')
 ax.axis('off')
plt.show()