mirror of https://github.com/MLSysBook/TinyTorch.git synced 2026-03-18 00:49:39 -05:00

Files

Vijay Janapa Reddi ba1c678797 🔬 Standardize Unit Test terminology across all modules

✅ Updated modules to use consistent testing format:
- 08_optimizers: 'Testing X...' → '🔬 Unit Test: X...'
- 07_autograd: 'Testing X...' → '🔬 Unit Test: X...'
- 02_activations: 'Testing X...' → '🔬 Unit Test: X...'
- 03_layers: 'Testing X...' → '🔬 Unit Test: X...'

🎯 Now all modules follow tensor_dev.py format:
- ✅ Consistent '🔬 Unit Test: [Component]...' format
- ✅ Maintains visual consistency across all modules
- ✅ Clear identification of unit test sections
- ✅ Professional and educational presentation

📊 Status: All 9 modules (00-08) now use unified testing terminology

2025-07-13 17:30:36 -04:00

module.yaml

♻️ Remove separate tests/ directory, use inline tests only

2025-07-13 17:24:58 -04:00

optimizers_dev.py

🔬 Standardize Unit Test terminology across all modules

2025-07-13 17:30:36 -04:00

README.md

✅ Complete 08_optimizers module implementation

2025-07-13 17:23:07 -04:00

README.md

🚀 Module 8: Optimizers - Gradient-Based Parameter Updates

📊 Module Info

Difficulty: ⭐⭐⭐⭐ Expert
Time Estimate: 6-8 hours
Prerequisites: Tensor, Autograd modules
Next Steps: Training, MLOps modules

Build intelligent optimization algorithms that enable effective neural network training

🎯 Learning Objectives

After completing this module, you will:

Understand gradient descent and how optimizers use gradients to update parameters
Implement SGD with momentum for accelerated convergence
Build Adam optimizer with adaptive learning rates for modern deep learning
Master learning rate scheduling strategies for training stability
See how optimizers enable complete neural network training workflows

🧠 Build → Use → Analyze

This module follows the TinyTorch pedagogical framework:

Build: Core optimization algorithms (SGD, Adam, scheduling)
Use: Apply optimizers to train neural networks effectively
Analyze: Compare optimizer behavior and convergence patterns

📚 What You'll Build

Gradient Descent Foundation

# Basic gradient descent step
def gradient_descent_step(parameter, learning_rate):
    parameter.data = parameter.data - learning_rate * parameter.grad.data

SGD with Momentum

# Accelerated convergence
sgd = SGD([w1, w2, bias], learning_rate=0.01, momentum=0.9)
sgd.zero_grad()
loss.backward()
sgd.step()

Adam Optimizer

# Adaptive learning rates
adam = Adam([w1, w2, bias], learning_rate=0.001, beta1=0.9, beta2=0.999)
adam.zero_grad()
loss.backward()
adam.step()

Learning Rate Scheduling

# Strategic learning rate adjustment
scheduler = StepLR(optimizer, step_size=10, gamma=0.1)
scheduler.step()  # Reduce learning rate every 10 epochs

Complete Training Integration

# Modern training loop
optimizer = Adam(model.parameters(), learning_rate=0.001)
scheduler = StepLR(optimizer, step_size=20, gamma=0.5)

for epoch in range(num_epochs):
    for batch in dataloader:
        optimizer.zero_grad()
        loss = criterion(model(batch.inputs), batch.targets)
        loss.backward()
        optimizer.step()
    scheduler.step()

🔬 Core Concepts

Gradient Descent Theory

Mathematical foundation: θ = θ - α∇L(θ)
Learning rate: Balance between convergence speed and stability
Convergence: How optimizers reach optimal parameters

Momentum Acceleration

Velocity accumulation: v_t = βv_{t-1} + ∇L(θ)
Oscillation dampening: Smooth progress in consistent directions
Acceleration: Build up speed toward minimum

Adaptive Learning Rates

First moment: Exponential moving average of gradients
Second moment: Exponential moving average of squared gradients
Bias correction: Handle initialization bias in moment estimates

Learning Rate Scheduling

Step decay: Reduce learning rate at fixed intervals
Convergence strategy: Start fast, then refine with smaller steps
Training stability: Prevent overshooting near optimum

🎮 What You'll Experience

Immediate Feedback

Test each optimizer: See parameter updates in real-time
Compare convergence: SGD vs Adam on same problem
Visualize learning: Watch parameters converge to optimal values

Real Training Workflow

Complete training loop: From gradients to parameter updates
Learning rate scheduling: Strategic adjustment during training
Modern best practices: Industry-standard optimization patterns

Mathematical Insights

Gradient interpretation: How gradients guide parameter updates
Momentum physics: Velocity and acceleration in optimization
Adaptive scaling: Different learning rates for different parameters

🔧 Technical Implementation

State Management

Momentum buffers: Track velocity for each parameter
Moment estimates: First and second moments for Adam
Step counting: Track iterations for bias correction

Numerical Stability

Epsilon handling: Prevent division by zero
Overflow protection: Handle large gradients gracefully
Precision: Balance between float32 and numerical accuracy

Memory Efficiency

Lazy initialization: Create buffers only when needed
Parameter tracking: Use object IDs for state management
Gradient management: Proper gradient zeroing and accumulation

📈 Performance Characteristics

SGD with Momentum

Memory: O(P) for momentum buffers (P = number of parameters)
Computation: O(P) per step
Convergence: Linear in convex case, good for large batch training

Adam Optimizer

Memory: O(2P) for first and second moment buffers
Computation: O(P) per step with additional operations
Convergence: Fast initial progress, good for most deep learning

Learning Rate Scheduling

Overhead: Minimal computational cost
Impact: Significant improvement in final performance
Flexibility: Adaptable to different training scenarios

🔗 Integration with TinyTorch

Dependencies

Tensor: Core data structure for parameters
Autograd: Gradient computation for parameter updates
Variables: Parameter containers with gradient tracking

Enables

Training Module: Complete training loops with loss functions
Advanced Training: Distributed training, mixed precision
Research: Novel optimization algorithms and strategies

🎯 Real-World Applications

Computer Vision

ImageNet training: ResNet, VGG, Vision Transformers
Object detection: YOLO, R-CNN optimization
Segmentation: U-Net, Mask R-CNN training

Natural Language Processing

Language models: GPT, BERT, T5 training
Machine translation: Transformer optimization
Text generation: Large language model training

Scientific Computing

Physics simulations: Neural ODE optimization
Reinforcement learning: Policy gradient methods
Generative models: GAN, VAE training

🚀 What's Next

After mastering optimizers, you'll be ready for:

Training Module: Complete training loops with loss functions and metrics
Advanced Optimizers: RMSprop, AdaGrad, learning rate warm-up
Distributed Training: Multi-GPU optimization strategies
MLOps: Production optimization monitoring and tuning

💡 Key Insights

Optimization is Critical

Make or break: Good optimizer choice determines training success
Hyperparameter sensitivity: Learning rate is the most important hyperparameter
Architecture dependent: Different models prefer different optimizers

Modern Defaults

Adam: Default choice for most deep learning applications
SGD with momentum: Still preferred for some computer vision tasks
Learning rate scheduling: Almost always improves final performance

Systems Thinking

Memory trade-offs: Adam uses more memory but often trains faster
Convergence patterns: Understanding when and why optimizers work
Debugging: Optimizer issues are common in training failures

Ready to build the intelligent algorithms that power modern AI training?

Your optimizers will be the engine that transforms gradients into intelligence!

README.md Unescape Escape

🚀 Module 8: Optimizers - Gradient-Based Parameter Updates

📊 Module Info

🎯 Learning Objectives

🧠 Build → Use → Analyze

📚 What You'll Build

Gradient Descent Foundation

SGD with Momentum

Adam Optimizer

Learning Rate Scheduling

Complete Training Integration

🔬 Core Concepts

Gradient Descent Theory

Momentum Acceleration

Adaptive Learning Rates

Learning Rate Scheduling

🎮 What You'll Experience

Immediate Feedback

Real Training Workflow

Mathematical Insights

🔧 Technical Implementation

State Management

Numerical Stability

Memory Efficiency

📈 Performance Characteristics

SGD with Momentum

Adam Optimizer

Learning Rate Scheduling

🔗 Integration with TinyTorch

Dependencies

Enables

🎯 Real-World Applications

Computer Vision

Natural Language Processing

Scientific Computing

🚀 What's Next

💡 Key Insights

Optimization is Critical

Modern Defaults

Systems Thinking

README.md