File size: 2,832 Bytes
2150d37
 
 
 
 
 
 
 
 
 
 
 
f551c94
2150d37
f551c94
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2150d37
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
---
title: Lenguaje Senias
emoji: 
colorFrom: purple
colorTo: blue
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: false
license: apache-2.0
short_description: Contiene un modelo que permite leer el lenguaje a senias
---
# 🤟 Clasificador de Lenguaje de Señas Americano (ASL)

## 📋 Descripción General

Este proyecto es una **Prueba de Concepto (MVP)** diseñada para demostrar las capacidades de la **Visión por Computadora** en el ámbito de la accesibilidad y el procesamiento digital de imágenes.

La aplicación clasifica **imágenes estáticas de manos** en las **26 letras del alfabeto de Lenguaje de Señas Americano (ASL)**. Utiliza una interfaz interactiva desarrollada con **Gradio** y aprovecha el poderoso ecosistema de **Hugging Face** para el análisis de la imagen, ofreciendo una solución de demostración rápida y efectiva.

---

## ✨ Características Principales

* **Clasificación de ASL:** Identifica las 26 letras del alfabeto ASL a partir de imágenes de manos.
* **Tecnología de Vanguardia:** Implementa un modelo **Vision Transformer (ViT)** de última generación.
* **Despliegue Rápido:** Interfaz de usuario intuitiva y fácil de usar gracias a **Gradio**.
* **Accesibilidad:** Ideal para prototipar soluciones de accesibilidad y comunicación aumentativa.

---

## 🧠 Modelo Utilizado

El núcleo de esta aplicación de clasificación reside en un modelo de **Vision Transformer (ViT)** preentrenado y optimizado para esta tarea específica.

| Aspecto | Detalle |
| :--- | :--- |
| **Modelo Base** | Vision Transformer (ViT) |
| **Modelo Específico** | `prithivMLmods/Alphabet-Sign-Language-Detection` |
| **Tarea** | Clasificación de Imágenes (Image Classification) |
| **Framework Principal** | Hugging Face Transformers y PyTorch |

### Vision Transformer (ViT)

El **Vision Transformer (ViT)** es un modelo que adapta la arquitectura Transformer, popular en el Procesamiento del Lenguaje Natural (NLP), para tareas de visión. En lugar de procesar la imagen pixel por pixel, divide la imagen en parches (como tokens de lenguaje) para un análisis global y contextual, lo que le permite capturar relaciones complejas y ser altamente efectivo en la clasificación.

---

## 🛠️ Instalación y Uso

### Requisitos

Asegúrate de tener **Python (3.7+)** instalado.

## Desarrollo

Proyecto desarrollado para la materia **Procesamiento Digital de Imágenes y Visión por Computadora**.

**Autores**: Josnel Mallqui y Raquel Mallqui 
**Año**: 2025  
**Institución**: IFTS24

### Instalación de Dependencias

Clona el repositorio e instala los paquetes necesarios.

```bash
git clone <URL_DE_TU_REPOSITORIO>
cd <nombre_del_repositorio>
pip install -r requirements.txt
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference