[English] | [Français] | [Español]
ScriptumAI is a private and advanced Retrieval-Augmented Generation platform designed for document ingestion, semantic search, and query processing. It leverages cutting-edge machine learning and natural language processing techniques.
The project follows a modular architecture with distinct components for embedding, ingestion, query processing, and retrieval.s
-
Document Ingestion
- Multi-format support (text, PDF, DOCX, HTML, Markdown)
- Chunking for efficient processing
- Storage in Chroma for fast retrieval
-
Query Processing
- Uses LLM to generate relevant responses
- Context-based retrieval using cosine similarity
-
User Interface
- Components for ingestion, queries, and search
-
Unit Testing
- Comprehensive tests for all major components
Python 3.8+ (tested with 3.11), Flask, Streamlit, Ollama API, Chroma, pytest
- Clone the repository
- Create a virtual environment
- Install dependencies:
pip install -r requirements.txt
- Launch frontend in a terminal:
streamlit run app.py
This project is available under a dual license:
- GNU Affero General Public License v3.0 (AGPL-3.0)
- Commercial License
For more details, see the LICENSE file and COMMERCIAL_LICENSE.md.
Please read our CONTRIBUTING.md for details on our code of conduct and the process for submitting pull requests.
ScriptumAI est une plateforme privée et avancée de Génération Augmentée par Récupération conçue pour l'ingestion de documents, la recherche sémantique et le traitement des requêtes. Elle utilise des techniques de pointe en apprentissage automatique et en traitement du langage naturel.
Le projet suit une architecture modulaire avec des composants distincts pour l'intégration, l'ingestion, le traitement des requêtes et la récupération.
-
Ingestion de Documents
- Support multi-format (texte, PDF, DOCX, HTML, Markdown)
- Découpage pour un traitement efficace
- Stockage dans Chroma pour une récupération rapide
-
Traitement des Requêtes
- Utilise LLM pour générer des réponses pertinentes
- Récupération basée sur le contexte utilisant la similarité cosinus
-
Interface Utilisateur
- Composants pour l'ingestion, les requêtes et la recherche
- Tableau de bord pour les statistiques et l'activité récente
-
Tests Unitaires
- Tests complets pour tous les composants majeurs
Python 3.8+ (testé su 3.11), Flask, Streamlit, API Ollama, Chroma, pytest
- Cloner le dépôt
- Créer un environnement virtuel
- Installer les dépendances :
pip install -r requirements.txt
- Dans un terminal, lancer le frontend :
streamlit run app.py
Ce projet est disponible sous une double licence :
- Licence publique générale GNU Affero v3.0 (AGPL-3.0)
- Licence commerciale
Pour plus de détails, consultez le fichier LICENSE et COMMERCIAL_LICENSE.md.
Veuillez lire notre CONTRIBUTING.md pour plus de détails sur notre code de conduite et le processus de soumission des pull requests.
ScriptumAI es una plataforma privado y avanzada de Generación Aumentada por Recuperación diseñada para la ingestión de documentos, búsqueda semántica y procesamiento de consultas. Utiliza técnicas de vanguardia en aprendizaje automático y procesamiento del lenguaje natural.
El proyecto sigue una arquitectura modular con componentes distintos para la incrustación, ingestión, procesamiento de consultas y recuperación.
-
Ingestión de Documentos
- Soporte multi-formato (texto, PDF, DOCX, HTML, Markdown)
- Fragmentación para procesamiento eficiente
- Almacenamiento en Chroma para recuperación rápida
-
Procesamiento de Consultas
- Usa LLM para generar respuestas relevantes
- Recuperación basada en contexto usando similitud del coseno
-
Interfaz de Usuario
- Componentes para ingestión, consultas y búsqueda
- Panel de control para estadísticas y actividad reciente
-
Pruebas Unitarias
- Pruebas exhaustivas para todos los componentes principales
Python 3.8+ (probado en 3.11), Flask, Streamlit, API de Ollama, Chroma, pytest
- Clonar el repositorio
- Crear un entorno virtual
- Instalar dependencias:
pip install -r requirements.txt
- En terminal, inicie el frontend:
streamlit run app.py
Este proyecto está disponible bajo una licencia dual:
- Licencia Pública General Affero de GNU v3.0 (AGPL-3.0)
- Licencia Comercial
Para más detalles, consulte el archivo LICENSE y COMMERCIAL_LICENSE.md.
Por favor, lea nuestro CONTRIBUTING.md para obtener detalles sobre nuestro código de conducta y el proceso para enviar pull requests.