{/* Header */}

🎙️ Voice Assistant

{!whisperReady && Loading AI models...} {whisperReady && !isRecording && Ready to chat} {isRecording && 🔴 Recording...} {isProcessing && 🔄 Processing...}

{/* Messages */}

{messages.map((message) => (

{/* Audio playback for user messages */} {message.audioUrl && (

)} {/* Text content */}

{message.isProcessing ? (

... {message.text}

) : ( message.text )}

{/* Timestamp */}

{new Date(message.timestamp).toLocaleTimeString()}

))}

{/* Controls */}

{isRecording && (

Recording...

)}

) } ``` ### Styling (CSS/Tailwind) ```css .voice-chat-container { display: flex; flex-direction: column; height: 100vh; max-width: 800px; margin: 0 auto; border: 1px solid #e5e7eb; border-radius: 8px; overflow: hidden; } .chat-header { background: #f9fafb; padding: 1rem; border-bottom: 1px solid #e5e7eb; display: flex; justify-content: space-between; align-items: center; } .messages-container { flex: 1; overflow-y: auto; padding: 1rem; background: #ffffff; } .message { margin-bottom: 1rem; display: flex; } .message.user { justify-content: flex-end; } .message.assistant { justify-content: flex-start; } .message-content { max-width: 70%; padding: 0.75rem; border-radius: 8px; background: #f3f4f6; } .message.user .message-content { background: #3b82f6; color: white; } .audio-player { margin-bottom: 0.5rem; } .processing-indicator .dots { animation: pulse 1.5s ease-in-out infinite; } .chat-controls { padding: 1rem; background: #f9fafb; border-top: 1px solid #e5e7eb; display: flex; align-items: center; gap: 1rem; } .record-button { padding: 0.75rem 1.5rem; border: none; border-radius: 6px; background: #3b82f6; color: white; cursor: pointer; font-size: 1rem; transition: background-color 0.2s; } .record-button.recording { background: #ef4444; animation: pulse 2s ease-in-out infinite; } .pulse-animation { display: flex; align-items: center; gap: 0.5rem; color: #ef4444; } .pulse-dot { width: 8px; height: 8px; background: #ef4444; border-radius: 50%; animation: pulse 1s ease-in-out infinite; } @keyframes pulse { 0%, 100% { opacity: 1; } 50% { opacity: 0.5; } } ``` ## 🔮 Use Cases ### Real-time Voice Chat Applications ```tsx // Process voice messages as they arrive conversational: { onChunk: (chunk) => { // Send to WebSocket, store in chat, trigger AI response sendVoiceMessage(chunk.audioUrl, chunk.transcript) } } ``` ### Voice-to-Text Transcription Services ```tsx // Batch process audio files with real-time feedback conversational: { onChunk: (chunk) => { updateTranscriptionProgress(chunk.startTime, chunk.transcript) } } ``` ### AI Voice Assistants ```tsx // Build ChatGPT-style voice interfaces conversational: { onChunk: async (chunk) => { const aiResponse = await openai.chat.completions.create({ messages: [{ role: 'user', content: chunk.transcript }] }) speakResponse(aiResponse.choices[0].message.content) } } ``` ## 🔧 Extension Points & Middleware Susurro provides a powerful middleware system for extending chunk processing capabilities: ### Chunk Middleware Pipeline ```tsx import { ChunkMiddlewarePipeline, translationMiddleware, sentimentMiddleware } from 'susurro' function MyApp() { const { middlewarePipeline, startRecording } = useSusurro({ conversational: { onChunk: (chunk) => { // Chunk has been processed through middleware pipeline console.log('Enhanced chunk:', chunk.metadata) } } }) // Enable built-in middlewares useEffect(() => { middlewarePipeline.enable('translation') middlewarePipeline.enable('sentiment') middlewarePipeline.enable('intent') }, []) return } ``` ### Built-in Middlewares #### 1. Translation Middleware ```tsx middlewarePipeline.enable('translation') // Chunks will include: chunk.metadata = { originalLanguage: 'en', translatedText: 'Hola mundo', translationConfidence: 0.95 } ``` #### 2. Sentiment Analysis Middleware ```tsx middlewarePipeline.enable('sentiment') // Chunks will include: chunk.metadata = { sentiment: 'positive', sentimentScore: 0.87, emotion: 'happy' } ``` #### 3. Intent Detection Middleware ```tsx middlewarePipeline.enable('intent') // Chunks will include: chunk.metadata = { intent: 'question', intentConfidence: 0.82, entities: ['weather', 'today'] } ``` #### 4. Quality Enhancement Middleware (Always Enabled) ```tsx // Automatically applied to all chunks: chunk.metadata = { audioQuality: 0.92, noiseLevel: 0.05, clarity: 0.96, enhancement: ['neural_denoising', 'voice_enhancement'] } ``` ### Creating Custom Middleware ```tsx import { ChunkMiddleware, SusurroChunk } from 'susurro' const customMiddleware: ChunkMiddleware = { name: 'keyword-detection', enabled: true, priority: 5, async process(chunk: SusurroChunk): Promise { const keywords = detectKeywords(chunk.transcript) return { ...chunk, metadata: { ...chunk.metadata, keywords, hasActionKeywords: keywords.some(k => k.type === 'action'), urgencyLevel: calculateUrgency(keywords) } } } } // Register your custom middleware middlewarePipeline.register(customMiddleware) function detectKeywords(text: string) { // Your custom keyword detection logic return [ { word: 'urgent', type: 'urgency', confidence: 0.9 }, { word: 'schedule', type: 'action', confidence: 0.8 } ] } ``` ### Advanced Hooks & Callbacks #### 1. Chunk Processing Hooks ```tsx const { conversationalChunks } = useSusurro({ conversational: { onChunk: (chunk) => { // Real-time processing as chunks arrive handleNewMessage(chunk) }, enableInstantTranscription: true, chunkTimeout: 3000, enableChunkEnrichment: true, // Enables middleware processing } }) ``` #### 2. Recording State Hooks ```tsx const { isRecording, isProcessing, averageVad, processingStatus } = useSusurro() // Monitor recording state changes useEffect(() => { if (isRecording) { console.log('Recording started') } }, [isRecording]) // Track processing progress useEffect(() => { console.log('VAD Score:', averageVad) console.log('Processing Stage:', processingStatus.stage) }, [averageVad, processingStatus]) ``` #### 3. Whisper Integration Hooks ```tsx const { whisperReady, whisperProgress, whisperError, transcribeWithWhisper } = useSusurro({ whisperConfig: { language: 'en', model: 'whisper-1', temperature: 0.2 } }) // Custom transcription with direct Whisper access const handleCustomTranscription = async (audioBlob: Blob) => { const result = await transcribeWithWhisper(audioBlob) console.log('Custom transcription:', result) } ``` ### Middleware Management API ```tsx const { middlewarePipeline } = useSusurro() // Enable/disable middlewares dynamically middlewarePipeline.enable('sentiment') middlewarePipeline.disable('translation') // Check middleware status const status = middlewarePipeline.getStatus() console.log('Active middlewares:', status) // Register custom middleware middlewarePipeline.register(myCustomMiddleware) // Remove middleware middlewarePipeline.unregister('sentiment') ``` ### WebSocket Integration Example ```tsx import { useSusurro } from 'susurro' import { useWebSocket } from 'ws' function CollaborativeVoiceChat() { const ws = useWebSocket('wss://my-server.com/voice-chat') const { startRecording, stopRecording } = useSusurro({ conversational: { onChunk: (chunk) => { // Send chunk to other participants ws.send(JSON.stringify({ type: 'voice-chunk', data: { audioUrl: chunk.audioUrl, transcript: chunk.transcript, metadata: chunk.metadata, userId: 'current-user-id' } })) }, enableInstantTranscription: true } }) // Handle incoming chunks from other users useEffect(() => { ws.onmessage = (event) => { const message = JSON.parse(event.data) if (message.type === 'voice-chunk') { displayRemoteChunk(message.data) } } }, [ws]) return } ``` ## 📚 API Reference ### useSusurro Hook The main React hook for voice transcription and conversational AI. ```tsx interface UseSusurroOptions { // Core configuration modelSize?: 'tiny' | 'base' | 'small' | 'medium' | 'large' // default: 'base' language?: string // ISO 639-1 code, default: auto-detect // Conversational mode conversational?: { onChunk: (chunk: SusurroChunk) => void enableInstantTranscription?: boolean // default: true chunkTimeout?: number // milliseconds, default: 5000 } // Medical mode medicalMode?: boolean // Enhanced medical terminology, default: false hipaaCompliant?: boolean // Local-only processing, default: true multiSpeaker?: boolean // Speaker diarization, default: false // Performance webGPU?: boolean // Use WebGPU acceleration, default: true quantization?: 'q4' | 'q8' | 'f16' // Model quantization, default: 'q4' // Advanced vadThreshold?: number // Voice activity detection sensitivity 0-1, default: 0.5 silenceTimeout?: number // End recording after silence (ms), default: 2000 } interface UseSusurroReturn { // Recording controls startRecording: () => Promise stopRecording: () => void startStreamingRecording: () => Promise // State isRecording: boolean isProcessing: boolean whisperReady: boolean // Results transcriptions: Transcription[] conversationalChunks?: SusurroChunk[] speakerDiarization?: SpeakerSegment[] // Utilities clearTranscriptions: () => void exportSession: () => SessionData } interface Transcription { text: string timestamp: number language?: string confidence?: number audioUrl?: string } interface SusurroChunk { id: string audioUrl: string transcript: string startTime: number endTime: number metadata: { language?: string confidence?: number speaker?: number } } interface SpeakerSegment { speaker: number text: string startTime: number endTime: number } ``` ### Advanced Configuration Examples ```tsx // High-accuracy medical transcription const medicalConfig: UseSusurroOptions = { modelSize: 'large', medicalMode: true, hipaaCompliant: true, multiSpeaker: true, quantization: 'f16', // Higher precision vadThreshold: 0.3 // More sensitive } // Low-latency chat interface const chatConfig: UseSusurroOptions = { modelSize: 'tiny', conversational: { onChunk: handleChunk, chunkTimeout: 2000 }, webGPU: true, quantization: 'q4' // Fastest } // Multi-language support const multilingualConfig: UseSusurroOptions = { language: 'auto', // Auto-detect modelSize: 'medium', conversational: { onChunk: (chunk) => { console.log(`Detected language: ${chunk.metadata.language}`) } } } ``` ## 🙏 Acknowledgments - **OpenAI** for the Whisper model architecture - **Xenova** for Transformers.js browser implementation - **Murmuraba** for neural audio processing technology - **The Matrix** for cyberpunk UI inspiration - **Web Audio API** community for advanced audio processing --- Built with 🧠 Neural Intelligence • Made with 💚 Open Source