L’application de productivité Superpowered, soutenue par YC, pivote pour devenir une plateforme d’API vocale pour les bots.

L’application de productivité Superpowered, soutenue par YC, pivote pour devenir une plateforme d’API vocale pour les bots.

Les applications de calendrier sont essentielles pour la productivité, mais il est difficile de se différencier suffisamment pour obtenir une croissance soutenue à partir de l’utilisation principale. Superpowered, soutenu par Y Combinator, qui est un preneur de notes à base d’IA pour vos réunions et qui n’implique pas de robots enregistreurs, s’est heurté à cet obstacle et pivote maintenant pour devenir Vapi, un fournisseur d’API permettant à quiconque de créer facilement un assistant à base d’IA à consonance naturelle.

Superpowered a été fondée en 2020 par Jordan Dearsley et Nikhil Gupta. Mais après trois ans de travail, Dearsley a déclaré que l’équipe souhaitait travailler sur un produit plus ambitieux. L’entreprise ne ferme pas le produit initial, car elle affirme que Superpowered est rentable, mais elle est en train de recruter quelqu’un pour le gérer. Y Combinator a déclaré en juin que plus de 10 000 personnes utilisaient le produit chaque semaine, mais l’entreprise n’a pas fourni de chiffres actualisés.

Crédits d’image : Vapi

À ce jour, Superpowered/Vapi a levé 2,1 millions de dollars en capital d’amorçage auprès d’investisseurs tels que Kleiner Perkins et Abstract Ventures.

Pivoter vers Vapi

La société propose Vapi en tant qu’API pour permettre aux développeurs de créer un robot à l’aide de simples messages-guides, puis de le placer derrière un numéro de téléphone. En outre, elle propose une intégration SDK pour que les développeurs puissent intégrer le bot sur les sites web et les applications mobiles.

Dearsley a expliqué à TechCrunch par e-mail que l’idée de créer Vapi est née d’un problème personnel. Il avait déménagé à San Francisco et ses amis et sa famille, qui se trouvaient dans un autre fuseau horaire, commençaient à lui manquer. Il a construit un robot d’IA relié à un numéro de téléphone à l’autre bout du fil pour parler à quelqu’un afin de mettre de l’ordre dans ses pensées.

« J’aimais bien, mais j’étais continuellement frustré par le manque de naturel. Ce n’était pas comme parler à une personne. La voix ne sonnait pas juste, il y avait de longs délais avant qu’elle ne réponde et elle m’interrompait pendant que je parlais », a-t-il déclaré.

« J’ai donc continué à travailler dessus et à me promener avec. Finalement, nous avons été fascinés par ce problème de conversation. Il est très difficile de faire en sorte que quelque chose ait l’air humain. Assistants vocaux aujourd’hui sont maladroits et basés sur le tour par tour, nous voulons construire quelque chose qui semble humain ».

D’un point de vue technique, Vapi associe actuellement un certain nombre d’API tierces pour construire une plateforme de conversation vocale robuste. Par exemple, il utilise des solutions de Twilio pour la téléphonie, Deepgram pour la transcription, Daily pour le streaming audio, OpenAI pour les réponses et PlayHT pour la synthèse vocale.

ScaleConvo, une startup du YC winter batch pour 2024, utilise déjà Vapi pour lancer des bots conversationnels pour les équipes de vente et les sociétés de gestion immobilière. Cependant, Vapi n’a pas révélé ses autres clients. L’entreprise ouvre son API avec Vapi Phone et Vapi Web.

Défis pour Vapi

Selon Magnus Revan, ancien analyste chez Gartner et chef de produit chez Openstream.ai, une startup spécialisée dans les conversations multimodales, l’un des plus grands défis de la startup est de réduire le temps de latence.

« Les modèles OpenAI ont besoin de 2 à 10 secondes pour générer une réponse, alors qu’au téléphone, la norme est de 700 ms entre la fin de la conversation de l’utilisateur et le moment où le robot commence à parler. Il est très difficile d’obtenir une latence inférieure à 1 seconde avec des modèles performants (des modèles open-source à grand nombre de paramètres comme LLaMA2 70B) », a déclaré M. Revan.

Actuellement, le Vapi a un temps de latence de 1,2 à 2 secondes, en fonction de divers facteurs. M. Dearsley espère ramener ce temps de latence à moins d’une seconde d’ici un mois grâce au travail de Vapi et aux améliorations apportées par OpenAI.

Mohamed Musbah, un investisseur providentiel de Vapi, a également déclaré que la solution de la startup s’améliorera avec les progrès globaux de l’API.

« Au fur et à mesure qu’OpenAI et d’autres améliorent leurs modèles, la plateforme de Vapi deviendra plus puissante, équipée de meilleures bases de connaissances, de capacités d’exécution de code et de fenêtres contextuelles plus larges. L’accent mis par Vapi sur la résolution des plus grandes zones de friction dans la communication vocale sera son avantage à mesure que la demande des utilisateurs pour les assistants vocaux augmentera », a-t-il déclaré.

Cependant, cela met l’accent sur l’amélioration d’autres solutions plutôt que sur Vapi lui-même. Selon M. Dearsley, le fait de s’appuyer sur d’autres API réduit la capacité de Vapi à se défendre si de grandes entreprises commencent à s’implanter dans ce domaine. Toutefois, l’équipe a déclaré qu’elle avait un avantage en ce sens qu’elle avait construit une infrastructure capable de traiter des milliers d’appels simultanément. M. Dearsley a souligné qu’avec le lancement de l’API web et téléphonique de Vapi pour le public, l’équipe cherchera également à construire ses propres modèles pour les solutions audio-to-audio.

IA