top of page

AI и Power Platform: Как мы создали приложение для голосового ввода текста

Writer's picture: Sarov+Sarov+

Сегодня мы хотим поделиться с вами нашим опытом использования искусственного интеллекта на платформе Power Platform. Два месяца назад мы создали небольшое решение на Canvas Apps, которое позволяет эффективно работать с текстом, минимизируя набор вручную и используя голосовой ввод. Наша цель — показать, насколько просто можно создавать решения с помощью Canvas технологий и как AI может стать вашим личным помощником. 

 

А узнать больше про это решение можно в нашем видео: 


 

Главная проблема 

В современном мире существует множество инструментов для преобразования голоса в текст, таких как Google Keyboard, Dragon NaturallySpeaking и даже голосовой ввод в ChatGPT. Однако эти решения часто сталкиваются с ограничениями: 

  • Необходимость четкой дикции и правильного произношения пунктуации. 

  • Ограничения по времени записи или объему вводимого текста. 

  • Сложности с мультиязычным вводом, особенно при смешении языков в одном предложении. 

  • Высокая стоимость коммерческих продуктов с ограниченным функционалом. 

Эти проблемы мотивировали нас создать собственное решение, которое было бы лишено указанных недостатков. 

 

Возможности AI-помощника 

Наше приложение использует OpenAI Whisper API для преобразования речи в текст. Это позволяет: 

  • Работать с несколькими языками одновременно, включая русский, английский и украинский. 

  • Обрабатывать длинные записи без ограничений по времени. 

  • Использовать простые и понятные команды без необходимости диктовать пунктуацию. 

  • Интегрироваться с ChatGPT для улучшения качества транскрипции и корректировки текста. 

Мы продемонстрировали, как наше решение успешно расшифровывает сложные аудиозаписи с шумами и различными акцентами, что делает его превосходным инструментом для повседневного использования. 

 

Работа с промптами 

Одной из ключевых особенностей нашего приложения является возможность работы с промптами для ChatGPT: 

  • Промпты позволяют улучшать качество транскрипции, корректируя грамматические ошибки и структурируя текст. 

  • Мы разработали несколько шаблонов промптов, таких как "Preserve and Refine Transcription" и "Enhance Narrative Clarity", которые помогают сохранять оригинальные идеи и эмоции в тексте. 

  • ChatGPT выступает как постпроцессор, улучшая и уточняя транскрибированный текст для дальнейшего использования. 

Эта функциональность делает процесс обработки текста более гибким и настраиваемым под индивидуальные потребности пользователя. 

 

Что под капотом? 

Наше приложение состоит из трех основных компонентов: 

  1. Коннектор к OpenAI Whisper API: обеспечивает преобразование аудиофайлов в текст. 

  2. Интеграция с Office 365: позволяет автоматически отправлять результаты транскрипции по электронной почте или сохранять их в облаке. 

  3. Dataverse: используется для хранения и управления промптами. 

Мы использовали Canvas Apps для создания интуитивно понятного интерфейса и Power Fx для написания простых формул, которые связывают все компоненты между собой. 

 

Интерфейс приложения 

Интерфейс нашего приложения прост и функционален: 

  • Кнопка микрофона: начало записи аудио. 

  • Кнопка "Voice to Text": отправка аудиозаписи на обработку в Whisper API. 

  • Поле вывода текста: отображение транскрибированного текста. 

  • Кнопка "Inject Prompt": вставка выбранного промпта для последующей обработки текста в ChatGPT. 

  • Дополнительные функции: возможность воспроизведения аудио, отправки текста по электронной почте и управления библиотекой промптов. 

Этот интерфейс позволяет быстро и удобно работать с голосовыми заметками, делать их транскрипцию и последующую обработку без необходимости покидать приложение. 

 

Технические сложности 

В процессе разработки мы столкнулись с некоторыми техническими вызовами: 

  • Совместимость аудиоформатов: стандартные аудиофайлы, записанные в Canvas Apps на мобильных устройствах, не всегда поддерживаются Whisper API. Мы решили эту проблему, используя веб-версию приложения в мобильном браузере. 

  • Настройка коннекторов: потребовалось время, чтобы правильно настроить пользовательский коннектор к Whisper API, учитывая особенности передачи данных и авторизации. 

  • Работа с мультиязычными записями: необходимо было обеспечить корректную транскрипцию и обработку текстов, содержащих смешение нескольких языков. 

Благодаря гибкости Power Platform и Canvas Apps, мы смогли преодолеть эти сложности и создать стабильное и надежное приложение. 

 

Возможные расширения 

Наше решение имеет большой потенциал для дальнейшего развития: 

  • Интеграция с ChatGPT: создание коннектора для прямой работы с ChatGPT из приложения, позволяя автоматизировать процесс обработки и улучшения текста. 

  • Функционал переводчика: добавление возможности автоматического перевода транскрибированного текста на другие языки и озвучивание результата. 

  • Автоматизация ответов на письма: интеграция с Outlook для голосового набора и отправки ответов на электронные письма. 

  • Расширение поддержки команд: добавление голосового управления другими приложениями и сервисами в экосистеме Microsoft. 

 

Про стоимость 

Использование OpenAI Whisper API является платным, однако стоимость достаточно низкая: 

  • Цена составляет примерно 0,006 доллара за минуту аудио. 

  • За два с половиной месяца активного использования мы потратили около 4 долларов. 

  • Это делает наше решение доступным и экономически выгодным по сравнению с коммерческими продуктами, стоимость которых может достигать 500 долларов за пользователя. 

 

Есть ли лимиты? 

Практически отсутствуют существенные ограничения: 

  • Максимальный размер аудиофайла для обработки — 120 МБ, что соответствует нескольким часам записи. 

  • Лимиты по токенам в промптах существуют, но они достаточны для большинства задач. 

  • OpenAI постоянно обновляет и улучшает свои модели, что позволяет нам использовать самые современные технологии без значительных ограничений. 

 

Есть ли задержки в работе из-за коннектора? 

Задержки минимальны и практически незаметны: 

  • Обработка аудиофайла и получение транскрибированного текста происходят в течение нескольких секунд. 

  • Выгрузка аудиофайла занимает минимальное время благодаря небольшому размеру файлов. 

  • Коннектор к Whisper API работает стабильно, обеспечивая надежную связь между нашим приложением и сервисом OpenAI. 

Это позволяет использовать наше приложение в реальном времени, не беспокоясь о задержках или перебоях в работе. 

 

Заключение 

Мы продемонстрировали, как с помощью Power Platform и Canvas Apps можно быстро и просто создать мощное решение для голосового ввода и обработки текста. Использование AI и интеграция с сервисами OpenAI позволяют расширить функциональность приложения и адаптировать его под индивидуальные потребности. Надеемся, что наш опыт вдохновит вас на создание собственных инновационных решений, которые сделают вашу работу более эффективной и приятной. 

0 views0 comments

コメント


Power Platform logo

Подписывайся на наши ресурсы.

  • Telegram
  • LinkedIn
  • Facebook
  • Twitter
  • YouTube
  • Instagram

© 2035 by The Pop Show. Powered and secured by Wix

bottom of page