Сегодня мы хотим поделиться с вами нашим опытом использования искусственного интеллекта на платформе Power Platform. Два месяца назад мы создали небольшое решение на Canvas Apps, которое позволяет эффективно работать с текстом, минимизируя набор вручную и используя голосовой ввод. Наша цель — показать, насколько просто можно создавать решения с помощью Canvas технологий и как AI может стать вашим личным помощником.
А узнать больше про это решение можно в нашем видео:
Главная проблема
В современном мире существует множество инструментов для преобразования голоса в текст, таких как Google Keyboard, Dragon NaturallySpeaking и даже голосовой ввод в ChatGPT. Однако эти решения часто сталкиваются с ограничениями:
Необходимость четкой дикции и правильного произношения пунктуации.
Ограничения по времени записи или объему вводимого текста.
Сложности с мультиязычным вводом, особенно при смешении языков в одном предложении.
Высокая стоимость коммерческих продуктов с ограниченным функционалом.
Эти проблемы мотивировали нас создать собственное решение, которое было бы лишено указанных недостатков.
Возможности AI-помощника
Наше приложение использует OpenAI Whisper API для преобразования речи в текст. Это позволяет:
Работать с несколькими языками одновременно, включая русский, английский и украинский.
Обрабатывать длинные записи без ограничений по времени.
Использовать простые и понятные команды без необходимости диктовать пунктуацию.
Интегрироваться с ChatGPT для улучшения качества транскрипции и корректировки текста.
Мы продемонстрировали, как наше решение успешно расшифровывает сложные аудиозаписи с шумами и различными акцентами, что делает его превосходным инструментом для повседневного использования.
Работа с промптами
Одной из ключевых особенностей нашего приложения является возможность работы с промптами для ChatGPT:
Промпты позволяют улучшать качество транскрипции, корректируя грамматические ошибки и структурируя текст.
Мы разработали несколько шаблонов промптов, таких как "Preserve and Refine Transcription" и "Enhance Narrative Clarity", которые помогают сохранять оригинальные идеи и эмоции в тексте.
ChatGPT выступает как постпроцессор, улучшая и уточняя транскрибированный текст для дальнейшего использования.
Эта функциональность делает процесс обработки текста более гибким и настраиваемым под индивидуальные потребности пользователя.
Что под капотом?
Наше приложение состоит из трех основных компонентов:
Коннектор к OpenAI Whisper API: обеспечивает преобразование аудиофайлов в текст.
Интеграция с Office 365: позволяет автоматически отправлять результаты транскрипции по электронной почте или сохранять их в облаке.
Dataverse: используется для хранения и управления промптами.
Мы использовали Canvas Apps для создания интуитивно понятного интерфейса и Power Fx для написания простых формул, которые связывают все компоненты между собой.
Интерфейс приложения
Интерфейс нашего приложения прост и функционален:
Кнопка микрофона: начало записи аудио.
Кнопка "Voice to Text": отправка аудиозаписи на обработку в Whisper API.
Поле вывода текста: отображение транскрибированного текста.
Кнопка "Inject Prompt": вставка выбранного промпта для последующей обработки текста в ChatGPT.
Дополнительные функции: возможность воспроизведения аудио, отправки текста по электронной почте и управления библиотекой промптов.
Этот интерфейс позволяет быстро и удобно работать с голосовыми заметками, делать их транскрипцию и последующую обработку без необходимости покидать приложение.
Технические сложности
В процессе разработки мы столкнулись с некоторыми техническими вызовами:
Совместимость аудиоформатов: стандартные аудиофайлы, записанные в Canvas Apps на мобильных устройствах, не всегда поддерживаются Whisper API. Мы решили эту проблему, используя веб-версию приложения в мобильном браузере.
Настройка коннекторов: потребовалось время, чтобы правильно настроить пользовательский коннектор к Whisper API, учитывая особенности передачи данных и авторизации.
Работа с мультиязычными записями: необходимо было обеспечить корректную транскрипцию и обработку текстов, содержащих смешение нескольких языков.
Благодаря гибкости Power Platform и Canvas Apps, мы смогли преодолеть эти сложности и создать стабильное и надежное приложение.
Возможные расширения
Наше решение имеет большой потенциал для дальнейшего развития:
Интеграция с ChatGPT: создание коннектора для прямой работы с ChatGPT из приложения, позволяя автоматизировать процесс обработки и улучшения текста.
Функционал переводчика: добавление возможности автоматического перевода транскрибированного текста на другие языки и озвучивание результата.
Автоматизация ответов на письма: интеграция с Outlook для голосового набора и отправки ответов на электронные письма.
Расширение поддержки команд: добавление голосового управления другими приложениями и сервисами в экосистеме Microsoft.
Про стоимость
Использование OpenAI Whisper API является платным, однако стоимость достаточно низкая:
Цена составляет примерно 0,006 доллара за минуту аудио.
За два с половиной месяца активного использования мы потратили около 4 долларов.
Это делает наше решение доступным и экономически выгодным по сравнению с коммерческими продуктами, стоимость которых может достигать 500 долларов за пользователя.
Есть ли лимиты?
Практически отсутствуют существенные ограничения:
Максимальный размер аудиофайла для обработки — 120 МБ, что соответствует нескольким часам записи.
Лимиты по токенам в промптах существуют, но они достаточны для большинства задач.
OpenAI постоянно обновляет и улучшает свои модели, что позволяет нам использовать самые современные технологии без значительных ограничений.
Есть ли задержки в работе из-за коннектора?
Задержки минимальны и практически незаметны:
Обработка аудиофайла и получение транскрибированного текста происходят в течение нескольких секунд.
Выгрузка аудиофайла занимает минимальное время благодаря небольшому размеру файлов.
Коннектор к Whisper API работает стабильно, обеспечивая надежную связь между нашим приложением и сервисом OpenAI.
Это позволяет использовать наше приложение в реальном времени, не беспокоясь о задержках или перебоях в работе.
Заключение
Мы продемонстрировали, как с помощью Power Platform и Canvas Apps можно быстро и просто создать мощное решение для голосового ввода и обработки текста. Использование AI и интеграция с сервисами OpenAI позволяют расширить функциональность приложения и адаптировать его под индивидуальные потребности. Надеемся, что наш опыт вдохновит вас на создание собственных инновационных решений, которые сделают вашу работу более эффективной и приятной.
コメント