Наши партнеры

Мои книги

"OpenOffice.org - открытый офис для Linux и Windows"

"Свободная система для свободных людей (обзор истории операционной системы Linux)"

"Система виртуальных машин фирмы VMWARE"

Библиотека сайта rus-linux.net

Научите Linux говорить!

Оригинал: Teaching Linux to Speak
Автор: Ken Starks
Дата публикации: June 23rd, 2015
Перевод: Н.Ромоданов
Дата перевода: декабрь 2015 г.

Предисловие переводчика: Эта статья написана очень интересным человеком. Он потратил много усилий на то, чтобы помогать другим осваивать мир компьютеров и мир Linux. Но случилось так, что ему потребовалась операция и после нее он потерял возможность говорить. Другие, на его месте, сложили бы руки и починились судьбе, а он, не только пытается преодолеть свой недуг, но и продолжает помогать другим. Он пользуется программами, преобразующими набораемый на клавиатуре текст в речь. И в этой статье он рассказывает о положении дел с такими программами в Linux.

Бесплатное программное обеспечение с открытым исходным кодом. FOSS. Предвидение одного человека ... Предвидение, которое оказалось достаточно для того, чтобы вспыхнуть и распространиться по всему миру. Бесплатное программное обеспечение с открытым исходным кодом — это стапель для предприятия в большей части мира. У нас (автор статьи из США — прим.пер.) есть человек, которого благодарим за это. О мужестве и дальновидности Ричарда Столлмана (Richard Stallman) будет известно и на них будут опираться еще долго после того, как нас уже не будет. Его вклад, действительно, не обесценится со временем, это глобальное наследие.

Единственная грустная часть этой истории в том, что, по крайней мере до сих пор, мы в США упорно топчимся на месте. Мы выбрали решение платить дань Microsoft-ам и Apple-ам. Мы, по-прежнему, одна из стран, которая открыто избегает использовать FOSS в производстве. Мы не только избегаем это делать, но и напрямую противодействуем ему в нашем Сенате. Из-за одной простой вещи - из-за денег.

Это действительно наиболее убедительная сила в мире. Также некоторые утверждают, что это самая распространенная вещь в нашем мире. Посмотрите на усилия лобби, которые существуют только для того, чтобы удерживать FOSS на безопасном расстоянии. Подальше от американского бизнеса. Лоббисты авторских прав смело утверждают, что "Свободное программное обеспечение ослабляет индустрию программ". Хорошо, ну а как думаю я? Оно, безусловно, разрушительно. Причем, независимо от того, эффективно оно или нет ... сейчас не время и не место приводить этот аргумент. Мы можем обсудить это позже.

Мы, а я имею в виду всех нас, кто пользуется FOSS или рассчитывает им пользоваться, сидим на мешке с огромным богатством. Количество программ, которыми мы можем пользоваться или изменять для наших собственных целей или на благо других, огромно. Я не знаю, задумывались ли вы об этом. Мысль о том, что мы можем с помощью программного обеспечения изменить мир, лежит буквально на поверхности. Есть главное в движении, и я хочу, чтобы вы помогли сделать это главной реальностью.

"Отлично Кен", - начнете вы ... "Мы рады поздравить тебя с победой, ну а что с твоим проектом Reglue? Как вы собираетесь управлять им, если за неделю нужно переговорить с десятками людей? ".

Прим. пер.: Reglue — проект по сборке бесплатных компьютеров из вторично использованных материалов для детей из малоимущих семей. Проект был запущен в 2005 году в Остине (штат Техас), где, по оценкам команды Reglue, более 5000 детей школьного возраста не могут позволить себе компьютер и/или доступ к интернету. За время своего существования проект Reglue передал таким детям и их семьям 1100 компьютеров с предустановленной ОС Linux.

Я рад, что вы спросили, и вы должны просто заранее знать о том, что я буду вести еженедельной видеоблог, используя для этого лучший инструментарий, который я смог найти, преобразующий текст в речь. И этот инструментарий удивительный. Вам не нужно истязать себя до полусмерти с тем, чтобы выяснить, как добавлять дополнительные "голоса". Вы выбираете наиболее подходящий голос и интонацию, а затем пользуетесь приложением с помощью клавиатуры. Насколько все это просто?

Это один из основных способов, благодаря которому я мог общаться после операции. Вот так я принял нашу награду Free Software Foundation на конференции Libre Planet, и также я выступал в актовом зале MIT во время этого события.

Прим.пер.: LibrePlanet проект представляет собой глобальную сеть активистов свободного программного обеспечения, которые вместе отстаивают идеалы свободы программного обеспечения, популяризуя свободные программы и содействуя их распространению.

И да, это было просто сюрреалистично. Я стоял за трибуной и обращался к людям в лекционном зале MIT. Для этого я пользовался программой, преобразующей текст в речь. "Это фантастика, Кен" — и вы бы могли попросить меня рассказать об этом великом приложении Linux, которым я пользуюсь."

Ну видите, гм ... в этом-то и проблема.

Это не приложение с открытым исходным кодом и это не приложение для Linux или на основе Linux. Я заплатил сто долларов за подписку на год. Оно переводит набранные мною слова в речь и позволяет мне их записывать для того, чтобы потом ими пользоваться. Пример того, как звучит мой голос, можно взять отсюда. Почему я выбрал проприетарное решение при наличии такой богатой инфраструктуры FOSS? Я расскажу вам об этом.

Поддержка преобразования текста в речь в мире Linux просто ужасная. Я не нашел ничего среди открытого исходного кода, что можно было бы просто использовать и что было бы похоже на то онлайн-приложение, которым я пользуюсь. Ничего. В нашем мире Linux есть ужасно написанные приложения, преобразующие текст в речь, и от поддержки некоторых из них уже, кажется, отказались.

Когда я начал готовиться к встрече в кампусе MIT, то предполагал о многом. И одно из моих предположений состояло в том, что мне придется выбирать одно приложение из нескольких, преобразующих текст в речь, и реальной проблемой будет именно выбор того приложения, которое окажется лучшим. Святая простота! Я даже не мог представить, насколько я оказался неправ.

Первое, о чем я подумал, это дистрибутив Linux, сделанный для незрячих или людей с плохим зрением. Я начал с двух дистрибутивов - Sonar и Vinux. Я прожег Sonar и установил его на ноутбуке, используемым здесь в Reglue для тестирования дистрибутивов. Мне рассказали, что в Sonar есть специальные приложения, такие как программа чтения с экрана Orca, которое работает прямо из коробки. Оно базируется на GNOME, но я как я позже выяснил, оно не входит в состав дистрибутива. Я вынужден был пользоваться GNOME.

Когда дистрибутив загрузился, я услышал в наушниках резкий звук. Он был неприятно громким и напомнил мне проигрыватель пластинок, воспроизводящий сильно поцарапанную пластинку. Я перезагрузил компьютер и сделал еще одну попытку. На этот раз я смог обнаружить источник этого ужасного звука. Это была программа Orca, которая объявила о себе и начала рассказывать о том, как ей пользоваться.

Как можно пользоваться такой программой? И как ее улучшить и сделать более понятной? И понизить ее тональность так, чтобы она не звучала так же, как звучат осколки стекла, измельчаемые в блендере. Я, в конце концов, смог убрать шум и, добавив "голоса", сделать так, что речь стала понятной.

Я мог бы потратить полчаса и рассказать вам о всем том клубке проблем, которые нужно распутать с тем, чтобы получить в программе Orca разборчиво звучащие голоса ... или сделать тоже самое в eSpeak. Но эта тема для "Reader’s Digest".

Первые десять минут все было ужасно … И все, что я ни делал, приводило к половинчатому результату ...

И взгляните …, нет, не на Джонатана Надю (Jonathan Nadeau), создателя дистрибутива Sonar. Нет, вовсе не на него. Джонатан, в моих глазах, один из самых храбрых людей в мире FOSS. Будучи полностью незрячим, он собрал довольно хороший дистрибутив Linux, причем не только для людей с плохим зрением или совсем незрячих, В нем также есть программы для помощи людям с дислексией. Джонатан взял лучшие из доступных инструментов с открытым исходным кодом и создал вокруг них дистрибутив Sonar. Дистрибутив не стал менее полезным из-за сложного программного обеспечения; в нем используется только программное обеспечение с открытым исходным кодом. К сожалению, качество многого из этого имеющегося в наличии программного обеспечения не столь хорошее.

Позвольте мне повторить: Качество большей части этого программного обеспечения недостаточно хорошее или оно недостаточно простое для ежедневного применения. Я удивлен, что некоторые эти программ до сих пор не помечены тегом «бета». Как такие программы попали в репозитории дистрибутивов, мне непонятно.

Я не бросаю перчатку и не пытаюсь разжечь пламя войны. Я лишь констатирую мнение, общее для почти всех людей моего круга с ограниченными физическими возможностями. У меня в кругах Google Plus десятки людей, которые, подобно мне, ежедневно преодолевают свои ограниченные возможности. Они, как и я, считают, что программы в Linux, преобразующие текст в речь, ужасны. Я акцентирую внимание на том, что нужно создать программы или улучшить уже существующее программы таким образом, чтобы они стали удобными и доступными для каждого. Хорошая новость, по крайней мере, для людей, которые ежедневно пользуются преобразованием текста в речь, в том, что такие программы сегодня существуют. Существуют сейчас. Мы так близки к тому, чтобы иметь профессионально созданный инструмент, преобразующий текст в речь.

Затем появилась Мэри ...

Когда я пришел к выводу, насколько в Linux плохи программы, преобразующие текст в речь, я обратился к Google и, как в запое, искал в течение целых четырех дней. Я искал какую-нибудь программу или устройство, которые могли бы снова вернуть мне голос. Было много проб и ошибок. Были всякие ссылки с неуместными шутками и т.п.

Да, было много чего. Много.

Пока я ходил кругами всяким закоулкам сети, один из друзей дал мне ссылку на бесплатное Java-приложение с открытым исходным кодом, которое называется MaryTTS. Да, Java-приложение. Я должен был разобраться с тем, как его подключить. Язык Java настолько далек от меня, что когда я читаю страницы с документацией, то все заканчивается лишь головной болью.

В рамках публичнго обсуждения приложения MaryTTS меня познакомили с неким Дэвидом Е. Я позволю Дэвиду самому представиться, если он этого пожелает; и не буду подробно указывать его имя и фамилию, не спросив об этом предварительно его самого. Он скромный и добрый человек, который никогда не расскажет, насколько глубоки его знания. Причем, никогда. Так что я сделаю это за него.

MaryTTS является удивительным приложением. В мгновение ока Дэвид смог рассказать мне, как заставить его работать на моем компьютере, и, при этом, не выходить в интернет при его использовании. Проблема в том ... что некоторые будут чувствовать себя дискомфортно в командной строке или при попытке редактировать экзотические текстовые файлы. Новичку или даже некоторым опытным пользователям придется провести дополнительные исследования для того, чтобы заставить приложение MaryTTS работать,. И это плохо потому, что приложение MaryTTS, более чем вероятно, является именно инструментом для тех, кто не может говорить и которое ждет весь. Солидное, надежное и бесплатное.

Теперь давайте подробнее рассмотрим вопрос о простоте использования. Почему? Ниже один из примеров откликов от одного из пользователей приложения MaryTTS, которые я получаю ежедневно:

Сейчас я пытаюсь запустить пример MaryClientUser.java.
Компиляция не работает, класс .class не создается.
За последние пару дней я потратил несколько часов на решение этого вопроса, но без всякого успеха.
В файле примера упоминается следующее примечание (я не могу найти файл maryclient.jar): 
/**
* A demo class illustrating how to use the MaryClient class. - в классе  demo иллюстрируется использование класса MaryClient
* This will connect to a MARY server, version 4.x. Будет выполнено подключение к серверу MARY версии 4.x. 
* It requires maryclient.jar from MARY 4.0. Для сервера  MARY 4.0 требуется клиентский архив  maryclient.jar
* This works transparently with MARY servers in both http and socket servermode. 
* С серверами  MARY приложение работает одинаково как в режиме  http, так и при использовании сокетов сервера
* Compile this as follows: Компиляция выполняется следующим образом:
* javac -cp maryclient.jar MaryClientUser.java
* And run as: Запуск происходит следующим образом:
* java -cp .:maryclient.jar MaryClientUser
/**

Это далеко, слишком далеко от того, как пользуются приложениями в мире FOSS. Создан абсолютный убийца программы. Я говорю о программе, которая не имеет себе равных в мире программ на любой из платформ. Это программа, которая может сделать жизнь гораздо лучше. И после всего автор бросает приложение с исковерканным установочным скриптом или файлом bin, а обычный пользователь, который пользуется компьютером каждый день, даже не может понять как воспользоваться этой программой. Если проследить диалог пользователя до конца и выяснить чем все это закончится, то результатом на все вопросы будет следующий ответ ...

Прочитайте документацию

Я хочу поговорить с теми, кто может создать простой в использовании графический (или не графический) интерфейс для приложения MaryTTS. Нужно, чтобы приложение полностью находилось на компьютере пользователя, а не где-то в облаке. Если это именно вы, то я бы хотел знать, за какую сумму вы бы могли создать подобный интерфейс и поддерживать его в течение одного года. В качестве первого вклада я обязуюсь передать вам $500.00 из моих личных сбережений, хотя я понимаю, что это немного. Я живу менее, чем на 10000 долларов год, но такое приложение важно для меня. Если мои руководители согласятся, то они внесут свой вклад в том размере, который они посчитают разумным. Я могу гарантировать, что влияние вашей работы будет глобальным.

Теперь о слоне в посудной лавке - давайте поговорим о приложениях TTS на платформах Android/iPhone.

Должно быть и есть программное обеспечение, которое энтузиасты создают на высоком профессиональном уровне в течение всего лишь выходных дней. Лично я пользуюсь приложением для Andriod, которое называется Speech Assistant.

Я пользуюсь этим приложением на моем планшете Nexus 7, но независимо от того, насколько это приложение хорошее, успех или неудача в его использовании зависит от способности пользователя вводить текст достаточно быстро в том темпе, в котором идет разговор. Поэтому что я попробовал на практике использовать технику "swyping" и метод набора двумя пальцами на следующих двух хорошо известных упражнения по набору текста:

“Now is the time for all good men to come to the aid of their country.”
“I want to watch zebras that know how to jump and spin in the air.”

Я набрал оба упражнения с помощью моей настольной клавиатуры модели M. Первое я набрал за десять секунд, а второе — за девять секунд. Сравните это с 45 секундами и 51 секундой при использовании стилуса и клавиатуры Swype на моем Nexus. Да, мало найдется тех, кто-бы хотел поболтать со мной, если собеседник знает, насколько долго я буду вводить пятнадцать слов. Я даже не вижу большого смысла обсуждать эти цифры.

Улучшит ли ситуацию создание дружественного интерфейса для приложения MaryTTS? Безусловно и я буду вашим личным пресс-агентом 24 часа в сутки и все 7 дней недели. Моя клавиатура Bluetooth достаточно чувствительна и хотя от нее не будет большого проку при разговоре в движении, в неподвижном положении она может во многом улучшить ситуацию.

Вот такое положение дел. Если вы захотите подробнее поговорить с нами о создании интерфейса для этого фантастического приложения, преобразующего текст в речь, то можете сделать это здесь в комментариях или отправьте мне сообщение по электронной почте по адресу ken (at) reglue dot org.

Некоторые из самых ярких личностей, которых я знаю, посещают сайт FOSS Force. Давайте создадим такой интерфейс.