Анализ состояния и перспектив развития технологий определения языка аудиосообщения

УДК 621.396.623

 

И.А. ШАЛИМОВ, контрактный военнослужащий, д.т.н.
М.А. БЕССОНОВ, контрактный военнослужащий

 

Ключевые слова: определение языка, автоматическое распознавание речи, акустические параметры, просодические параметры.

 

Статья опубликована в №3 журнала «Труды НИИР» за 2013 г.
Скачать статью в формате .doc

 

Введение

 В работе [1] обоснована актуальность задачи автоматического определения языка аудиосообщения (фонограмм с речевым сообщением), подробно описаны основные методы автоматического определения языка – акустический, фонотактический, лексический и просодический, рассмотрены их достоинства и недостатки. Кроме того в работе определены требования к системе автоматического определения языка аудиосообщения, уровни абстракции речевого сообщения и соответствующие признаки (параметры), используемые для определения языка.

В настоящей статье представлены результаты анализа исследований в области определения языка аудиосообщения зарубежных авторов. Фонемотактический подход является наиболее разработанным и достаточно широко освещен, поэтому в статье основное внимание сосредоточено на результатах исследования с использованием акустического, лексического и просодического подходов.

Отбор статей производился по зарубежным источникам в период с начала 90-х гг. ХХ в. по 10-е гг. ХХI в. Основными источниками являлись издания IEEE International Conference on Acoustics, Speech and Signal Processing и IEEE transactions on audio, speech and language processing. В российской научной литературе тематика автоматического определения языка представлена скупо и в данный обзор не вошла.

Обзор работ выполнен по следующим параметрам: число языков, число языков в сравнении (парное, либо сразу все), спонтанная речь либо заранее подготовленные выражения, дикторозависимое/ дикторонезависимое (использовались ли для обучения/тестирования разные дикторы), дикторы носители/неносители языка, число дикторов, используемый метод распознавания, используемый математический аппарат, используемые параметры речи, процент правильного распознавания и др.

Все исследования автоматического определения языка разделены на три периода. Первый период – до начала 90-х гг. ХХ в. – характеризуется становлением теории автоматического определения языка аудиосообщения, построением моделей языка и определением наиболее информативных параметров для решения задачи определения языка. Второй период – 90-е гг. ХХ в. – характеризуется развитием методов определения языка аудиосообщения и повышением сложности алгоритмов, в которых получает применение такой математический аппарат, как векторное квантование (ВК), модели гауссовых смесей (Gaussian Mixture Model, GMM-модель), скрытые марковские модели (Hidden Markov Model, HММ-модель), модели на основе искусственных нейронных сетей. Третий период характеризуется дальнейшим развитием моделей определения языка, возрастанием количества исследований на основе просодического подхода, увеличением количества языков в речевых базах, комбинированием методов определения языка.

 

Исследования в период до 1990 г.

 К первым работам по возможности автоматического определения языка следует отнести исследования фирмы Texas Instruments в 1970-1980 гг. [2, 3, 4, 5]. Основная гипотеза исследований: языки отличаются частотой встречаемости звуков или звуковых последовательностей. Подход, используемый Texas Instruments, относится к акустическому. Процент правильного распознавания составил от 60 до 100 % для различных пар языков. Результирующая точность составила 64%. Последующие исследования [3] Texas Instruments относятся к фонемотактическому подходу. Использовались те же аудиоданные, но в качестве признаков были выбраны последовательности фонемоподобных сегментов. Процент правильного распознавания на тестовых данных составил 70% при количестве языков – 5. В последующих экспериментах [4] алгоритм автоматического выбора звуков был заменен на итеративный алгоритм генерации звуков. Процент распознавания 5 языков был повышен до 80%. Применение расширенного итерационного метода генерации звуков при режекции фонограмм [5] позволило обеспечить 100% распознавание 5 языков.

Затем Хаус и Ньюберг [6], Ли и Эдвардс [7] использовали широкие фонетические категории, последовательности которых моделировались марковским процессом. Максимальный результат, достигнутый для 5 языков, составил 80% правильного распознавания.

Кимарасти и Ивесом [8] предложен  подход определения языка, основанный на использовании акустических параметров сигнала и построении по ним шаблонов языка – языковых моделей. Процент распознавания 8 языков составил 84%.

Ивес в своей работе [9] расширил базу используемых признаков языка до 50, среди которых частота основного тона (ЧОТ), изменение ЧОТ, спектральная плотность; в результате правильность распознавания составила 92%.

Фойл в своей работе [10] предложил методику измерения частоты встречаемости характерных звуков языка с помощью формантных частот. Процент распознавания трех языков составил 64%. Гудман [11] дополнил вектор признаков логарифмами амплитуд спектра и частотами формант и повысил процент распознавания при увеличении количества языков до 8.

 

Исследования в период с 1990 по 2000 гг.

Сугияма [12, 13] предложил два алгоритма, использующих акустические параметры речи: коэффициенты линейного предсказания, коэффициенты автокорреляции, дельта-кепстральные коэффициенты. Для 20 языков алгоритм, основанный на векторном квантовании и создании для каждого языка кодовой книги, обеспечил процент распознавания 65%. Второй алгоритм, использующий универсальную кодовую книгу (на основе всех языков) и выделение языка на основе гистограммы вероятности событий, обеспечил 80% правильного распознавания.

Также автором были проведены эксперименты по способности определения языка аудитором – 5 японских аудиторов-женщин и 1 французский аудитор-мужчина прослушивали пары предложений и должны были вынести решение, принадлежат ли предложения одному языку.

Савик [14] с коллективом соавторов предложили использовать в качестве признаков мелодию основного тона диктора (мелодию ОТ), а аппарата распознавания – HММ-модель.

Накагава [15] исследовал приложение скрытых марковских моделей на основе акустических параметров для 4-х методов: векторного квантования (ВК), дискретную HММ-модель, непрерывную HММ-модель, GMM-модель. Для 4 языков вычислялись 14 кепстральных коэффициентов, которые трансформировались в 10 мел-кепстральных коэффициентов (логарифмически масштабированные кепстральные коэффициенты, Mel Frequency Cepstral Coefficient, MFCC-коэффициенты). Достигнутые результаты: для непрерывной HMM-модели и GMM-модели – 81,1%, ВК – 77,4%, дискретной HMM- модели – 47,6%. Применение в непрерывной HMM-модели динамических MFCC-коэффициентов позволило улучшить распознавание до 86,3%. При этом введение дополнительных 5 языков привело к снижению процента распознавания на непрерывной НММ-модели с 81% до 48%.

В исследовании Итахаши, Танаки и др. [16] использование мелодии ОТ получило дальнейшее развитие. Мелодия ОТ применялась для выделения просодической информации. В исследовании использовались 6 языков: японский (13 диалектов), корейский, мандарин, английский, немецкий, французский, длительность аудиозаписей – 40 с.

Определение языка выполнялось в 3 этапа: на первом этапе выделялась мелодия ОТ и определялись вокализованные сегменты, на втором для вокализованных интервалов мелодия ОТ аппроксимировалась полигональными линиями, и на третьем определялись статистические параметры полигональных линий. Всего выделялось 17 параметров, среди которых дисперсия частоты основного тона (ЧОТ) и энергии на сегментах, коэффициент корреляции ЧОТ и энергии и др. Процент распознавания языков составил 100% при закрытой задаче и 80% при открытой задаче при числе используемых параметров 5. Правильность разделения языков на азиатские и европейские составила 86,7% и 83,3% соответственно, при этом для разделения на два класса число используемых параметров уменьшено до 2. При определении диалектов процент для закрытой задачи составил 94%, открытой – 61%.

Важным результатом работы явилась демонстрация эффективности применения мелодии ОТ и параметров, выделяемых на ее основе для задачи определения языков и диалектов.

Тим-Гоббелом  и  Хитчинсом  в  [17]  приведены  результаты  парного  распознавания  языков с использованием мелодии ОТ. Для распознавания применялась языковая база Орегонского института (Oregon Graduate Institute – OGI). Языки: английский, испанский, японский и мандарин. В результате исследований сделан вывод об эффективности применения просодических параметров, таких как: мелодия ОТ на слоге, длительность пауз между слогами и длительность слогов, дифференциальное расстояние между слогами и дифференциальная длительность слогов, форма огибающей амплитуды на слоге, ритм, число слогов за один выдох, положение фразового акцента в начале, середине или конце группы слогов, произносимых одним выдохом. Авторами определено, что мелодия ОТ и положение фразового акцента наиболее подходит для определения языка в паре.

Камминсом, Герсом и Шмидхубером в работе [18] исследована применимость мелодии ОТ и амплитудной огибающей в задаче парного определения языков с использованием в качестве математического аппарата нейронной сети. Языковая база OGI состояла из 5 языков: английский, японский, испанский, мандарин, немецкий. Правильность распознавания пары языков составила от 50 до 73 %, причем максимальные показатели достигнуты при использовании в качестве характеристики языка только мелодии ОТ.

Рухани с соавторами в работе [19] при определении языка аудиосообщения применил математический аппарат нейронных сетей – многослойный перцептрон. В качестве признаков использованы  супрасегментные  параметры,  вычисляемые  по  мелодии  ОТ,  и  акустические параметры, вычисляемые по спектру речевого сигнала. Для экспериментов использовалась речевая база данных RCISP, записанная со спутниковых телепередач (включала следующие языки: фарси, арабский, французский, немецкий, английский, русский). Процент определения языка в закрытой задаче 6 языков составил 97%, открытой задаче 6 языков 75%. Обучение системы производилось аудиозаписями 20 дикторов, каждая аудиозапись по 20 с, тестирование системы – на аудиозаписях 24 дикторов. Самый низкий процент распознавания 50% – русский язык, самый высокий – немецкий 96%, фарси – 69%, арабский – 55%, английский – 79%, французский – 72%.

Вонгом и Пелеканосом в работе [20] задача определения языка аудиосообщения решалась с использованием MFCC-коэффициентов и GMM-модели. В работе также было проведено сравнительное исследование применимости стандартной GMM-модели и GMM-UBM-модели (модель гауссовых смесей с универсальной фоновой моделью). Эксперименты проведены на речевой базе телефонных фонограмм Орегонского института (OGI_TS) [29], включающей 10 языков: английского, фарси, французского, немецкого, японского, корейского, мандарин, испанского, тамильского, вьетнамского. Процент распознавания языков колеблется в пределах от 52% до 56,6% (для стандартной GMM-модели).

 

 Исследования в период с 2000 г. по настоящее время

 Жаном Руасом с соавторами в [21] были использованы просодические параметры: разделение речевого сигнала на последовательности невокализованных и вокализованных сегментов, на которых вычисляются: ЧОТ, длительность невокализованного и вокализованного участков и др. Распознавание осуществлялось с использованием GMM- модели. Эксперименты проведены на речевых данных OGI_TS, состоящей из 10 языков. При парном распознавании языков процент правильного распознавания составил от 60% до 80%.

Жаном Руасом в [22] для повышения эффективности распознавания проведено моделирование просодии речи на основе долговременных и кратковременных параметров просодии. Число языков – 7. В предыдущей работе при использовании GMM-модели строилась статистическая модель в силу характера GMM-модели. В работе использовались аудиозаписи базы MULTEXT [30] с языками – английским, немецким, французским, итальянским, испанским, японским и китайским (мандарин). В качестве параметров использованы производные от мелодии ОТ, огибающей кратковременной энергии и значения длительности вокализованных и невокализованных сегментов речевого сигнала. В случае применения долговременных параметров процент распознавания составил 40%, кратковременных – 63%. При совместном использовании долговременных и кратковременных параметров процент распознавания составил 71%.

Важным результатом работы явилась демонстрация возможности определения языка только на основе просодических параметров речи диктора.

Лин и Вангом в [23] также реализован метод определения языка на основе мелодии ОТ. Мелодия ОТ аппроксимировалась полиномами Лежандра, коэффициенты полиномов использовались для построения модели языка. Для распознавания применена GMM-модель. В качестве речевой базы использована база OGI (10 языков: английский, фарси, французский, немецкий, японский, корейский, мандарин, испанский, тамильский, вьетнамский), определение языков производилось в парах. После вычисления мелодия ОТ делилась на отрезки в соответствии с энергетической огибающей. Каждый такой отрезок мелодии ОТ аппроксимировался полиномами Лежандра.

Вектор признаков формировался из 2-3-х коэффициентов полинома и значения длины отрезка мелодии ОТ. Оценка системы проводилась при длительности записей 3, 10 и 45 с. Правильная классификация по парам языков колебалась в пределах от 42 до 89%.

Проблеме моделирования просодии в задаче определения языка посвящена работа Жана Руаса [24]. Цель работы – создание автоматической системы выявления просодических различий между языками и диалектами для лингвистических исследований. В работе моделируется просодическая вариативность в виде последовательности просодических единиц выделяемых фразовых и акцентных компонентов интонации. Предложено независимое кодирование этих компонент для различных масштабов времени. Кратковременные и долговременные языковые последовательности моделируются N-граммными моделями. Проведены эксперименты с дикторской и спонтанной речью арабских диалектов, показана работоспособность предложенной модели основанной на использовании субфонемных элементов. Оригинальность метода заключается в использовании фразовых и локальных акцентов при их раздельном моделировании.

На  базе  ар аб ских  диалектов  была  провер ена  способность  системы  автоматически определять просодические различия аудиозаписей.

Для дальнейшего тестирования использованы две языковые базы – MULTEXT дикторской речи и OGI-TS спонтанной речи.

База MULTEXT состояла из 5 языков – английского, французского, немецкого, итальянского и испанского (10 дикторов на каждый язык). База была дополнена записями японского и китайского языков. На этапе обучения использовались аудиозаписи 8 дикторов каждого языка, за исключением японского (4 диктора), на этапе тестирования – аудиозаписи 2 дикторов каждого языка. Как и в предыдущих работах автора [21, 22], долговременные параметры просодии вычислялись на протяжении нескольких псевдослогов, кратковременные на протяжении одного псевдослога. Объединение долговременной и кратковременной просодической модели дало следующие результаты правильного распознавания: китайский язык – 100%, английский – 70%, испанский – 55 %, остальные языки – 80-95%.

Аналогичные эксперименты проведены с базой спонтанной речи OGI-TS: 6 языков – английский, французский, немецкий, японский, мандарин, испанский. Общая длительность обучающих аудиозаписей составила 33-42 мин. каждого языка, тестовых данных – 10-15 мин. На базе спонтанной речи наилучший результат показала кратковременная просодическая модель с процентом правильного распознавания от 20 до 55%, в среднем – 40 %.

В лаборатории Линкольна Массачусетского технологического института Торресом-Караскило, Сингером, Кампбелом [25] проведено исследование системы распознавания языка представляющей комбинацию 4 распознавателей, 2 из которых реализуют фонотактический подход, а 2 используют спектральные характеристики речи. Система включает следующие модели: GMM-модель, модель гауссовых смесей и опорных векторов (Suport Vector Machines, SVM; GMM-SVM-модель), фонотактическую SVM-модель с распознавателем фонем английского языка, фонотактическую модель с распознавателем фонем венгерского языка.

Число языков – 14: арабский, бенгальский, мандарин, кантонский диалект китайского, миннан диалект китайского, ву диалект китайского, английский американский, английский индейский, фарси, немецкий, хинди, урду, японский, корейский, русский, карибский испанский, некарибский испанский, тамильский, тайский, вьетнамский, длительность записей – 30, 10 и 3 с. Исследованы открытая и закрытая задачи распознавания языка. При тесте на закрытом множестве и длительности записей 30 с ошибка составила 1%.

Роем и Дасом представлена работа на основе акустического подхода [26] по распознаванию 4-х языков Индии: индийского, английского, хинди, ассамского, бенгальского. В качестве параметров используются MFCC-коэффициенты, распознавание осуществляется с использованием GMM- модели. Аудиозапись произведена в звукоизолированной комнате, дикторы – мужчины в возрасте

20-21 г., носители ассамского и бенгальского языков, уверенно владеющие хинди и английским. Число дикторов – по 15 на каждый из 4 языков. Речевые данные – заранее подготовленные выражения как для обучения, так и для тестирования, с предварительной тренировкой дикторов. Система обучалась и тестировалась на одних и тех же дикторах. Вероятность правильного определения языка близка к 100%, при числе компонент смеси 1024.

Торресом-Караскило с соавторами в работе [27] реализовано распознавание языков с помощью GMM-модели, в качестве признаков использованы смещенные MFCC-коэффициенты (Shifted Delta Cepstral, SDC-коэффициенты), обеспечивающие достоверность распознавания, сравнимую с системами фонотактического подхода. В ходе исследований использованы речевые базы CallFriend corpus [28], включающие 12 языков: арабский, фарси, английский, французский, немецкий, хинди, японский, корейский, мандарин, испанский, тамильский, вьетнамский, и OGI_TS с объемом записей 90 минут на каждый из 11 языков (те же языки, кроме арабского). На языковой базе CallFriend тестировались следующие системы: GMM-модель с кепстральными параметрами (GMM-Cepstra-модель), GMM-модель со смещенными кепстральными параметрами SDC (GMM-SD Cepstra-модель), PPRLM (Parallel Phone Recognition Language Model – система с параллельными фонемными распознавателями), фонотактическая GMM-модель с кепстральными параметрами и фонотактическая GMM-модель со смещенными кепстральными параметрами. По достоверности распознавания GMM-SD Cepstra-модель превзошла GMM-Cepstra-модель, а при числе компонентов смеси 512 и более – GMM-SD Cepstra-модель показала достоверность распознавания аналогичную PPRLM системе (ошибка распознавания составила 8%). Фонотактическая GMM- модель со смещенными кепстральными параметрами и числом параллельных распознавателей 12 незначительно превосходит простую GMM-Сepstra-модель. Комбинирование акустической GMM- SD Cepstra-модели и фонотактической GMM-модели со смещенными кепстральными параметрами обеспечило ошибку распознавания 6,9%, что незначительно превосходит PPRLM систему.

На языковой базе OGI_TS сравнение систем распознавания показало, что фонотактическая GMM- модель со смещенными кепстральными параметрами обеспечивает меньший процент ошибок, чем PPRLM.

 

Заключение

Представленный обзор исследований в области распознавания языка показывает, как по мере развития модели языка и используемого математического аппарата распознавания, происходило повышение достоверности распознавания. В большинстве случаев сложно произвести сравнение систем между собой, так как при тестировании использовались разные языковые базы, как по набору языков, их количеству, так и по условиям запись речевых данных,  порядку обучения и тестирования.

Вместе с тем, анализ представленных исследований показывает эффективность применения в задачах распознавания параметрических моделей языка на основе выделения характерных сегментированных последовательностей аудиозаписей (сегментные и слоговые квазиэлементы), мелодии  основного  тона,  спектральных  параметров  (мел-кепстральных  коэффициентов, смещенных мел-кепстральных коэффициентов). В качестве математического аппарата распознавания наиболее широко представлены скрытые марковские модели, модели гауссовых смесей, нейронные сети. Как свидетельствует представленный обзор, в последних системах получили большее распространение модели гауссовых смесей.

Обзор исследований свидетельствует, что при небольшом количестве языков (4-7) система распознавания может обеспечивать высокую достоверность правильного определения языка, но при их возрастании (более 10-12) достоверность падает. В первую очередь это относится к системам на основе просодического подхода для спонтанной речи.

Таким образом, можно сделать вывод, что наиболее перспективным развитием автоматического распознавания языка является комбинирование систем, реализующих различные подходы, с поэтапным их применением для первоначального разделения на группы (или определения принадлежности к той или иной группе), с последующим определением конкретного языка в группе.

 

ЛИТЕРАТУРА

 1.     Шалимов И.А., Бессонов М.А. Обзор методов автоматической идентификации языка аудиосообщения // Труды НИИР. 2011. № 3. С. 43-47.

2.     Leonard R.G., Doddington G.R. Automatic language identification. Technical report RADC-TR-74-200, Air Force Rome Air Development Center, 1974.

3.     Leonard R.G., Doddington G.R. Automatic language identification. Technical report RADC-TR-75-264, Air Force Rome Air Development Center, 1975.

4.     Leonard R.G., Doddington G.R. Automatic language discrimination. Technical report RADC-TR-78-5, Air Force Rome

Air Development Center, 1978.

5.     Leonard  R.G.  Language  recognition  test  and  evaluation.  Technical  report  RADC-TR-80-83,  Air  Force  Rome  Air

Development Center, 1980.

6.     House A.S., Neuberg E.P. Toward automatic identification of the language of an utterance. Preliminary methodological considerations. Jornal of the Acoustical Society of America, vol 62(3): 708-713, 1977.

7.     Li K.P., Edwards T.J. Statistical models for automatic language identification. In Proceedings IEEE International conference on Acoustic, Speech and Signal Processing 80, Denver, CO, 1980.

8.     Cimarusti D., Ives R.B. Development of an automatic identification system of spoken languages: Phase 1. In Proceedings IEEE International conference on acoustic, speech and signal processing, Paris, 1982.

9.     Ives R.B. Aminimal rule AI expert system for real-time classification of natural spoken languages. In Proceedings 2nd annual artificial intelligence and advanced computer technology conference, Long Beach, CA, 1986.

10.  Foil J.T. Language identification using noisy speech. In Proceedings IEEE International conference on acoustic, speech and signal processing, Tokyo, Japan, 1986

11.  Goodman F.J., Martin A.F., Wohlford R.E. Improved automatic language identification in noisy speech. In Proceedings IEEE International conference on acoustic, speech and signal processing, Glasgow, 1989.

12.  Sugiyama M. Automatic language recognition using acoustic features. Technical report TR-1-0167, ATR Interpreting telephony research laboratories, 1991.

13.  Sugiyama M. Automatic language recognition using acoustic features. In Proceedings IEEE International conference on acoustic, speech and signal processing, Toronto, 1991.

14.  Savic M., Acosta E., Gupta S.K. An automatic language identification system. In Proceedings IEEE International conference on acoustic, speech and signal processing, Toronto, 1991.

15.  Nakagawa S., Ueda Y., Seino T. Speaker-independent, text-independent language identification by HMM. In Proceedings IEEE International conference on acoustic, speech and signal processing, Banff, Alberta, 1992.

16.  Itahashi S., Tanaka K., and Zhou J.-X. Discrimination of spoken languages and dialects, 1994. http://citeseer.nj.nec. com/213183.html

17.  Thyme-Gobbel A.E., Hutchins S.E. On using prosodic cues in automatic language identification. Fourth International Conference on Spoken Language, 1996. ICSLP 96. Vol.3, Page(s): 1768-1771.

18.  Cummins F., Gers F., Schmidhuber J. Automatic discrimination among languages based on prosody alone. IDSIA Technical report IDSIA 03-99, 1999.

19.  Roohani M., Sheikhzadegan J. Automatic spoken language identification based on ANN using fundamental frequency and relative changes in spectrum. Speech Science and Technology 2000, Canberra. Р. 70-75.

20.  Wong E., Pelecanos J., Myers S., Sridharan S. Language identification using efficient Gaussian mixture model analysis. Speech Science and Technology 2000, Canberra. Р. 78-83.

21.  Rouas J.-L., Farinas J., Pellegrino F., Andre-Obrecht R. Modeling prosody for language identification on read and spontaneous speech. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Vol: 6, P. I — 40-3 vol.1.

22.  Rouas J.-L. Modeling Long and Short-term prosody for language identification. Jean-Luc Rouas.  INTERSPEECH’2005 – EUROSPEECH – 9th European Conference on Speech Communication and Technology, Lisboa, 2005.

23.  Lin C.-Y., Wang H.-C. LANGUAGE IDENTIFICATION USING PITCH CONTOUR INFORMATION. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. Volume: 1, P. 601 – 604.

24.  Rouas J-L. Automatic prosodic variations modeling for language and dialect discrimination. IEEE transactions on audio, speech and language processing, 2007. vol 15, № 6. P. 1904-1911.

25.  Torres-Carrasquillo P.A., Singer E., Campbell W. The MITLL NIST LRE 2007 Language Recognition System.

26.  Roy P., Das P. K. Language Identification of Indian Languages Based on Gaussian Mixture Models. International Journal of Wisdom Based Computing. 2011. Vol. 1 (3). P. 54-59.

27.  Torres-Carrasquillo P. A., Singer E., Kohler М. A. Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features.

28.  CallFriend Corpus, Linguistic Data Consortium, 1996. http://www.ldc.upenn/ldc/about/callfriend.html

29.  Muthusamy Y.K., Cole R.A., Oshika B.T. The OGI multi-language telephone speech corpus. International Conference on Signal and Language Processing, Alberta, 1992.

30.  Campione E., Veronis J. A multilingual prosodic database. International Conference on Signal and Language Processing, Sydney, Australia, 1998.