前言
在目前的软件应用中,输入方式还是以文字输入方式为主,但是语音输入的方式目前应用的越来越广泛。这是一个利用 Olami SDK 编写的一个24点iOS程序,是通过语音进行输入。
Olami SDK的介绍在下面这个网址
https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html
在这个网址中详细的介绍了Olami SDK包含了那些函数和定义的委托。
App实现
下面就通过24点这个程序来介绍一下如何使用这个SDK。
这个APP可在 https://github.com/lym-ay/OlamiRecognizerMath24 下载
- 去上面的网址下载Olami SDK.包括两个文件,其中的一个是Olami的静态函数库,一个是其头文件
第一步是初始化Olami的语音识别对象,并设置代理
olamiRecognizer= [[OlamiRecognizer alloc] init];
olamiRecognizer.delegate = self;
2.调用setAuthorization函数进行授权
[olamiRecognizer setAuthorization:@"d13bbcbef2a4460dbf19ced850eb5d83" api:@"asr" appSecret:@"3b08b349c0924a79869153bea334dd86" cusid:OLACUSID];
这个函数的参数的说明在OlamiRecognizer中有说明,也可以去在线API说明去查看
https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html
有些参数必须去Olami的开发平台上注册才可以获的,网址是https://olami.ai,注册登陆以后创建应用才可以看到了
3.设置语系
[olamiRecognizer setLocalization:LANGUAGE_SIMPLIFIED_CHINESE]
在进行录音之前必须要先进行设置,否则会得不到结果。目前只支持简体中文(LANGUAGE_SIMPLIFIED_CHINESE)
4.开始录音
调用 start()接口开始进行录音
[olamiRecognizer start];
5.得到录音的文字和语义,并对其进行处理
通过调用stop()函数或者自动停止,都会获得录音的文字和对其进行的语义分析的结果
实现OlamiRecognizerDelegate onResult函数可以获得结果,其结果以一个json字符串的形式回调过来,对这个字符串进行解析,就可以获得想要的数字。例如对着话筒说”2345算24点”,得到的结果如下
{
"data": { "asr": { "result": "二 三 四 五 算 二 十 四 点", "speech_status": 0, "final": true, "status": 0 }, "nli": [ { "desc_obj": { "status": 0 }, "semantic": [ { "app": "math24", "input": "二三四五算二十四点", "slots": [ { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number3", "value": "4" }, { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number4", "value": "5" }, { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number1", "value": "2" }, { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number2", "value": "3" } ], "modifier": [ "play_calculate" ], "customer": "58df685e84ae11f0bb7b4893" } ], "type": "math24" } ] }, "status": "ok" }
这个是根据OSL语法描述语言定义的一套规则,返回的结果。这个结果的说明在 https://cn.olami.ai/wiki/?mp=api_nlu&content=api_nlu3.html 这个网址上有说明。
看到这里大家可能会有疑惑,APP怎么知道我说的是什么意思呢?这就涉及到了OSL语法描述语言,OLAMI 语法描述语言(OLAMI Syntax Language,简称:OSL)是 OLAMI 平台针对自然语言处理所发展出的独特语法标记语言,自然语言语义互动(Natural Language Interaction, 简称:NLI)管理系统采用 OSL 取代复杂的编码编程,使用简单、容易学习而且灵活有弹性。可以在这个网址查看详细的说明
https://cn.olami.ai/wiki/?mp=osl&content=osl1.html
在编写这个APP之前,会按照OSL的要求编写好一套语法,这套语法可以被Olami的服务器所理解,并进行语义分析然后给出结果,就是上面的json字符串。在Olami官网上有写好的一些领域的模块,可以直接使用。在 https://cn.olami.ai/wiki/?mp=nl