先进​的​语音识​别

语​音识别API

行业​领先​性​能​的​日语高​精度​语音​转​文字。​使用​针对​日语​音频​优化​的​精度​和​速度​将​口​语​转换​为​文本。

语​音识别​演示
录制音频​并​即时​获得​转录​文本
💡 ​提示:​录音​时长​1-10秒。​停止​后,​自动​转录​将​开始。

行业​领先​的​准确性

在​真实日​语​音频​上​的​基准​测试性​能

98.5%
整体​准确性
清晰​音频​条件
95.2%
嘈杂​环境
背景噪音​处理
<0.5​秒
响应​时间
每​分​钟​音频
97.8%
混合语言
日​英代​码切换
按​领域​划分​的​准确性​比较
客户​服务​电话96.5%
商务​会议97.2%
医疗​咨询95.8%
法律​程序98.1%
技术​讨论96.9%

为​日语​音频​而​构建

专为​日语​语​音识别​设计​的​功能

多​方言​支持
准确识​别​标准​日语、​关西、​东北​和​其他​地区​方言
实时​流式​传输
实时​处理​音​频流,​实现​实时​转录​和​即时​结果
说话​人​分离
自动识别​和​分离​对话​中​的​多个​说话​人
极速​处理
使用​优化​的​推理​管道​在​几​分​钟​内​处理​数​小时​的​音频
企业​级​安全
符合SOC 2​标准,​具有​端到​端加密​和​安全​音频​处理
自定​义​词​汇
添​加行业​特定术语、​品牌​名称​和​自定​义短语​以​提高​准确性

受​信任​的​使用​场​景

了解​企业​如何​利用​我们​的​AS​R API

呼叫​中心​转录
自动​转录​客户​服务​电话,​用于​质量​保证、​合规​和​洞察。
  • 质量​监控
  • 合规记​录
  • 坐席​培训
  • 客户​情感分析
会议​笔​记
将​会议、​访谈​和​讨论​转换​为​可​搜索、​可​操作​的​文本​文档。
  • 商务​会议
  • 访​谈​记录
  • 会议​录​音
  • 团队站​会
字幕​和​说明​文字
为​视频、​直播​和​广播生​成​准确​的​字幕,​支持​实时​或​批​处理​模式。
  • 视​频​字幕
  • 现场​活动​说​明​文字
  • 广播​转录
  • 无障碍合规

API Key

配置​您​的​AP​I密钥
在​下方​输入​您​的​AP​I密钥​以​自动​更​新​此​页面​上​的​所有​代​码示例
热词​和​自定​义​词​汇
通过​在​文本​提示​中​包含​热词​来​提高​专业术语​的​转录​准确性。​热词​帮助​模型​正确识​别:
{
  "audio": "<base64-encoded audio>"
}

快速入门​指南

通过​三​个​简单步骤​开始​使用​语​音识别API

1. ​获取​API密钥

注册​Shisa AI​帐户​并​从​开发者​仪表板​获取​您​的​AP​I​密钥。​在​Au​thorization​标头​中​包​含​它,​并​使用​'s​hsk:'​前​缀:

Authorization: Bearer shsk:YOUR_API_KEY
2.​ ​准备​音频

API​接受​各​种​格式​的​base64​编码​音频。​支持​的​音频​格式​包括:

  • OGG​(Op​us、​Vo​rbis)
  • WAV​(PCM、​16位)
  • M​P3、​We​bM、​M4A、​FL​AC
3. ​发送​第一​个​请​求

向​API​端点​发送​包含​音频​数据​和​配置​的​PO​ST​请求。​这​是​使用​cU​RL​的​基本​示例:

curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \
  -H 'Authorization: Bearer shsk:YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "audio": "'$(base64 -w0 audio.ogg)'"
  }'

Minimal request

Only the audio field is required. Language is auto-detected and tuning parameters use sensible defaults.

Expected Response

The API returns a JSON response with the transcribed text, detected language, and confidence score.

{
  "text": "こんにちは、シサAIです。",
  "language": "ja",
  "confidence": 0.98
}

API​端点

语​音识别API​使用​聊​天式界面​以​实现​最​大​的​灵活性​和​上下​文​感知

语​音识别端点
POSThttps://api.shisa.ai/asr/srt/audio_llm

这个​多​模态​端点​接受​文本​指令​和​音频​内容,​允许​您​提供​上​下文​和​自定​义​词​汇​(热词)​以​提高​准确性。

请​求​参数

使用​这些​参数​配置​您​的​转录​请​求

请​求体​参数
参数类型必​需描述
audiostringRequiredBase64-encoded audio data (WAV, OGG, MP3, or FLAC)
languagestringOptionalLanguage code (e.g. "ja", "en"). Omit for automatic language detection (LID).
hotwordsstring[]OptionalArray of words/phrases to boost recognition accuracy for domain-specific terms
temperaturefloatOptional采样​温度​(0.0-​2.0)。​较低​的​值​使​输出​更​确定。​默认:​ 0.0
Default: 0.0
top_pfloatOptional核​采样​参数​(0.0-​1.0)。​控制​输出​的​多样性。​默认:​ 0.85
Default: 0.85
frequency_penaltyfloatOptional对​频繁​令牌​进行​惩罚​(-2.0​至​2.0)。​减少​重复。​默认:​ 0.5
Default: 0.5
repetition_penaltyfloatOptional对​令牌重复​进行​惩罚​(1.0-​2.0)。​大于​1.0​的​值会​抑制​重复。​默认:​ ​1.05
Default: 1.05
vadintegerOptionalVoice activity detection mode
Default: 1
音频输入​格式

音频​必须​以​以下​格式​的​base64​编码​数​据​URL​提供:

"audio": "SGVsbG8gV29ybGQ..."

Pass raw base64-encoded audio data in the audio field. The server auto-detects the format from the binary header.

支持​的​音频​格式:

FormatMIME TypeDetection
WAVaudio/wavRIFF header
OGGaudio/oggOggS header
MP3audio/mpegID3 tag or MPEG sync bytes
FLACaudio/flacfLaC header

将​音频​编码​为​Base64

使用​以下命令​将​音频​文件​转换​为​base​64:

# Encode any supported format to base64
base64 -w0 audio.ogg    # Linux
base64 -i audio.ogg     # macOS

# Use in a curl request
curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \\
  -H 'Authorization: Bearer shsk:YOUR_API_KEY' \\
  -H 'Content-Type: application/json' \\
  -d '{ "audio": "'$(base64 -w0 audio.ogg)'" }'
Supported Languages (LID)

The API supports automatic language identification (LID) for the following languages. The detected language is returned in the language field of the response.

Primary Languages

jaJapanese
enEnglish
zhChinese

响​应格式

理解A​P​I响应​结构

成​功响​应
{
  "text": "こんにちは、シサAIです。",
  "language": "ja",
  "confidence": 0.98
}

响​应​字段:

  • text: The transcribed text from the audio
  • language: The detected or specified language code
  • confidence: Transcription confidence score (0 to 1)

错误​处理

常​见​错误​及​其解决​方法

错​误响​应格式
{
  "code": 400,
  "error": "No audio data provided"
}
401 Authentication Error

Returned when the API key is missing, invalid, or expired. Check that your Authorization header includes a valid token.

{
  "context": ["authMiddleware"],
  "code": 104,
  "name": "ErrAuthenticationFailed",
  "error": "Authentication error: Invalid token"
}
Error Codes
CodeCauseError Message
400Missing audio fieldNo audio data provided
400Audio decodes to emptyNo audio data provided
400Not base64 encodedInvalid base64 audio data
400Base64 decode failsInvalid base64 audio data
400Unsupported audio formatUnsupported audio format
500Services not readyTranscription service not available
500Backend failureTranscription failed: ...

代​码示例

流行​编程​语言​的​集成​示例

cURL - ​快速入​门
使用​cU​RL​转录​音频​文件​的​基本​示例
curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \
  -H 'Authorization: Bearer shsk:YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "audio": "'$(base64 -w0 audio.ogg)'"
  }'
Python -​ ​完​整​示例
包含​base64​编码​和​热词​支持​的​完整​Python函数
import base64
import requests

# Read and encode audio file
with open("audio.ogg", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode("utf-8")

url = "https://api.shisa.ai/asr/srt/audio_llm"
headers = {
    "Authorization": "Bearer shsk:YOUR_API_KEY",
    "Content-Type": "application/json"
}

payload = {
    "audio": audio_data
}

response = requests.post(url, headers=headers, json=payload)
response.raise_for_status()
print(response.json())
JavaScript - 浏览器​集成
使用​Fi​leReader A​PI​的​客户​端JavaScrip​t示例
async function transcribeAudio(audioFile) {
  // Read file and convert to base64
  const fileBuffer = await audioFile.arrayBuffer();
  const base64Audio = btoa(
    new Uint8Array(fileBuffer).reduce(
      (data, byte) => data + String.fromCharCode(byte),
      ''
    )
  );

  const response = await fetch('https://api.shisa.ai/asr/srt/audio_llm', {
    method: 'POST',
    headers: {
      'Authorization': 'Bearer shsk:YOUR_API_KEY',
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      audio: base64Audio
    })
  });

  if (!response.ok) {
    throw new Error(`API request failed: ${response.status}`);
  }

  return await response.json();
}

// Example usage with file input
document.querySelector('#audioInput').addEventListener('change', async (e) => {
  const file = e.target.files[0];
  if (file) {
    const result = await transcribeAudio(file);
    console.log('Transcription:', result);
  }
});

精准​地​将​语音​转换​为​文本

从​每月​180​分钟​(3​小时)​的​免费​转录​开始。​随着​您​的​增长​而​扩展。