AI nhận dạng giọng nói đang bước vào một giai đoặn mới: Hiểu ngôn ngữ toàn cầu

Một công ty khởi nghiệp đã thực hiện một bước đi táo bạo đầy tham vọng trước những gã khổng lồ công nghệ như Apple, Google. AI có thể hiểu tất cả 7.000 ngôn ngữ trên thế giới.

Một công ty khời nghiệp về nhận dạng giọng nói vừa đạt được khoản đầu tư 62 triệu USD. Khoản tiền đó được sử dụng như thế nào? Trong nhiệm vụ Ai có thể hiểu được mọi giọng nói trên thế giới.

Nếu điều đó không làm bạn quan tầm thì bạn đã không dành đủ thời gian để yêu cầu Siri (một AI hỗ trợ của Apple) soạn tin nhắn cho bạn. Nhận dạng giọng nói đang là một thách thức lớn đối với các nhà phát triển và đó là một bài toán đang được các công ty công nghệ để mắt tới. Công nghệ này có ý nghĩa đối với việc giao tiếp giữa con người với máy móc trong các lĩnh vực như robot, xe tự hành và máy tính cá nhân, máy tính có thể hiểu được chính xác ngôn ngữ người nói thông qua giọng nói tự nhiên.

Nhận dạng giọng nói là một công nghệ trọng điểm, nhu cầu thị trường có thể giúp thúc đẩy sự phát triển công nghệ này, điều đó sẽ tạo nên tiếng vang lớn trong việc thu hẹp tương tác giữa con người với máy móc.

Thách thức lớn hiện tại là mô hình đào tạo cho AI. Hầu hết các dữ liệu đào tạo cần phải được phân loại theo cách thủ công, có nghĩa là chỉ có thể đạt được độ chính xác trên một nhóm nhỏ. Công ty Speechmatics đang thực hiện một cách tiếp cận khác trong nỗ lực tìm ra giọng nói đại diện.

Dựa trên dữ liệu được sử dụng trong nghiên cứu “Sự khác biệt về chủng tộc trong nhận dạng giọng nói” của Đại học Stanford, Speechmatics đã ghi lại độ chính xác 82,8 % đối với giọng nói của người Mỹ gốc Phi so vói Google và Amazon là 68,6%. Mức độ chính xác này tương đương với việc giảm 45% lỗi nhận dạng giọng nói – tương đương trung bình 3 từ trong 1 câu.

Công nghệ lõi của nó tiếp xúc với hàng trăm nghìn giọng nói riêng lẻ bằng cách sử dụng dữ liệu giọng nói đại diện, không được gắn nhãn cũng không cần đến sự can thiệp của con người. Điều đó giúp thúc đẩy phạm vi phủ sóng vượt ra ngoài những người nói bằng ngôn ngữ tiếng Anh.

Katy Wigdahl, Giám đốc điều hành cho biết: “Những tiến bộ của chúng tôi trong vài năm qua khiến chúng tôi được nhận rất nhiều sự quan tâm từ các nhà đầu tư dành cho đợt gây quỹ”. “Nhóm Speecharies có tham vọng rất lớn. Chúng tôi có một di sản thực sự trong công nghệ giọng nói kết hợp với một số chuyên gia máy học và giọng nói tài năng nhất thế giới.”

Hiện tại, công cụ hiểu được 34 ngôn ngữ, một sự sụt giảm nhỏ trong một nhóm ngôn ngữ rất lớn (có hơn 7.000 ngôn ngữ được sử dụng trên toàn thế giới). Nhưng nền tảng này đã đạt được những bước tiến ấn tượng về dấu câu, số, đơn vị tiền tệ và địa chỉ, vốn thường gây cản trở cho các công cụ nhận dạng giọng nói.

Tất cả những điều này đã thu hút sự quan tâm lớn đến các công ty có trụ sở tại Vương quốc Anh. Các công ty như 3Play Media, Veritone, Deloitte UK và Vonage, cũng như các cơ quan chính phủ trên toàn thế giới, đang sử dụng nền tảng này.

Phù hợp với mục tiêu toàn cầu của mình, Speecharies có trụ sở chính tại Vương quốc Anh, có văn phòng tại Boston (Hoa Kỳ), Chennai (Ấn Độ) và Brno (Cộng hòa Séc), sẽ sử dụng khoản đầu tư để hỗ trợ mở rộng toàn cầu trên khắp Hoa Kỳ và Châu Á – Thái Bình Dương.

Theo: https://www.zdnet.com/article/ai-powered-speech-recognition-is-entering-a-new-phase/