Đây là ứng dụng Windows có tên VALL-E có bản phát hành mới nhất có thể tải xuống dưới dạng GreatlyimprovedaccuracyandFixGPUmemoryincreaseduringtraining.zip. Nó có thể được chạy trực tuyến trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks cho máy trạm.
Tải xuống và chạy trực tuyến ứng dụng này có tên VALL-E với OnWorks miễn phí.
Làm theo các hướng dẫn sau để chạy ứng dụng này:
- 1. Đã tải ứng dụng này xuống PC của bạn.
- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.
- 4. Khởi động bất kỳ trình giả lập trực tuyến OS OnWorks nào từ trang web này, nhưng trình giả lập trực tuyến Windows tốt hơn.
- 5. Từ Hệ điều hành Windows OnWorks bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 6. Tải xuống ứng dụng và cài đặt nó.
- 7. Tải xuống Wine từ kho phần mềm phân phối Linux của bạn. Sau khi cài đặt, bạn có thể nhấp đúp vào ứng dụng để chạy chúng với Wine. Bạn cũng có thể thử PlayOnLinux, một giao diện đẹp mắt trên Wine sẽ giúp bạn cài đặt các chương trình và trò chơi phổ biến của Windows.
Wine là một cách để chạy phần mềm Windows trên Linux, nhưng không cần Windows. Wine là một lớp tương thích Windows mã nguồn mở có thể chạy các chương trình Windows trực tiếp trên bất kỳ máy tính để bàn Linux nào. Về cơ bản, Wine đang cố gắng triển khai lại đủ Windows từ đầu để nó có thể chạy tất cả các ứng dụng Windows đó mà không thực sự cần đến Windows.
MÀN HÌNH
Ad
THUNG LŨNG
MÔ TẢ
Chúng tôi giới thiệu một phương pháp mô hình hóa ngôn ngữ để tổng hợp văn bản thành giọng nói (TTS). Cụ thể, chúng tôi đào tạo một mô hình ngôn ngữ codec thần kinh (được gọi là VALL-E) bằng cách sử dụng các mã rời rạc bắt nguồn từ mô hình codec âm thanh thần kinh có sẵn và coi TTS là nhiệm vụ lập mô hình ngôn ngữ có điều kiện thay vì hồi quy tín hiệu liên tục như trong công việc trước đây. Trong giai đoạn tiền đào tạo, chúng tôi mở rộng dữ liệu đào tạo TTS lên 60 nghìn giờ nói tiếng Anh, lớn hơn hàng trăm lần so với các hệ thống hiện có. VALL-E nổi bật với các khả năng học tập theo ngữ cảnh và có thể được sử dụng để tổng hợp bài phát biểu được cá nhân hóa chất lượng cao chỉ với bản ghi được đăng ký dài 3 giây của một người nói không nhìn thấy dưới dạng lời nhắc âm thanh. Kết quả thử nghiệm cho thấy VALL-E vượt trội đáng kể so với hệ thống TTS zero-shot tiên tiến nhất về độ tự nhiên của giọng nói và tính tương đồng của người nói. Ngoài ra, chúng tôi nhận thấy VALL-E có thể bảo tồn cảm xúc của người nói và môi trường âm thanh của dấu nhắc âm thanh trong quá trình tổng hợp.
Tính năng
- Quy trình của VALL-E là âm vị → mã rời rạc → dạng sóng
- VALL-E tạo mã codec âm thanh riêng biệt dựa trên lời nhắc mã âm vị và âm thanh
- VALL-E kích hoạt trực tiếp các ứng dụng tổng hợp giọng nói khác nhau
- Zero-shot TTS, chỉnh sửa giọng nói và tạo nội dung
- Kết hợp với các mô hình AI tổng quát khác như GPT-3
- VALL-E có thể tổng hợp giọng nói được cá nhân hóa trong khi vẫn duy trì môi trường âm thanh của lời nhắc của người nói
Ngôn ngữ lập trình
Python
Danh Mục
Đây là một ứng dụng cũng có thể được tìm nạp từ https://sourceforge.net/projects/vall-e.mirror/. Nó đã được lưu trữ trong OnWorks để có thể chạy trực tuyến theo cách dễ dàng nhất từ một trong các Hệ điều hành miễn phí của chúng tôi.