Microsoft bergerak ke arah kebebasan AI dengan tiga model asas baharu

Kemaskini terakhir: 04/04/2026
Pengarang C SourceTrail
  • Microsoft memperkenalkan tiga model asas AI dalaman untuk transkripsi, penjanaan suara dan penciptaan imej bagi mengurangkan pergantungan pada OpenAI.
  • MAI-Transcribe-1 menyokong 25 bahasa dan berfungsi sekitar 2.5x lebih pantas daripada tawaran transkripsi Azure Fast Microsoft semasa.
  • MAI-Voice-1 boleh menjana audio yang boleh disesuaikan selama 60 saat dalam masa kira-kira satu saat, manakala MAI-Image-2 menyasarkan penjanaan imej dan video yang lebih maju.
  • Model-model ini disepadukan ke dalam Microsoft Foundry, MAI Playground, Teams dan Azure, dengan harga yang agresif dan pelan tindakan ke arah model sempadan yang besar menjelang 2027.

Model asas AI baharu Microsoft

Microsoft sedang mengambil langkah yang jelas ke arah autonomi yang lebih besar dalam kecerdasan buatan dengan memperkenalkan tiga model asasnya sendiri yang bertujuan untuk transkripsi, penjanaan pertuturan dan penciptaan imej. Langkah ini menandakan bahawa syarikat itu mahukan susunan AI multimodal yang lebih dalam yang dikawal sepenuhnya olehnya, walaupun ia mengekalkan pakatan komersial yang rapat dengan OpenAI.

Sistem baharu ini, yang dibangunkan di bawah Microsoft AI / MAI Superintelligence pasukan, direka bentuk untuk disambungkan terus ke produk seperti Teams dan Azure serta ke dalam platform eksperimen dalaman. Dalam praktiknya, Microsoft sedang menyediakan asas untuk strategi jangka panjang di mana modelnya sendiri meliputi bahagian beban kerja harian yang semakin meningkat, menempah model luaran seperti daripada OpenAI untuk kes di mana ia memberikan nilai yang jelas dan berbeza.

Tiga model asas binaan Microsoft untuk transkripsi, suara dan imej

Pelancaran ini berkisar tentang tiga model teras: MAI-Transkrip-1 untuk pertuturan-ke-teks, MAI-Suara-1 untuk teks-ke-ucapan dan MAI-Imej-2 untuk penjanaan visual. Bersama-sama, ia membentuk lapisan pertama yang sangat ketara dalam susunan AI berbilang modal yang boleh mengendalikan teks, audio dan imej dalam ekosistem Microsoft.

Daripada hanya bergantung pada model besar dan tujuan umum, Microsoft bertaruh pada sistem berfokuskan tugas yang lebih murah dan pantas untuk kes penggunaan perusahaan biasa. Pendekatan itu amat relevan memandangkan bilangan pengguna Copilot dan ciri berkuasa AI dalam Office, Teams dan Azure terus meningkat, dengan kos yang sebaliknya akan meningkat hampir secara linear dengan penggunaan API.

Model asas seperti ini dilatih menggunakan set data yang besar dan pelbagai supaya ia kemudiannya boleh disesuaikan dengan pelbagai senario. Di sini, ini bermakna memperkasakan segala-galanya daripada transkripsi pusat panggilan dan ringkasan mesyuarat kepada suara sintetik, alat kebolehcapaian dan saluran penciptaan kandungan automatik.

MAI-Transcribe-1: pertuturan-ke-teks berbilang bahasa yang lebih pantas untuk 25 bahasa

MAI-Transcribe-1 ialah versi baharu Microsoft enjin pertuturan-ke-teks dan salah satu bahagian penting dalam pelancaran ini. Model ini menyokong transkripsi dalam 25 bahasa yang berbeza dan telah ditanda aras secara dalaman secara kasarnya 2.5 kali lebih pantas daripada tawaran transkripsi Azure Fast sedia ada syarikat, yang telah menjadi titik rujukan dalam portfolio semasanya.

Peningkatan prestasi ini penting kerana beban kerja transkripsi sangat sensitif terhadap kependaman, terutamanya dalam senario masa nyata seperti sari kata langsung, sokongan pelanggan atau mesyuarat hibrid. Liputan bahasa yang lebih luas juga sejajar dengan jejak global Microsoft, menjadikannya lebih mudah untuk pelanggan multinasional menyeragamkan pada satu penyedia dan bukannya mencampurkan alatan serantau.

Dari sudut pandangan produk, Microsoft merancang untuk menghubungkan MAI-Transcribe-1 terus ke Microsoft Pasukan untuk mengendalikan transkrip mesyuarat dan kapsyen langsung. Lama-kelamaan, enjin yang sama dijangka muncul di bawah hud alat produktiviti yang lain, supaya pengguna melihat kelajuan yang lebih baik dan kos yang lebih rendah tanpa perlu menyedari perubahan penjenamaan.

Penentuan harga telah ditetapkan secara agresif: MAI-Transcribe-1 bermula sekitar $0.36 sejam audio yang diproses, satu angka yang bertujuan untuk mengurangkan tawaran setanding daripada Google dan OpenAI sambil masih berjalan pada infrastruktur awan Microsoft sendiri.

MAI-Voice-1: teks-ke-ucapan ultra pantas dengan suara tersuai

Dari segi penjanaan audio, MAI-Suara-1 ialah model baharu Microsoft untuk menukar teks kepada pertuturanMenurut syarikat itu, ia boleh menghasilkan kira-kira 60 saat audio dalam masa pemprosesan kira-kira satu saat, yang merupakan lonjakan ketara untuk kes penggunaan yang mana daya tindak balas adalah kritikal.

Selain kelajuan mentah, janji utama ialah sokongan untuk suara tersuai dan sejajar dengan jenamaOrganisasi akan dapat menentukan suara yang sepadan dengan identiti atau kes penggunaan khusus mereka, daripada talian hotline sokongan dan ejen perbualan kepada bahan latihan, podcast dan ciri kebolehcapaian. Tahap kawalan itu semakin penting apabila pertuturan sintetik menjadi lebih biasa dan pendengar menjadi lebih menuntut tentang nada dan kejelasan.

Microsoft menyasarkan MAI-Voice-1 tepat pada pembangun dan perusahaan yang membina produk yang sarat dengan suara: pusat panggilan, pembantu dalam aplikasi, alat pembelajaran bahasa, platform media atau sebarang perkhidmatan yang memerlukan penceritaan yang boleh diskala. Dengan harga bermula sekitar $22 setiap satu juta aksara, model ini bertujuan untuk berdaya maju dari segi kewangan pada kedua-dua jumlah yang kecil dan sangat besar.

Dari sudut infrastruktur, MAI-Voice-1 ditawarkan melalui API Azure, Microsoft Foundry dan MAI Playground, membolehkan pasukan menguji suara dengan cepat dan kemudian beralih ke pengeluaran tanpa menukar persekitaran. Ideanya adalah untuk menyelaraskan laluan penuh daripada eksperimen kepada penggunaan dalam susunan Microsoft.

Model Microsoft AI untuk transkripsi suara dan imej

MAI-Image-2: penjanaan imej dan video yang disepadukan ke dalam susunan Microsoft

Model ketiga, MAI-Imej-2, memberi tumpuan kepada penjanaan imej (dan dalam beberapa penerangan, video) daripada gesaan teksWalaupun syarikat itu tidak mendedahkan setiap butiran teknikal, ia meletakkan model tersebut sebagai rakan sejawat visual kepada sistem teks dan audionya, yang bertujuan untuk mengautomasikan penciptaan aset pemasaran, visual produk, papan cerita dan media lain.

Menariknya, MAI-Image-2 mula-mula muncul dengan lebih senyap pada Taman Permainan MAI, persekitaran eksperimen Microsoft untuk model besar, pada pertengahan Mac. Pengumuman semasa memformalkan peranannya sebagai sebahagian daripada yang lebih luas Faundri dan Azure ekosistem, di mana perniagaan boleh mengaksesnya sebagai komponen standard dan bukannya sebagai demo penyelidikan tulen.

Penetapan harga sekali lagi distrukturkan untuk bersaing: syarikat memetik titik permulaan kira-kira $5 bagi setiap satu juta token input untuk teks dan sekitar $33 bagi setiap satu juta token output untuk imej yang dijanaAngka-angka ini dirangka sebagai setaraf dengan, atau di bawah, peringkat yang serupa daripada penyedia pesaing sambil mendapat manfaat daripada susunan keselamatan dan pematuhan perusahaan Microsoft.

Kes penggunaan terdiri daripada aliran kerja kreatif automatik dan visual pemasaran yang diperibadikan kepada prototaip pantas untuk reka bentuk produk. Bagi ramai pelanggan yang telah diseragamkan pada Azure, perkara utama yang menarik perhatian ialah mereka boleh bereksperimen dengan penjanaan imej tanpa membawa masuk vendor luaran tambahan.

Integrasi merentasi Azure, Foundry, MAI Playground dan Microsoft 365

Aspek yang menentukan pelancaran ini ialah betapa eratnya jalinan model-model baharu ini Platform awan dan produktiviti sedia ada MicrosoftKetiga-tiga sistem – MAI-Transcribe-1, MAI-Voice-1 dan MAI-Image-2 – sedang dilancarkan melalui Microsoft Foundry, persekitaran syarikat untuk mengakses dan menstrukturkan model asas.

Pembangun boleh bermula dengan Taman Permainan MAI, di mana model yang sama didedahkan dalam antara muka yang lebih eksperimental. Persediaan itu bertujuan untuk mengurangkan halangan bagi pasukan yang ingin mencuba keupayaan seperti transkripsi, suara sintetik atau penjanaan visual tanpa perlu terus komited kepada integrasi penuh.

Dari segi produk, Microsoft sudah pun menunjukkan Microsoft Pasukan sebagai penerima manfaat awal. MAI-Transcribe-1 ditetapkan untuk memperkasa transkrip dan kapsyen mesyuarat, manakala MAI-Voice-1 dan MAI-Image-2 dijangka akan muncul dari semasa ke semasa dalam pelbagai Pengalaman Copilot dan Microsoft 365, walaupun pengguna akhir mungkin tidak melihat penjenamaan model yang eksplisit.

Bagi syarikat, janji itu adalah susunan tunggal yang koheren di mana transkripsi, suara dan imej berada di sebelah model bahasa, perkhidmatan data dan analitik dalam Azure. Ini dapat memudahkan pematuhan, semakan keselamatan dan pengurusan vendor berbanding menggabungkan pelbagai penyedia AI luaran.

Strategi penetapan harga dan persaingan dengan OpenAI dan Google

Selain spesifikasi teknikal, Microsoft memberi banyak penekanan kepada daya saing hargaSyarikat itu secara terbuka meletakkan model-model ini sebagai alternatif yang boleh menandingi atau mengatasi tawaran serupa daripada OpenAI dan Google, terutamanya untuk penggunaan berterusan dan dalam jumlah yang tinggi.

Titik harga yang diterbitkan – $0.36 setiap jam audio untuk MAI-Transkrip-1, $22 setiap juta aksara untuk MAI-Voice-1 dan $5 / $33 setiap juta token struktur untuk MAI-Image-2 – bukan sekadar butiran teknikal. Ia adalah sebahagian daripada mesej yang lebih luas yang Microsoft mahu dilihat sebagai penyedia AI generatif yang cekap kos dan menyeluruh dan bukannya hanya penjual semula model rakan kongsi.

Dalam pasaran di mana lebih banyak organisasi menerapkan AI ke dalam operasi harian, kos setiap permintaan boleh menjadi pembolehubah strategik dengan cepatDengan memiliki modelnya sendiri, Microsoft boleh memperhalusi keseimbangan antara perbelanjaan pengiraan, kerumitan model dan harga pengguna dan bukannya membayar tambahan yang besar kepada penyedia luaran.

Terdapat juga kesan isyarat: dengan menonjolkan penanda aras dan jadual harganya sendiri, Microsoft secara berkesan memberitahu pelanggan bahawa mereka tidak lagi perlu menggunakan model pihak ketiga secara lalai untuk beban kerja teras seperti transkripsi, pertuturan dan imej jika mereka sudah komited kepada Azure.

Mustafa Suleyman dan visi AI "berpusatkan manusia".

Tiga model baharu itu datang daripada pasukan yang dikumpulkan di bawah Microsoft AI / MAI Superintelligence, dipimpin oleh mustafa suleman, yang kini mengetuai Microsoft AI. Suleyman, yang dikenali kerana peranannya sebelum ini dalam industri AI, telah menggariskan visi yang digambarkannya sebagai "AI humanis" atau kecerdasan buatan yang berpusatkan manusia.

Dalam komunikasi Microsoft mengenai pelancaran tersebut, Suleyman menekankan bahawa model-model ini direka bentuk untuk mencerminkan bagaimana orang ramai sebenarnya berkomunikasi, mengutamakan kegunaan praktikal dan keselamatanMatlamatnya, dalam kata-katanya, adalah untuk mewujudkan sistem yang kurang merupakan projek penyelidikan abstrak dan lebih banyak alatan yang sesuai dengan aliran kerja harian di tempat kerja dan di rumah.

Beliau juga mencadangkan bahawa trio model semasa adalah hanya permulaan portfolio yang lebih luasMicrosoft merancang untuk melancarkan model asas tambahan melalui Foundry dan terus ke dalam produk, secara beransur-ansur mengembangkan keupayaan dalamannya melangkaui pertuturan dan imej untuk merangkumi lebih banyak modaliti dan tugasan yang lebih khusus.

Pelan tindakan itu menggariskan niat Microsoft untuk dilihat bukan sahaja sebagai platform untuk AI orang lain, tetapi sebagai pembina model canggihnya sendiri yang boleh diletakkan di samping tawaran daripada rakan kongsi lama seperti OpenAI.

Hubungan yang dikalibrasi semula dengan OpenAI dan matlamat model sempadan 2027

Salah satu aspek yang paling sensitif dalam strategi ini ialah bagaimana ia berkaitan dengan Kerjasama berprofil tinggi Microsoft dengan OpenAISyarikat-syarikat tersebut kekal berkait rapat: Microsoft telah melabur lebih $ 13 bilion dalam OpenAI, mengehos modelnya pada Azure dan mengintegrasikan sistem seperti GPT ke dalam produk seperti Copilot.

Walau bagaimanapun, laporan terbaru menunjukkan rundingan semula hubungan yang memberi Microsoft lebih banyak ruang untuk menjalankan penyelidikan AI dan rangkaian produknya sendiri secara selari. Suleyman telah membingkaikan perubahan ini sebagai evolusi semula jadi, bukan perpecahan – lebih serupa dengan syarikat yang mereka bentuk beberapa cipnya sendiri sambil masih membeli daripada pembekal luaran.

Menurut Bloomberg dan saluran lain, Microsoft menyasarkan untuk model berskala besar dan berperingkat sempadannya sendiri yang akan beroperasi menjelang sekitar tahun 2027Sistem yang baru diumumkan itu berada sedikit di hadapan cita-cita itu: ia belum lagi diletakkan sebagai model bahasa tujuan umum yang canggih, tetapi sebaliknya sebagai komponen khusus yang mengurangkan kebergantungan pada API rakan kongsi untuk beban kerja harian.

Dalam praktiknya, ini bermakna Microsoft boleh terus menggunakan model OpenAI seperti GPT-5.4 di tempat yang masuk akal, sementara secara beransur-ansur menukar modelnya sendiri di mana sahaja nisbah kos-prestasi atau pertimbangan strategik mengutamakan teknologi dalaman. Pengguna mungkin hanya perasan bahawa ciri-ciri menjadi lebih pantas atau lebih murah apabila peralihan ini berlaku di latar belakang.

Bagi pasaran AI yang lebih luas, landasan berganda ini menggariskan trend yang jelas: syarikat teknologi besar sedang mencari keseimbangan antara kerjasama dan kemandirian, menggunakan pakatan untuk bergerak pantas tetapi membina keupayaan mereka sendiri bagi mengelakkan daripada terkurung pada satu pembekal sahaja dalam jangka masa panjang.

Dengan ketiga-tiga model ini, Microsoft secara efektifnya sedang meletakkan bendera: ia ingin bersaing di pelbagai peringkat susunan AI – daripada infrastruktur dan perkakasan hinggalah model asas itu sendiri – sambil masih meninggalkan ruang untuk rakan kongsi seperti OpenAI di mana mereka membawa kekuatan unik. Bagi pelanggan, ini boleh diterjemahkan kepada lebih banyak pilihan, harga yang lebih tajam dan peralihan beransur-ansur ke arah AI berjenama Microsoft yang menyokong produk dan perkhidmatan yang biasa.

trampa de dependencias de modelos de lenguaje
artikel berkaitan:
La trampa de dependencia de los LLM: límites, sesgos y riesgos
Related posts: